代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
抓取网页所有url
作者:
擎苍
/ 发布于
2018/3/7
/
1295
抓取网页所有url的简单Python爬虫源码,只用到了一个Python标准库urllib模块,没有用BeautifulSoup第三方库。
import urllib content = urllib.urlopen('http://www.iplaypy.com/').read() s1=0 while s1>=0: begin = content.find(r'<a',s1) href=",begin) m2 = content.find(r" m1="content.find(r'">',m1) s1 = m2 if(begin<=0): break elif(content[m1:m2].find(r" ")!=-1): m2 = content[m1:m2].find(r' ') url = content[m1+6:m1+m2-1] print url elif m2>=0: url = content[m1+6:m2-1] print url print "end." </a',s1)>
试试其它关键字
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
擎苍
贡献的其它代码
(
12
)
.
抓取网页所有url
.
列表oracle下的所有表
.
Oracle Connect By Prior用法(实现递归查询)
.
连接并登录到 FTP 服务器
.
JSON转换DataTable
.
从Json信息中获取对应字段的值
.
删除标题中包含某些文字的 email
.
获取地图连接 初始化地图连接
.
加密cookie类
.
添加删除行和双击变文本框
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3