博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3简单爬虫实现代码
阅读量:6804 次
发布时间:2019-06-26

本文共 805 字,大约阅读时间需要 2 分钟。

hot3.png

分享一个实现的。转自:http://www.cnblogs.com/yes123/p/3761388.html 

写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp  import urllib.request import re #登录用的帐户信息 data={}data['fromUrl']='' data['fromUrlTemp']='' data['loginId']='12345' data['password']='12345' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #登录地址 #url='http://192.168.1.111:8080/loginCheck' postdata = urllib.parse.urlencode(data) postdata = postdata.encode('utf-8')headers = { 'User-Agent' : user_agent } #登录  res = urllib.request.urlopen(url,postdata) #取得页面htmlstrResult=(res.read().decode('utf-8')) #用正则表达式取出所有A标签 p = re.compile(r'
(.*?)') for m in p.finditer(strResult): print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

您可能感兴趣的文章:

转载于:https://my.oschina.net/softsky/blog/271024

你可能感兴趣的文章
迅雷发布“星域CDN” 做条颠覆市场的鲶鱼
查看>>
英国《数字经济法案》
查看>>
Asp.net与Flex交互测试记录
查看>>
后退时保存表单状态
查看>>
泛函编程(13)-无穷数据流-Infinite Stream
查看>>
各驱动器和URL
查看>>
javascript生成二维码
查看>>
开发https应用
查看>>
CF916B
查看>>
BestCoder Round #38
查看>>
详解 Spring 3.0 基于 Annotation 的依赖注入实现(转)
查看>>
linux双网卡双网关,不同IP段的设置
查看>>
javascript数据基本类型和引用类型
查看>>
vs2010 关于缺少Microsoft.Practices.EnterpriseLibrary.Data.dll 等的解决办法
查看>>
OCP读书笔记(17) - 计划任务
查看>>
字符编码
查看>>
Linux Virtualization with Xen
查看>>
c++之单例模式
查看>>
案例12:地下人防电影院防火案例分-析案例13:地下汽车库建筑
查看>>
工作圈redis 使用
查看>>