python3简单爬虫实现代码-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python3简单爬虫实现代码

阅读量：6804 次

发布时间：2019-06-26

本文共 805 字，大约阅读时间需要 2 分钟。

分享一个实现的。转自：http://www.cnblogs.com/yes123/p/3761388.html

写了个python3的。代码非常简单就不解释了，直接贴代码。

#test rdp  import urllib.request import re #登录用的帐户信息 data={}data['fromUrl']='' data['fromUrlTemp']='' data['loginId']='12345' data['password']='12345' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #登录地址 #url='http://192.168.1.111:8080/loginCheck' postdata = urllib.parse.urlencode(data) postdata = postdata.encode('utf-8')headers = { 'User-Agent' : user_agent } #登录  res = urllib.request.urlopen(url,postdata) #取得页面htmlstrResult=(res.read().decode('utf-8')) #用正则表达式取出所有A标签 p = re.compile(r'
    
     (.*?)') for m in p.finditer(strResult): print (m.group(1))#group(1)是href里面的内容，group(2)是a标签里的文字

关于cookie、异常等处理看了下，没有花时间去处理，毕竟只是想通过写爬虫来学习python。

您可能感兴趣的文章：

转载于:https://my.oschina.net/softsky/blog/271024

你可能感兴趣的文章

迅雷发布“星域CDN” 做条颠覆市场的鲶鱼

英国《数字经济法案》

Asp.net与Flex交互测试记录

后退时保存表单状态

泛函编程（13）－无穷数据流－Infinite Stream

各驱动器和URL

javascript生成二维码

开发https应用

BestCoder Round #38

详解 Spring 3.0 基于 Annotation 的依赖注入实现(转)

linux双网卡双网关，不同IP段的设置

javascript数据基本类型和引用类型

vs2010 关于缺少Microsoft.Practices.EnterpriseLibrary.Data.dll 等的解决办法

OCP读书笔记(17) - 计划任务

Linux Virtualization with Xen

c++之单例模式

案例12：地下人防电影院防火案例分-析案例13：地下汽车库建筑

工作圈redis 使用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-31 03:11:53 当前IP: 3.17.76.178 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我