当前位置：首页 > news >正文

使用Python一年多了，总结八个好用的Python爬虫技巧

news 来源：原创 2024/6/2 11:24:05

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

1、基本抓取网页

get方法

post方法

在这里还是要推荐下我自己建的Python开发学习裙:304 零五零 799，群里都是学Python开发的，如果你正在学习Python ，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2018最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴

2、使用代理IP

开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，python提供了cookielib模块用于处理cookies，cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源.

代码片段：

关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。

手动添加cookie

4、伪装成浏览器

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况

对有些 header 要特别留意，Server 端会针对这些 header 做检查

1.User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request

2.Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，代码片段如下：

5、页面解析

对于页面解析最强大的当然是正则表达式，这个对于不同网站不同的使用者都不一样，就不用过多的说明，附两个比较好的网址：

正则表达式入门：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表达式在线测试：http://tool.oschina.net/regex/

其次就是解析库了，常用的有两个lxml和BeautifulSoup，对于这两个的使用介绍两个比较好的网站：

lxml：http://my.oschina.net/jhao104/blog/639448

BeautifulSoup：http://cuiqingcai.com/1319.html

对于这两个库，我的评价是，都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；lxmlC语言编码，高效，支持Xpath

6、验证码的处理

对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。电动叉车

7、gzip压缩

有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有发送压缩数据的能力，这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于 XML web 服务，因为 XML 数据的压缩率可以很高。

但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码：

这是关键:创建Request对象，添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据：

8、多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。

虽然说python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

转载于:https://www.cnblogs.com/xyou/p/9944596.html

相关文章：

IO的模式

[cogs2652]秘术「天文密葬法」

【AliOS Things学习笔记】在Developerkit开发板上运行blink例程

黑盒测试的测试方法

开发阶段

angular2+ 生命周期

可见面判别算法---光线投射算法

[每日短篇] 10 - Docker 清理无用的镜像

书摘—极致产品

0013-如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据

MySQL数据类型详解

React和Redux的连接react-redux

VUE-文字跑马灯

虚拟机与Docker有何不同？

命令执行

@jsonView过滤属性

[ 一起学React系列 -- 8 ] React中的文件上传

《Java8实战》-第四章读书笔记（引入流Stream）

【Amaple教程】5. 插件

【划重点】MySQL技术内幕：InnoDB存储引擎

Linux链接文件

miniui datagrid 的客户端分页解决方案 - CS结合

Node 版本管理

PHP的Ev教程三(Periodic watcher)

PHP那些事儿

SpiderData 2019年2月16日 DApp数据排行榜

spring security oauth2 password授权模式

UEditor初始化失败（实例已存在，但视图未渲染出来，单页化）

vuex 学习笔记 01

阿里云应用高可用服务公测发布

高程读书笔记第六章面向对象程序设计

工作手记之html2canvas使用概述

机器学习中为什么要做归一化normalization

入口文件开始，分析Vue源码实现

深度学习中的信息论知识详解

源码安装memcached和php memcache扩展

在Docker Swarm上部署Apache Storm：第1部分

Play Store发现SimBad恶意软件，1.5亿Android用户成受害者 ...

树莓派用上kodexplorer也能玩成私有网盘

完善智慧办公建设，小熊U租获京东数千万元A+轮融资 ...

#ifdef 的技巧用法

#我与虚拟机的故事#连载20：周志明虚拟机第 3 版：到底值不值得买？

（1）(1.9) MSP (version 4.2)

（Redis使用系列） SpirngBoot中关于Redis的值的各种方式的存储与取出三

（博弈 sg入门）kiki's game -- hdu -- 2147

(附源码)springboot课程在线考试系统毕业设计 655127

（论文阅读30/100）Convolutional Pose Machines

（顺序）容器的好伴侣 --- 容器适配器

（一）Mocha源码阅读: 项目结构及命令行启动

... 是什么？... 有什么用处?

.Net 8.0 新的变化

.NET 设计模式初探

.Net 中的反射(动态创建类型实例) - Part.4（转自http://www.tracefact.net/CLR-and-Framework/Reflection-Part4.aspx）...

.Net多线程总结