当前位置: 首页 > news >正文

python 第一个爬虫

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

# -*- coding: utf-8 -*-   
#---------------------------------------  
#   程序:百度贴吧爬虫   
#   语言:Python 2.7  
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数  
#   功能:下载对应页码内的所有页面并存储为html文件
#---------------------------------------  

import urllib2,string

def baidu_tieba(url,begin_page,end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i, 5)+".html"
		print "正在下载第" + str(i) + "页,存储为文件" + sName + "......"
		f = open(sName,"w+")
		res = urllib2.urlopen(url) 
		f.write(res.read())
		f.close()
		
url = raw_input("请输入地址 : ")
begin_page = int(raw_input("输入开始页数 : "))
end_page = int(raw_input("输入结束页数 : "))

baidu_tieba(url, begin_page, end_page)

请输入地址 : http://tieba.baidu.com/p/3526302131?

输入开始页数 : 1

输入结束页数 : 2

正在下载第1页,存储为文件00001.html......

正在下载第2页,存储为文件00002.html......

OK了,打开看看有没有这两个文件。


转载于:https://my.oschina.net/sunxichao/blog/372013

相关文章:

  • C#文件操作
  • 通过日志恢复SQL Server的历史数据
  • DateTime Calendar
  • Sqlserver与Oracle 10g数据类型对照
  • win7、Ubuntu双系统Grub启动菜单修复
  • IT男吃什么最利于健康
  • 根据经纬度获取时区信息
  • 团购消费已成近期投诉热点 长假团购需防三大陷阱
  • 大数据架构和模式(五)——对大数据问题应用解决方案模式并选择实现它的产品...
  • 解决MSE, Windows Update/Defender无法更新(错误代码0x8024402F)
  • Android_CodeWiki_03
  • D3D 部分功能测试结论
  • PHP time(), microtime(),date()函数
  • 使用快照隔离snapshot isolation实例(二)
  • Powershell管理系列(十七)在PowerShell中添加Exchange管理单元
  • 230. Kth Smallest Element in a BST
  • Android组件 - 收藏集 - 掘金
  • angular组件开发
  • JavaScript 奇技淫巧
  • JavaScript设计模式系列一:工厂模式
  • Java程序员幽默爆笑锦集
  • Java到底能干嘛?
  • laravel with 查询列表限制条数
  • mysql 5.6 原生Online DDL解析
  • OSS Web直传 (文件图片)
  • Python打包系统简单入门
  • react 代码优化(一) ——事件处理
  • Redis学习笔记 - pipline(流水线、管道)
  • RxJS: 简单入门
  • TCP拥塞控制
  • TypeScript实现数据结构(一)栈,队列,链表
  • vue脚手架vue-cli
  • 百度贴吧爬虫node+vue baidu_tieba_crawler
  • 从输入URL到页面加载发生了什么
  • 服务器从安装到部署全过程(二)
  • 基于遗传算法的优化问题求解
  • 计算机在识别图像时“看到”了什么?
  • 前嗅ForeSpider教程:创建模板
  • 如何进阶一名有竞争力的程序员?
  • 一份游戏开发学习路线
  • 完善智慧办公建设,小熊U租获京东数千万元A+轮融资 ...
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (附源码)spring boot车辆管理系统 毕业设计 031034
  • (附源码)基于SpringBoot和Vue的厨到家服务平台的设计与实现 毕业设计 063133
  • (接口封装)
  • (九)信息融合方式简介
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (转)负载均衡,回话保持,cookie
  • (转载)CentOS查看系统信息|CentOS查看命令
  • ..thread“main“ com.fasterxml.jackson.databind.JsonMappingException: Jackson version is too old 2.3.1
  • .apk文件,IIS不支持下载解决
  • .NET MAUI学习笔记——2.构建第一个程序_初级篇
  • .net开发引用程序集提示没有强名称的解决办法
  • .NET是什么
  • [ vulhub漏洞复现篇 ] Hadoop-yarn-RPC 未授权访问漏洞复现