一个完整的爬虫入门程序
直接先说准备工作:
(1)清楚爬虫工作的流程:
成都创新互联成立与2013年,是专业互联网技术服务公司,拥有项目成都网站制作、成都网站建设、外贸营销网站建设网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元宣汉做网站,已为上家服务,为宣汉各地企业和个人服务,联系电话:028-86922220
向页面发出请求---------获取请求文件---------处理请求文件--------抽取自己想要的内容
(2)要用到的函数与库
主要是requests库: 负责去向页面发出请求
beautiSoup4库:对抓取的页面文档进行解析
re库:匹配所需字段
可能存在的问题:
(1)编码的问题:注意页面中,以及读写的编码
(2)循环读取页面时注意页面访问地址的变化情况
完整代码:
import requests
from urllib3 import request
import re
class Spider:
def __init__(self):
# 初始化起始页位置
self.page = 1
#爬取开关,如果为True继续爬取
self.switch = True
def loadPage(self):
"""
作用:下载页面
"""
print("正在下载数据....")
#这个页面的下载规则
url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
response = requests.get(url, headers = headers)
#处理编码
response.encoding=response.apparent_encoding
#获取每页的HTML源码字符串
html = response.text
#创建正则表达式规则对象,匹配每页里的段子内容,re.S 表示匹配全部字符串内容
pattern = re.compile('(.*?)', re.S)
#将正则匹配对象应用到html源码字符串里,返回这个页面里的所有段子的列表
content_list = pattern.findall(html)
#调用dealPage() 处理段子里的杂七杂八
self.dealPage(content_list)
def dealPage(self, content_list):
"""
处理每页的段子
content_list : 每页的段子列表集合
"""
for item in content_list:
# 将集合里的每个段子按个处理,替换掉无用数据
item = item.replace("","").replace("
", "").replace("
", "")
#处理完后调用writePage() 将每个段子写入文件内
self.writePage(item)
def writePage(self, item):
"""
把每条段子逐个写入文件里
item: 处理后的每条段子
"""
#写入文件内
print("正在写入数据....")
#编码的处理
with open(r"duanzi1.txt", "a",encoding="utf-8") as f:
f.write(item)
def startWork(self):
"""
控制爬虫运行
"""
#循环执行,直到 self.switch == False
while self.switch:
# 用户确定爬取的次数
self.loadPage()
command =input("如果继续爬取,请按回车(退出输入quit)")
if command == "quit":
# 如果停止爬取,则输入 quit
self.switch = False
#每次循环,page页码自增
self.page += 1
print("谢谢使用!")
if __name__ == "__main__":
duanziSpider = Spider()
duanziSpider.startWork()
名称栏目:一个完整的爬虫入门程序
网页URL:http://pcwzsj.com/article/popeip.html