豆瓣top250数据爬虫 最后更新时间:2021年01月03日 ###### 设计思路: - 通过url,去网页上爬取豆瓣top250的影片信息。 - 获取图片url - 获取网页源文件文本内容 - 切片获取所需资源 - 建立文件夹 - 将信息写入文本文件 - 下载图片 ###### 重点及难点: - 网页反爬虫,人机检验 - 有的影片没有推荐理由 - 图片下载 - 新建文件夹 ###### 解决方法: - 网页反爬虫,人机检验 对Request头进行封装,`Request.Request(url=”url”,headers=)`其中headers为user agent,作为人机检验,需要用户去网页获取user agent数据,如:"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"使用时为字典形式。 - 有的影片没有推荐理由 对于没有推荐理由的影片,程序会报错,使用try…except…语句进行异常捕捉,出现异常时返回没有推荐理由的文本信息。 - 图片下载 使用request中的一个方法urlretrieve(url,filename=”下载路径和文件名”)。 - 新建文件夹 使用python内置模板os的方法makedirs(“新建文件夹路径”) ###### 实际代码: ```python from urllib import request import os import time from random import randint user_agent={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"}#user agent为字典形式 for a in range(0,10): req=request.Request(url="https://movie.douban.com/top250?start={}&filter=".format(a*25),headers=user_agent)#头封装 html=request.urlopen(req) text_html=html.read().decode() for i in range(1,26): rank=text_html.split("")[i].split("")[1].split("<")[0] name=text_html.split("")[i].split("title")[1].split(">")[1].split("<")[0] try: info=text_html.split("")[i].split("inq")[1].split(">")[1].split("<")[0] except IndexError: info="该片没有推荐理由" os.makedirs("inf/{}".format(name)) infoo=open("inf/{}/{}.txt".format(name,name),"w") infoo.write("排名:{},片名:《{}》,推荐理由:{}".format(rank,name,info)) pic = text_html.split("")[i].split("img width")[1].split("src=\"")[1].split("\"class")[0] print(pic) request.urlretrieve(pic,filename="inf/{}/{}.jpg".format(name,name)) print("排名:{},片名:《{}》,推荐理由:{}".format(rank,name,info)) time.sleep(randint(2,10)) ```
Comments | NOTHING