Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说《星祖的电影世界》


ikun
ikun 2022-09-20 10:47:15 63815
分类专栏: 资讯

Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说《星祖的电影世界》

目录

输出结果

核心代码


输出结果

核心代码

  1. -*- coding: utf-8 -*-
  2. '''
  3. Created on 2018年4月7日
  4. @author: niu
  5. '''
  6. Py之Crawler:利用beautifulsoup+find_all方法实现下载在线书架小说《星祖的电影世界》
  7. find_all方法的第一个参数是获取的标签名,第二个参数class_是标签的属性。
  8. from bs4 import BeautifulSoup
  9. import requests, sys
  10. class downloader(-title class_ inherited__">object):
  11. def __init__(self):
  12. self.server = 'http://www.biqukan.com/'
  13. self.target = 'http://www.biqukan.com/50_50927/'
  14. self.names = [] 存放章节名
  15. self.urls = [] 存放章节链接
  16. self.nums = 0 章节数
  17. def get_download_url(self): 获取下载链接
  18. req = requests.get(url = self.target)
  19. html = req.text
  20. div_bf = BeautifulSoup(html) 利用beautifulsoup提取内容
  21. div = div_bf.find_all('div', class_ = 'listmain') 通过审查元素发现全书各个章节存放在了class属性为listmain的div标签下,各章之间差别就在于这些章节的【href】属性不一样,而且其属性正好对应着每一章节URL后半部分,那这样,我们就可以根据标签的href属性值获得每个章节的链接和名称了。
  22. a_bf = BeautifulSoup(str(div[0]))
  23. a = a_bf.find_all('a')
  24. self.nums = len(a[14:]) 剔除不必要的章节,并统计章节数
  25. for each in a[14:]:
  26. self.names.append(each.string)
  27. self.urls.append(self.server + each.get('href')) 再接着提取章节名和章节文章
  28. def get_contents(self, target): 获取章节内容,target下载连接(string),texts章节内容(string)
  29. req = requests.get(url = target)
  30. html = req.text
  31. bf = BeautifulSoup(html)
  32. texts = bf.find_all('div', class_ = 'showtxt') 观察不同标签发现class属性为showtxt的div标签只有一个!这个标签里面存放的内容,是我们需要的小说正文
  33. texts = texts[0].text.replace('\xa0'*8,'\n\n') replace方法,剔除空格,替换为回车进行分段。 在html中是用来表示空格的。replace(‘\xa0’*8,’\n\n’)就是去掉下图的八个空格符号,并用回车代替
  34. return texts
  35. def writer(self, name, path, text): 将爬取的文章内容写入文件
  36. write_flag = True
  37. with open(path, 'a', encoding='utf-8') as f: 当前路径下,小说保存名称(string)
  38. f.write(name + '\n') 章节名称(string)
  39. f.writelines(text) 章节内容(string)
  40. f.write('\n\n')
  41. if __name__ == "__main__":
  42. dl = downloader()
  43. dl.get_download_url()
  44. print('《星祖的电影世界》开始下载:')
  45. for i in range(dl.nums):
  46. dl.writer(dl.names[i], '星祖的电影世界.txt', dl.get_contents(dl.urls[i]))
  47. sys.stdout.write(" 已下载:%.3f%%" % float(i/dl.nums) + '\r')
  48. sys.stdout.flush()
  49. print('《星祖的电影世界》下载完成')
文章知识点与官方知识档案匹配,可进一步学习相关知识

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=4109
赞同 0
评论 0 条
ikunL0
粉丝 0 发表 12 + 关注 私信
上周热门
银河麒麟添加网络打印机时,出现“client-error-not-possible”错误提示  1448
银河麒麟打印带有图像的文档时出错  1365
银河麒麟添加打印机时,出现“server-error-internal-error”  1151
统信桌面专业版【如何查询系统安装时间】  1073
统信操作系统各版本介绍  1070
统信桌面专业版【全盘安装UOS系统】介绍  1028
麒麟系统也能完整体验微信啦!  984
统信【启动盘制作工具】使用介绍  627
统信桌面专业版【一个U盘做多个系统启动盘】的方法  575
信刻全自动档案蓝光光盘检测一体机  483
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

添加我为好友,拉您入交流群!

请使用微信扫一扫!