Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
目录
- coding=gbk
- import urllib.request
- import re
- import os
- import urllib
-
- def getHtml(url): 指定网址获取函数
- page = urllib.request.urlopen(url)
- html = page.read()
- return html.decode('UTF-8')
-
- def getImg(html): 定义获取图片函数
- reg = r'src="(.+?\.jpg)" pic_ext'
- imgre = re.compile(reg)
- imglist = imgre.findall(html)
- x = 0
- path = r'F:\File_Python\Crawler'
- 将图片保存到F:\File_Python\Crawler文件夹中,如果没有Crawler文件夹,将会自动则创建
- if not os.path.isdir(path):
- os.makedirs(path)
- paths = path+'\\'
-
- for imgurl in imglist: 打开in集合中保存的imgurl图片网址,循环下载图片保存在本地
- urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))
- x = x + 1
- return imglist
- html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")指定获取图片的网址路径
- print (getImg(html))
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
加入交流群
请使用微信扫一扫!