来自 电脑系统 2019-12-23 07:03 的文章
当前位置: 金沙澳门官网网址 > 电脑系统 > 正文

python爬取腾讯体育图库的图片几页,使用Python获

importurllibimportreimporturllib2#得逞爬取了Tencent情报体育图片的几页foriinrange(2,4卡塔尔国:#此间能够友善设置要爬取的页数,此处为了测量检验值爬取了两页url="_"+str(i)+".htm"#考查每页的变化req=urllib2.Request(url卡塔尔国req.add_header=("User-Agent","Mozilla/5.0(WindowsNT10.0;Win64;x64;rv:67.0)Gecko/20100101Firefox/67.0")#假装浏览器response=urllib.urlopen(url卡塔尔html=response.read(卡塔尔(قطر‎.decode("gbk","ignore"卡塔尔(قطر‎src=r'imgsrc="(//.*?.jpg)"'imgrl=re.compile(src)imglist=re.findall(imgrl,html)x=0foreachinimglist:print""+str(each)response=urllib.urlopen(""+str(each))#相当的重大的有些是独有是始于这种格式的本领被urlopen编写翻译sport_img=response.read()withopen("D:zoopictures%s%s.jpg"%(i,x),"wb")asf:#名字命名重复的话会使得图片被遮住f.write(sport_img)x+=1

近年个人供给在部分网页上得到图片,因一张张图纸保存实在麻烦,钻探了下利用Python自动化获取并下载图片,以下是研商进程:

获取HTML源代码

importurllibimporturllib2header={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36","Connection":"keep-alive","Referer":", text/plain, */*"}#  设置诉求的header

先是获得HTML的布局

使用urllib:

defgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtml

唯独那样无法设置headers,使用urllib2可一举成功:

defgetHtml(url卡塔尔国:req=urllib2.Request(url,headers=header卡塔尔html=urllib2.urlopen(req卡塔尔(英语:State of Qatar)htmlData=html.read(卡塔尔国print'深入剖析成功!'# with open('test.txt', 'w') as f:# f.write(htmlData)returnhtmlData

得到HTML源码后就能够依据正则获取图片的src,将图纸的src用列表保存,如

urllist= ['123456.jpg','aa.jpg']

伸手图片链接并下载到本地

对urllist循环进行呼吁,使用urllib.urlretrieve可径直下载,不供给发动诉求:

x=0forimgurlinimglist:urllib.urlretrieve(imgurl,'%s.jpg'%x)#开垦imglist中保留的图纸网站,并下载图片保存在地点x=x+1

经实际测量检验,使用urllib.urlretrieve仅能够下载同步渲染的图片,如百度贴吧的图纸,对于必要长日子加载出来的图样则会冒出下载的图片在该地超小概预览的提示,并且urllib.urlretrieve使用的暗许python的header,肯定得到不图片。

本文由金沙澳门官网网址发布于电脑系统,转载请注明出处:python爬取腾讯体育图库的图片几页,使用Python获

关键词: