zoukankan      html  css  js  c++  java
  • [python爬虫]爬取贴吧某页美女图片+爬取糗百美女图片

    #coding:utf-8
    import requests,pyquery,urllib
    import re
    
    def get_html(url):
    	html=urllib.urlopen(url).read()
    	return html
    
    
    def get_image(html):
    	reg=r'src="(.*?.jpg)"'
    	#html=requests.get(url).read()
    	result=re.compile(reg)
    	aim=result.findall(html)
    	i=0
    	for imgurl in aim:
    		urllib.urlretrieve(imgurl,'%s.jpg'%i)
    		i+=1
    html=get_html('http://tieba.baidu.com/p/2166231880')
    print get_image(html)
    
    
    #coding:UTF-8
    from bs4 import BeautifulSoup
    import requests
    import urllib
    import re
    import os
    url='http://www.qiubaichengren.com/'
    def get_html(url):
    	html=requests.get(url).text
    	return html
    
    def get_image(url):
    	result=re.compile(r'src="(.*.jpg)"')
    	i=0
    	for n in range(1,679):
    		page_url=url+'%d.html'%n
    		html=get_html(page_url)
    		aim=result.findall(html)
    		for img_url in aim:
    			urllib.urlretrieve(img_url,"/home/vincebye/Pictures/%s.jpg"%i)
    			print '33[0;36;40m'
    			print "正在下载第"+str(i)+"张图片,请稍等......."
    			i+=1
    			print '33[0m'
    	
    	
    
    
    if __name__ == '__main__':
                  get_image(url)
                  
    

     耗时:1小时30分钟

    错误原因:  IndentationError: unexpected indent  --Python及其要求代码格式对齐

                       request对象没有read()方法

                       是将read之后的网页拿去正则匹配

                       正则文法中()里面是我们匹配的目的,括号之外是描述词

  • 相关阅读:
    BLE编程中关键步骤
    gradle相关配置内容解析
    Gradle版本变更的问题
    【问题】AndroidStudio导入项目一直卡在Building gradle project infod的最快速解决方案
    jdbc.properties各种数据库连接配置
    EL表达式语言总结
    Android sdk目录介绍
    chrome的常用快捷键和命令
    Unity Hub for Mac 破解
    MAC下安装配置Tomcat
  • 原文地址:https://www.cnblogs.com/vincebye/p/5925339.html
Copyright © 2011-2022 走看看