zoukankan html css js c++ java

Python 爬虫学习一

# coding: utf8

import requests
from bs4 import BeautifulSoup


PhotoName = 1


DATA = []


def save_img(url,name): ##保存图片
   # print('开始保存图片...')
    img = requests.get(url)
    file_name = name+ '.jpg'
   #print('开始保存文件')
    f = open(file_name, 'ab')
    f.write(img.content)
    print(url,'is ok!')
    f.close()


 



#print(res.text)


html_doc = res.text
soup = BeautifulSoup(html_doc, 'lxml').find_all('img')  #声明BeautifulSoup对象


#for m in soup:
 # print(m['src']) 


for n in range(68):
    try:
        res = requests.get('http://qq.yh31.com/zjbq/0551964_'+str(n+2)+'.html',timeout=15)
    except: #（可以自己添加错误类型）
        pass
    #print(res.text)
    soup = BeautifulSoup(res.text, 'lxml').find_all('img',alt="")#class_='c_content_overflow'
    mess ='第' +str(n+2)+'页,爬取图片地址'+ str(len(soup))+'张...'
    print(mess)
    for vl in soup:
        DATA.append('http://x.yh31.com:85'+vl['src'])
        PhotoName+=1
        save_img('http://x.yh31.com:85'+vl['src'],str(PhotoName))

#取标签内值 vl.string

了解 requests 库简单获取网页数据，然后利用bs4来获取到我们想要的数据结构。

查看全文

相关阅读:
我的插件框架·前传
 在OpenSUSE中听歌
 ASP.NET MVC 3.0 源码阅读手记(1)
Mono on Linux 开发与实践札记(1)
探讨对Web控件的异常处理
 进销存管理中负库存产生的原因以及对应措施
 看了一篇不错的文章使用 UTF8 对 XML 文档进行编码
 进销存管理中对红冲处理的误区
 Ajax学习笔记(2) 一定要用XML吗?
打造自己的Html文本编辑控件

原文地址：https://www.cnblogs.com/xuandi/p/6836990.html

Python 爬虫 学习一

Python 爬虫学习一