zoukankan      html  css  js  c++  java
  • Python文本爬虫实战

    转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html 

    一:流程

    目标:爬取目标网页的图片

    1:获取网页源码

    2:用Python读取源码

    3:使用正则表达式从网页源码提取图片地址

    4:根据图片地址下载图片

    二:实现

    1:源码获取

    文本爬虫,是在已有的文本内容中爬取需要的信息,这区别于网络爬虫。

    由于被检索的内容是现成的,因此,文本爬虫又叫“半自动爬虫”。

    在本例中,我们以昵图网首页为目标网址,因此,我们先到昵图网首页,右键—>查看源代码—>保存源码到txt文件。

    2:编写代码

    #coding:utf8
    import re
    import requests
    
    #1:读取文本文件,存到一个变量中
    f=open("src.txt","r+")
    htmls=f.read()
    f.close()
    
    #2:使用正则表达式,从独取出来的文本内容中进行提取
    img_url=re.findall('<img src="(.*?)"',htmls,re.S)
    
    #3:遍历正则表达式的匹配结果,使用requests模块功能连接图片并通过文件写操作把图片保存下来
    i=1;
    for each in img_url:
        #连接到图片
        img=requests.get(each)
        #创建图片文件
        fp=open('img'+str(i)+'.jpg',"wb")
        #把链接到的图片内容写入文件
        fp.write(img.content)
        #关闭文件
        fp.close()
        i=i+1
  • 相关阅读:
    【POJ】1204 Word Puzzles
    【POJ】1816 Wild Words
    【HDOJ】1247 Hat’s Words
    【HDOJ】2609 How many
    【POJ】1035 Spell checker
    【POJ】2418 Hardwood Species
    【POJ】1056 IMMEDIATE DECODABILITY
    数列有序!
    绝对值排序
    C语言合法标识符
  • 原文地址:https://www.cnblogs.com/ygj0930/p/7019950.html
Copyright © 2011-2022 走看看