zoukankan      html  css  js  c++  java
  • python自制的糗百爬虫

    #coding=utf-8
    
    import urllib2
    import urllib
    import re
    import time
    from bs4 import BeautifulSoup
    
    def fun ():
        headerl = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
            }
        zuozhe = []
        neirong = []
        print u'开始:',
        a = input()
        print u'结束:',
        b = input()
        while True:
            print u'第%s页
    ' % str(a)
            url = 'https://www.qiushibaike.com/8hr/page/'+str(a)+'/'
            res = urllib2.Request(url,headers=headerl)
            response = urllib2.urlopen(res).read()
            soup = BeautifulSoup(response,'html.parser')
            neirong = soup.select('div.content span')
            zuozhe = soup.select('div.author a h2')
            for i in range(len(zuozhe)):
                print '%s:
    %s
    ' % (zuozhe[i].text,neirong[i].text)
            print u'回车继续'
            raw_input()
            a+=1
            if a>b:
                break
        print u'谢谢使用'
        raw_input()
    
    def fun1():
        str = u"""
        脚本名称:糗事百科爬虫
        版本:0.3
        创造人:小白大人
        创造时间:2017.7.19
        持续更新。。。敬请期待
    
    
        按回车开始获取信息
        """
        print str
        raw_input()
        fun()
    
    
    if __name__ == '__main__':
        fun1()
    

    自己做的一个糗百热门文章的爬虫,可以实现选择页数进行爬取,可能优化的还不是很完善,程序会持续更新,希望可以帮助到大家

    如果有朋友找到BUG了,记得私信我2333


    以此记录自己学习python之路

  • 相关阅读:
    利用selenroid扩展uiautoamtor的webview解析能力
    设备offline时如何自动重置
    Docker集群管理portainer的使用
    Dockerfile编写的注意事项
    @RequestMapping注解学习
    美团面试总结
    排序算法总结
    java实现二分法查找
    设计模式之---单例模式
    http请求状态码解析
  • 原文地址:https://www.cnblogs.com/GF66/p/9785500.html
Copyright © 2011-2022 走看看