zoukankan      html  css  js  c++  java
  • python爬虫(爬取段子)

    python爬取段子

    爬取某个网页的段子

    第一步

    不管三七二十一我们先导入模块

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    

    第二步

    获取网站的内容

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get(http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc)
    data = response.text
    

    第三步

    找到段子所在的位置

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    

    第四部

    保存文件

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    
    for a in new_list:
        with open(r'D:图片段子.txt', 'a') as fw:
            fw.write(a)
            fw.flush()
    
  • 相关阅读:
    用C++读写EXCEL文件的几种方式比较
    20个值得收藏的网页设计开放课件
    char* 应用, 去除字符串内多余空格, 用算法而非库函数
    东拉西扯:王建硕主义
    Lisp 的本质(The Nature of Lisp)
    web前端:html
    [原译]理解并实现原型模式实现ICloneable接口.理解深浅拷贝
    [原译]理解并实现装饰器模式
    3分钟理解Lambda表达式
    [原译]实现IEnumerable接口&理解yield关键字
  • 原文地址:https://www.cnblogs.com/pythonywy/p/10856819.html
Copyright © 2011-2022 走看看