zoukankan      html  css  js  c++  java
  • python爬虫(爬取段子)

    python爬取段子

    爬取某个网页的段子

    第一步

    不管三七二十一我们先导入模块

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    

    第二步

    获取网站的内容

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get(http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc)
    data = response.text
    

    第三步

    找到段子所在的位置

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    

    第四部

    保存文件

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    
    for a in new_list:
        with open(r'D:图片段子.txt', 'a') as fw:
            fw.write(a)
            fw.flush()
    
  • 相关阅读:
    收集起来先
    asp .net 页面回车触发button 按钮事件
    关于SQL 数据库表中的聚集索引和非聚集索引等
    WinForm换肤操作(用IrisSkin2.dll)
    生成Word文档的相关操作
    API自动化测试测试数据集
    API文档实践
    使用eolinker对API测试的响应结果进行断言
    API自动化定时测试
    接口测试之对数据进行RSA加解密
  • 原文地址:https://www.cnblogs.com/pythonywy/p/10856819.html
Copyright © 2011-2022 走看看