zoukankan      html  css  js  c++  java
  • python爬虫(爬取段子)

    python爬取段子

    爬取某个网页的段子

    第一步

    不管三七二十一我们先导入模块

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    

    第二步

    获取网站的内容

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get(http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc)
    data = response.text
    

    第三步

    找到段子所在的位置

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    

    第四部

    保存文件

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    
    for a in new_list:
        with open(r'D:图片段子.txt', 'a') as fw:
            fw.write(a)
            fw.flush()
    
  • 相关阅读:
    sql 查询重复数据 删除重复数据
    echarts 仪表板指针点击事件
    Java调用webservice 天气预报
    性能优化高手 一站通关从设计到交付的性能问题
    element-ui 添加空白表格
    Linux文件管理
    Linux第五周
    Linux第四周
    Linux第三周
    Linux第二周
  • 原文地址:https://www.cnblogs.com/pythonywy/p/10856819.html
Copyright © 2011-2022 走看看