zoukankan      html  css  js  c++  java
  • python爬虫(爬取段子)

    python爬取段子

    爬取某个网页的段子

    第一步

    不管三七二十一我们先导入模块

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    

    第二步

    获取网站的内容

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get(http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc)
    data = response.text
    

    第三步

    找到段子所在的位置

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    

    第四部

    保存文件

    #http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc  段子所在的网址
    import re 
    import  requests   #如果没这模块运行CMD pip  install requests
     
    response = requests.get('http://baijiahao.baidu.com/s?id=1598724756013298998&wfr=spider&for=pc')   #这个编辑器的长度关系没法放一行
    data = response.text
    #按F12选择自己想要的内容所在的位置copy出来
    new_list = re.findall('<span class="bjh-p">(.*?)</span></p><p>',data ) # (.*?)是我们要的内容
    
    for a in new_list:
        with open(r'D:图片段子.txt', 'a') as fw:
            fw.write(a)
            fw.flush()
    
  • 相关阅读:
    Mysql学习(慕课学习笔记7)修改数据表(下)
    Mysql学习(慕课学习笔记1)启动、登录及常用命令
    Mysql学习(慕课学习笔记2)数据库的创建与删除
    手机测试体系讲解
    Android开发之旅:环境搭建
    免费搭建wordpress博客有感
    第一篇
    浅谈通信网络(二)——信号
    小dai浅谈通信网络(一)——引子
    投票调查系统数据库设计及大家指教
  • 原文地址:https://www.cnblogs.com/pythonywy/p/10856819.html
Copyright © 2011-2022 走看看