zoukankan      html  css  js  c++  java
  • 微博爬虫实践---搜索关键词

      需求:指定搜索关键词,限定时间段、原创,抓取后存入EXcel或者Mysql

      原理:模拟浏览器打开网址,输入关键词,python解析dom获取需要信息,存入excel或者mysql

      技术点

      1.爬虫框架选取 BS4解析

      2.模拟浏览器行为 python+selenium+Firefox

      3.存档 excel相关库、mysql相关库

      4.关键词、时间段可配置  ConfigParser库

      5.数据库 编号递增 更新时间

      编写遇到的问题

      1.登录问题  模拟账号密码登入或者cookie登录

      2.页面无内容 真实无内容、数据没有加载出来 有验证码防刷  

      3.页面元素没有导致失败 加入隐形等待元素不出现一直等待

      4.无界面操作 Chrome可设置无界面 最新selenium不支持PJS无界面框架慎用

      

      

  • 相关阅读:
    C++解决单纯形表
    VS2010 MFC Excel(3)
    VS2010 MFC Excel(1)
    VS2010 MFC 读取Excel(2)
    读取数量不定的输入数据
    牛顿插值
    连接数据库
    雅克比迭代
    NOIP模拟 24
    NOIP模拟 23
  • 原文地址:https://www.cnblogs.com/aeip/p/9243483.html
Copyright © 2011-2022 走看看