zoukankan      html  css  js  c++  java
  • 1,爬虫概览

    1,爬虫知识来源

    Python爬虫参考文档

    可以爬取的数据

    网页文本:如HTML文档,Json格式化文本等
    图片:获取到的是二进制文件,保存为图片格式
    视频:同样是二进制文件
    其他:只要请求到的,都可以获取

    解析数据使用的方法

    1. 直接处理
    2. Json解析
    3. 正则表达式处理
    4. BeautifulSoup解析处理
    5. PyQuery解析处理
    6. XPath解析处理

    抓取的页面数据和浏览器里看到的不一样的问题

    网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同

    如何解决js渲染的问题?
    分析ajax
    Selenium/webdriver
    Splash
    PyV8,Ghost.py

    保存数据

    文本:纯文本,Json,Xml等
    关系型数据库:如mysql,oracle,sql server等结构化数据库
    非关系型数据库:MongoDB,Redis等key-value形式存储

  • 相关阅读:
    IO流
    简单JSON
    开发流程
    命名规范
    策略模式
    Git的使用
    Markdown的使用
    代理模式
    装饰者模式
    POJ 2976 3111(二分-最大化平均值)
  • 原文地址:https://www.cnblogs.com/g2thend/p/12452154.html
Copyright © 2011-2022 走看看