zoukankan      html  css  js  c++  java
  • Web Scraping with Python读书笔记及思考

    Web Scraping with Python读书笔记

    标签(空格分隔): web scraping ,python


    做数据抓取一定一定要明确:抓取解析数据不是目的,目的是对数据的利用

    一般的数据抓取结构如下:

    概要

    一个简单的web数据抓取的流程就像下面的图一样

    HTML获取

    分析工具

    • Firefox
    • Firebug

    工具包

    • urllib
    • urllib2
    • Requests
    • phantomjs
    • selenium

    反反爬虫策略

    • 动态设置User-Agent
    • Cookie的使用
    • 时间延迟/动态延迟设置
    • 使用Google/Baidu Cache
    • 使用IP代理池

    调度策略

    HTML解析(数据清晰)

    工具包

    • lxml(XPath)
    • CSS选择器
    • BeautifulSoup
    • pyquery
    • 正则表达式

    数据存储

    工具/格式

    • JSON结构化纯文本
    • XML结构化纯文本
    • MySQL关系型数据库
    • MongoDB非关系型数据库
  • 相关阅读:
    git更新代码
    git标签
    git分支
    命令连接redis
    sql语句
    rm -rf无法删除文件解决方法
    lombda 使用记录
    centos查看磁盘空间大小
    CentOS7 防火墙Firewall常用命令
    安装rabbitmq
  • 原文地址:https://www.cnblogs.com/taceywong/p/5733595.html
Copyright © 2011-2022 走看看