Web Scraping with Python读书笔记及思考 - 走看看

zoukankan html css js c++ java

Web Scraping with Python读书笔记及思考
Web Scraping with Python读书笔记

标签（空格分隔）： web scraping ,python

做数据抓取一定一定要明确:抓取解析数据不是目的,目的是对数据的利用

一般的数据抓取结构如下:

概要

一个简单的web数据抓取的流程就像下面的图一样

HTML获取

分析工具
- Firefox
- Firebug
工具包
- urllib
- urllib2
- Requests
- phantomjs
- selenium
反反爬虫策略
- 动态设置User-Agent
- Cookie的使用
- 时间延迟/动态延迟设置
- 使用Google/Baidu Cache
- 使用IP代理池
调度策略

HTML解析(数据清晰)

工具包
- lxml(XPath)
- CSS选择器
- BeautifulSoup
- pyquery
- 正则表达式
数据存储

工具/格式
- JSON结构化纯文本
- XML结构化纯文本
- MySQL关系型数据库
- MongoDB非关系型数据库
查看全文

相关阅读:
169. Majority Element
283. Move Zeroes
1331. Rank Transform of an Array
566. Reshape the Matrix
985. Sum of Even Numbers After Queries
1185. Day of the Week
867. Transpose Matrix
1217. Play with Chips
766. Toeplitz Matrix
1413. Minimum Value to Get Positive Step by Step Sum

原文地址：https://www.cnblogs.com/taceywong/p/5733595.html

Copyright © 2011-2022 走看看