Python 爬虫（1）基础知识和简单爬虫

zoukankan html css js c++ java

Python 爬虫（1）基础知识和简单爬虫
Python上手很容易，免费开源，跨平台不受限制，面向对象，框架和库很丰富。

Python ：Monty Python's Flying Circus （Python的名字来源，和蟒蛇其实无关）。

通过homebrew和pyenv可以维护多个Python版本。

相关知识

HTTP = HyperText Transfer Protocol

URI = Uniform Resource Identifier 强调资源

URL = Uniform Resource Locator 强调资源的位置

可以说url是一种具体的uri，uri是一个抽象的概念，即url标志一个uri,并指明了位置。

所谓web api,就是通过Http请求实现。

Head:向服务器索要与get请求相一致的相应，响应不会被返回。

GET：向特定资源发出请求。

PUT：向指定资源位置上传最新内容。

POST：向指定资源提交数据进行处理请求。

DELETE：删除指定URI所标识的资源。

PATCH：修改某一资源。

基本上使用就是GET和POST。
# -*- coding: UTF-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import json # # get url = 'http://kaoshi.edu.sina.com.cn/college/scorelist?tab=batch&wl=1&local=2&batch=&syear=2013' request = requests.get(url = url) #请求 request.encoding = 'utf-8' #防止乱码 print request.text #读取 #post data = {'type1': 1, 'type2': 2, 'status': 0, 'wdzjPlatId': 59} request = requests.post('http://shuju.wdzj.com/depth-data.html',data = data) for key in json.loads(request.text).keys(): # json.loads把json格式的数据转成字典 print key #下面有简单提到json,当然json本身不是复杂东西，详细的可以自己搜索
requests包很好用，以前写爬虫都是urllib2，这玩意很啰嗦，所以我还是推荐用requests，http://docs.python-requests.org/zh_CN/latest/user/quickstart.html#id3

HTTP常见状态码：

200:OK

404：找不到资源

1开头的是消息，2开头的是成功，3开头的是重定向，4开头的是请求错误。

http://baike.baidu.com/link?url=A3GlzlRhQ8uaIQwuj09hBF_n9z3pCnwwbGNVaMHZ4GRXUteDmtbCxzkR5vCDk7Yp--B5bg4wIlQUO-5rfm55ff5uzTclboD2eOtjFPe69w4nnPzu2tZ2RIJAUlqxWXtU
import requests url = 'http://www.baidu.com' r = requests.get(url) print r.status_code 200
　　

HTML

HTML，标记语言，不是编程语言。XML和HTML格式差不多的。

<标签属性 = "属性的值"> </标签>

DOM文档模型

CSS（Cascading Style Sheets）选择器: 样式定义如何显示html
- 元素选择器直接选择文档元素比如head，p
- 类选择器元素的class属性，比如<h1 class="important"> 类名就是important .important选择所有有这个类属性的元素可以结合元素选择器，比如p.important
- ID选择器元素的id属性，比如<h1 id="intro"> id就是important #intro用于选择id=intro的元素可以结合元素选择器，比如p.important
- 属性选择器选择有某个属性的元素，而不论值是什么。 *[title] 选择所有包含title属性的元素 a[href]选择所有带有href属性的锚元素还可以选择多个属性，比如：a[href][title]，注意这里是要同时满足。限定值：a[href="www.so.com"]
- 此外还有后代，子元素选择器等
ID与类选择器的差异：ID一个文档只能出现一次 ID选择器不能使用单词列表与类选择器一样，都区分大小写。

对于HTML，XML文件，可以使用XPath，但是XPath比较繁杂，不过可以通过浏览器的审查，然后选中你所要的目标，右击选中copy xpath来实现，也挺方便的。

Python中lxml库是实现XPath功能的，BeautifulSoup解析HTML文件，BeautifulSoup是基于DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多。

而lxml只会局部遍历，另外lxml是用c写的，而BeautifulSoup是用python写的，因此性能方面自然会差很多。

当然这是以前，现在BeautifulSoup支持用lxml作为parser了，所以BeautifulSoup性能上也还算可以了。

http://beautifulsoup.readthedocs.io/zh_CN/latest/

此外python的爬虫框架Scrapy是建立在lxml库之上，当然当我们使用Scrapy的时候 BeautifulSoup也是可以的。

JSON

JSON，小，快，容易解析。所以当我们访问api时，获得的通常都是json格式的数据。

正则表达式

当BeautifulSoup都处理不了的数据，正则表达式是万能的，就是不断的匹配，匹配想要的内容。

正则表达式30分钟入门教程

最后存储

数据库：MySQl,SQLite,MongoDB,Redis,等等。

爬虫的简单介绍

工作流程：

将种子url放入队列，从队列中获取url,抓取内容，解析内容，将需进一步抓取的url放入工作队列，存储解析后的内容。

抓取策略：深度优先,广度优先,PageRank。

去重：Hash表，bloom过滤器。

Robots规范，网站通过Robots协议告诉搜索引擎哪些页面可以爬取，哪些不可以爬取。网站和爬虫的沟通方式，用来指导搜索引擎更好的爬取网站内容。

写一个基于深度的随机爬取wiki的简单例子：
from urllib2 import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html,'lxml') try: print(bsObj.h1.get_text()) print(bsObj.find(id="mw-content-text").findAll("p")[0]) print(bsObj.find(id="ca-edit").find("span").find("a").attrs['href']) except AttributeError: print("页面缺少一些属性！不过不用担心！") for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: # 我们遇到了新页面 newPage = link.attrs['href'] print("---------------- "+newPage) pages.add(newPage) getLinks(newPage) getLinks("")
查看全文

相关阅读:
java9新特性-9-语法改进：try语句
 10.04 FZSZ模拟Day1 总结
 10.03模拟总结
 HNOI2012 永无乡
 ZJOI2007 报表统计
 HNOI2004 宠物收养场
 HNOI2002 营业额统计
 Splay 区间反转
 Splay基本操作
 HEOI2016 树

原文地址：https://www.cnblogs.com/zephyr-1/p/6296367.html

Python 爬虫（1）基础知识和简单爬虫

相关知识

HTTP常见状态码：

HTML

CSS（Cascading Style Sheets） 选择器: 样式定义如何显示html

JSON

正则表达式

最后存储

爬虫的简单介绍

CSS（Cascading Style Sheets）选择器: 样式定义如何显示html