理解爬虫原理

zoukankan html css js c++ java

理解爬虫原理

1. 简单说明爬虫原理

　　通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，也就是模拟浏览器的动作从网站上搜索信息，并获取自己需要的信息。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理；

　　1：向服务器发起请求

　　通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器的响应。

　　2：获取响应内容
　　如果服务器正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML、JSON、二进制文件（如图片、视频等类型）。
　　3：解析内容
　　得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是JSON，可以直接转成JOSN对象进行解析，可能是二进制数据，可以保存或者进一步处理
　　4：保存内容
　　保存形式多样，可以保存成文本，也可以保存至数据库，或者保存成特定格式的文件。

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

3).了解网页

写一个简单的html文件，包含多个标签，类，id

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

3.提取一篇校园新闻的标题、发布时间、发布单位

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

查看全文

相关阅读:
广域网（ppp协议、HDLC协议）
0120. Triangle (M)
0589. N-ary Tree Preorder Traversal (E)
0377. Combination Sum IV (M)
1074. Number of Submatrices That Sum to Target (H)
1209. Remove All Adjacent Duplicates in String II (M)
0509. Fibonacci Number (E)
0086. Partition List (M)
0667. Beautiful Arrangement II (M)
1302. Deepest Leaves Sum (M)

原文地址：https://www.cnblogs.com/hesz/p/10608841.html