爬虫入门 - 走看看

zoukankan html css js c++ java

爬虫入门

一、爬虫介绍

　　网络爬虫，即Web Spider，是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

　　爬虫就是一个程序模拟浏览器访问呢服务器获取动态资源

二、rebots.txt协议

如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。

三、爬虫的流程

四、HTTP协议

(1) 请求协议

(2) 响应协议

查看全文

相关阅读:
Openssl命令详解
 Openssl命令详解
 Mac根目录下无法创建文件或目录
 解决 mysql from_base64 函数返回乱码的问题
 elementUI日期选择器 el-date-picker根据所选日期选择禁用
 el-dialog设置为点击弹窗以外的区域不自动关闭弹窗
 在vue项目中MD5加密的使用方法
 bower install 报错fatal: unable to access 'https://github.com/angular/bower-angular-touch.git/'类错误解决方法
 angular项目grunt serve报错Cannot find where you keep your Bower packages
移动端开发--》适配各种机型样式大小

原文地址：https://www.cnblogs.com/st-st/p/10300723.html

Copyright © 2011-2022 走看看