初识爬虫 - 走看看

zoukankan html css js c++ java

初识爬虫

何为爬虫

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

　　我们平时的上网就是浏览器提交请求->下载网页代码->解析/渲染成页面。而我们的爬虫就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中。所以，我们的爬虫程序只提取网页代码中对我们有用的数据。

爬虫的基本流程

请求与响应

http协议：https://home.cnblogs.com/u/wusir66/

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

总结

1、总结爬虫流程：
爬取--->解析--->存储

2、爬虫所需工具：
请求库：urllib.request,urllib.parse,requests,selenium
解析库：正则，beautifulsoup，lxml
存储库：文件，MySQL，Mongodb，Redis

3、爬虫常用框架：
scrapy

查看全文

相关阅读:
5.MFC基础（五）视图、运行时类信息、动态创建
 4.MFC基础（四）菜单、工具栏、状态栏
 OpenCV Python 4.0安装
 windows批量导出文件名到txt
*&p理解
 VS调试快捷键配置更改
 数组类的创建（下）
数组类的创建（上）
operator用法：隐式类型转换
 C++单例模式

原文地址：https://www.cnblogs.com/wusir66/p/10060943.html

Copyright © 2011-2022 走看看