爬虫流程概述 - 走看看

zoukankan html css js c++ java

爬虫流程概述

爬虫，就是给网站发起请求，并从相应中提取需要的数据的自动化程序

①发起请求，获取相应

通过http库，对目标站点进行请求。等同于自己打开浏览器，输入网址

常用库：urllib、urllib3、requests

服务器会返回请求的内容，一般为：html、二进制文件（视频，音频）、文档、json字符串等

②解析内容

寻找自己需要的信息，就是利用正则表达式或者其他库获取目标信息

常用库：re、beautifulsoup4

③保存数据

将解析得到的数据持久化到文件或者数据库中

查看全文

相关阅读:
【java框架】SpringBoot(3) -- SpringBoot集成Swagger2
【java框架】SpringBoot(2) -- SpringBoot主要注解说明
 【java框架】SpringBoot2(1) -- SpringBoot2入门及基础配置
 【java框架】MyBatis-Plus(1)--MyBatis-Plus快速上手开发及核心功能体验
 UUID随机验证码
 MySQL汇总
 使用waitgroup在循环中开Goroutine处理并发任务
 使用Go处理SDK返回的嵌套层级数据并将所需字段存入数据库（一）
Go时间相互转换的处理
 go常用操作

原文地址：https://www.cnblogs.com/cyx-b/p/12990390.html

Copyright © 2011-2022 走看看