学习总结1 - 走看看

zoukankan html css js c++ java

学习总结1

网络爬虫，是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。

1.准备工作：通过浏览器查看分析目标网页

　　2.获取数据：通过HTTP库向目标点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response,便是所要获取的页面内容。

　　3.解析内容：得到的内容可能是HTML,json等格式，可以用页面解析库、正则表达式等进行解析

　　4.保存数据：可以存为文本，也可以保存到数据库，或者保存特定格式的文件

编写代码

　　1.代码规范：if__nam__="__main__"

　2.引入库

#引入自定义模块

　　　　#引入系统模块

　　　　#引入第三方模块

　 3.编写主流程（为了逻辑清晰，方便管理，将每一部分写成函数，然后在主函数中进行调用）

#爬取网页

#逐一解析网页

#保存数据

4.获取数据，逐一进行解析

5.正则提取，解析内容，连接数据库，并保存数据

查看全文

相关阅读:
Uncaught (in promise) DOMException: Failed to execute 'postMessage' on 'Window': An object could not be cloned.
iframe的坑
 echarts展示
 常量
 变量赋值
 变量声明
 变量初始化
 windows下nvm的安装及使用
 sessionStorage 使用方法
 jquery+ajax获取本地json对应数据

原文地址：https://www.cnblogs.com/1234yyf/p/13563158.html

Copyright © 2011-2022 走看看