爬虫的基本原理 - 走看看

zoukankan html css js c++ java

爬虫的基本原理
(1) 简单来说，爬虫就是获取网页并提取和保存信息的自动化程序
(2) 使用 Python 爬取网页 ---> 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 ---> 使用数据库保存提取的信息
(3) 有时候，我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样，如下，浏览器会自动去请求并加载 "app.js" 这个 JavaScript 文件，但我们使用 Python 获取的 HTML 源代码并不会自动去加载
(4) 因此，使用基本 HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。对于这样的情况，我们可以分析其后台 Ajax 接口，也可使用 Selenium 、Splash 这样的库来实现模拟 JavaScript 渲染
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>首页</title> </head> <body> <div id="container"> </div> </body> <script src="app.js"></script> </html>
查看全文

相关阅读:
Xshell初步设置
 【R shiny】一些应用记录
 R shiny 小工具Windows本地打包部署
 生信工程师如何写一个小工具？
Android 照片墙应用实现，再多的图片也不怕崩溃
 Android 高效加载大图、多图解决方案，有效避免程序OOM
SparseArray 详解
 ActivityThread
Activity 启动模式详解 (activity 加载模式)
Activity 生命周期

原文地址：https://www.cnblogs.com/pzk7788/p/10530055.html

Copyright © 2011-2022 走看看