zoukankan      html  css  js  c++  java
  • 爬虫的基本原理

    (1) 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序
    (2) 使用 Python 爬取网页 ---> 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 ---> 使用数据库保存提取的信息
    (3) 有时候,我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样,如下,浏览器会自动去请求并加载 "app.js" 这个 JavaScript 文件,但我们使用 Python 获取的 HTML 源代码并不会自动去加载
    (4) 因此,使用基本 HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。对于这样的情况,我们可以分析其后台 Ajax 接口,也可使用 Selenium 、Splash 这样的库来实现模拟 JavaScript 渲染

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>首页</title>
    </head>
    <body>
    <div id="container">
    </div>
    </body>
    <script src="app.js"></script>
    </html>

        

  • 相关阅读:
    [SNOI2019]数论
    [HNOI2019]校园旅行
    [TJOI2019]唱、跳、rap和篮球
    [Ctsc2015]misc
    [IOI2018] meetings 会议
    [ZJOI2019]语言
    51nod1600 Simple KMP
    [APIO2013]道路费用
    [FJOI2018]领导集团问题
    [ZJOI2012]小蓝的好友
  • 原文地址:https://www.cnblogs.com/pzk7788/p/10530055.html
Copyright © 2011-2022 走看看