zoukankan      html  css  js  c++  java
  • Python爬虫入门

    前言

    爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。

    一般来说,传统的拿数据的做法是:通过浏览器上网,手动下载所需要的数据。其实在这背后,浏览器做了很多我们看不见的工作,而只有了解浏览器的工作原理后,才能真正理解爬虫在帮我们做什么。

    而爬虫可以模拟浏览器去向服务器发出请求;其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取;最后,爬虫可以批量地把数据存储到本地。

    爬虫的工作分为四步:

    1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据

    2)解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式

    3)提取数据:爬虫程序再从中提取出我们需要的数据

    4)存储数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析

    robots协议

    robots协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

    我们使用robots协议的场景通常是:看到想获取的内容后,检查一下网站是否允许爬取。因此我们只需要能找到、简单读懂robots协议就足够了。

  • 相关阅读:
    洛谷P1036 选数
    洛谷 P1009 阶乘之和
    codevs 4165 ​高精度求阶乘
    codevs 1553 互斥的数
    P2421 A-B数对(增强版)
    51nod 1081 子段求和
    codevs 3054 高精度练习-文件操作
    无聊写的高精的斐波那契数列
    51nod 1347 旋转字符串
    51nod 1212 无向图最小生成树(Kruskal模版题)
  • 原文地址:https://www.cnblogs.com/KeenLeung/p/12149855.html
Copyright © 2011-2022 走看看