zoukankan      html  css  js  c++  java
  • Python 开发轻量级爬虫02

    Python 开发轻量级爬虫

    (imooc总结02--爬虫简介)

    爬虫简介
    首先爬虫是什么?它是一段自动抓取互联网信息的程序。
    什么意思呢?
        互联网由各种各样的的网页组成,每一个网页都有对应的url,而url页面上又有很多指向其它页面的url,这些url之间相互指向的关系,
    就形成了一个网状,这就是互联网。
        正常情况下,我们使用人工的方式,从互联网上获取我们需要的感兴趣的信息。那有没有一种方法,我们设定了一个主题,设定一个感兴趣的目标,
    可以自动从互联网上获取我们所需要的数据呢?这就是爬虫。
    
    爬虫就是从一个url出发,访问它所关联的所有url,并且从每个页面上提取出我们所需要的价值数据。
    也就是说,爬虫就是自动访问互联网并且提取数据的程序。
    

    爬虫价值
    爬虫这门技术有什么价值呢?那就是互联网数据为我所用!
    如果我们已经从互联网上爬取了各种各样的数据并且存储了下来,那么我们就可以更方便的学习,也可以对这些数据进行更多的分析,甚至我们可以基于这些数据做出自己的产品。
    举几个例子:
        我们可以对外提供一个更专业的新闻聚合阅读器,可以提供一个最爆笑故事APP,也可以把网上美女图片下下来以后放在一起,提供一个最漂亮美女图片网,
    或者,我们可以对不同电商网站的图书爬取下来,然后提供一个页面可以把每本图书在不同网站的价格对比显示,我们也可以将网上Python技术文章爬取下来,
    然后整合到一起,几乎就是最全面的技术文章浏览。
    

    这些产品数据都来自于互联网,但是对外提供更全面的更好用的使用体验。这就是产品创造的基本价值。互联网的数据可以更好的使用,这就是爬虫这门技术的价值。
  • 相关阅读:
    PC端圣诞树下载
    win7开机一直在正在启动windows界面怎么办?
    EFI、UEFI、MBR、GPT的区别
    进入BIOS中,设置U盘启动
    CSS3摆动动画效果
    比特币钱包搭建与使用
    自动校时工具
    windows7蓝屏0x000000c4
    如何使用webpack打包你的项目
    开源货币/比特币Multiminer、bitrade、bitcoinjs-lib、python-bitcoinrpc介绍
  • 原文地址:https://www.cnblogs.com/billyzh/p/5840989.html
Copyright © 2011-2022 走看看