zoukankan      html  css  js  c++  java
  • Python爬虫小白入门(一)写在前面

    一、前言


    你是不是在为想收集数据而不知道如何收集而着急?

    你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼?

    Bingo! 你没有看错,这就是专门面向小白学习爬虫而写的!我会采用实例的方式,把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。

    我们使用Python来写爬虫,一方面因为Python是一个特别适合变成入门的语言,另一方面,Python也有很多爬虫相关的工具包,能够简单快速的开发出我们的小爬虫。
    本系列采用Python3.5版本,毕竟2.7会慢慢退出历史舞台~

    那么,接下来,你得知道什么是爬虫、爬虫从哪里爬取数据的,以及,学习爬虫都要学习哪些东西。

    二、什么是爬虫


    来看看百度百科是如何定义的

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

    什么?没看懂?没关系,我来给你解释一下

    打开一个网页,里面有网页内容吧,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。

    这样是不是更清晰了呢?

    既然了解了爬虫是什么,那么爬虫是如何爬取数据的呢?

    三、爬虫是哪里爬取数据的


    打开浏览器(强烈建议谷歌浏览器),找到浏览器地址栏,然后在里敲music.163.com,你会看到网页内容。

    欸,图片中间那俩人在干嘛?(单身狗请主动防御,这是误伤,这真的是误伤!)

    鼠标在页面上点击右键,然后点击view page source。看到这些文字了吗?这才是网页最赤果果的样子。

    其实所有的网页都是HTML代码,只不过浏览器将这些代码解析成了上面的网页,我们的小爬虫抓取的其实就是HTML代码中的文本啦。
    这不合理啊,难不成那些图片也是文本?

    恭喜你,答对了。回到浏览器中有图的哪个tab页,鼠标右键,点击Inspect。会弹出一个面板,点击板左上角的箭头,点击虐狗图片,你会看到下面有红圈圈的地方,是图片的网络地址。图片可以通过该地址保存到本地哦。

    你猜的没错,我们的小爬虫抓取的正是网页中的数据,你要知道你想要抓取什么数据,你的目标网站是什么,才可以把想法变成现实的哦。你不能说,我想要这个这个,还有这个,然后数据就自动来了。。。(是不是让你想起了你的导师或老板?)

    四、学习爬虫的必备知识


    大家要先对以下内容有一定的了解再来学习爬虫哦,磨刀不误砍柴工

    • HTML
      这个能够帮助你了解网页的结构,内容等。可以参考W3School的教程

    • Python
      如果有编程基础的小伙伴儿,推荐看一个廖雪峰的Python教程就够了
      没有编程基础的小伙伴,推荐看看视频教程(网易云课堂搜Python),然后再结合廖雪峰的教程,双管齐下。
      其实知乎上总结的已经非常好了,我就不多唠叨了。知乎-如何系统的自学Python

    • TCP/IP协议,HTTP协议
      这些知识能够让你了解在网络请求和网络传输上的基本原理,了解就行,能够帮助今后写爬虫的时候理解爬虫的逻辑。
      廖雪峰Python教程里也有简单介绍,可以参考:TCP/IP简介HTTP协议
      想更深入学习的小伙伴儿可以去网上多搜搜相关的书籍哦

    OK, 下一篇就开始我们的实战啦

  • 相关阅读:
    git中Please enter a commit message to explain why this merge is necessary.
    用$(this)选择其下带有class的子元素
    将某页面中ajax中获取到的信息放置到sessionStorage中保存,并在其他页面调用这些数据。
    返回顶部黑科技
    对于div里面内容过大根据长度或者宽度进行适配,然后可以滚轮缩放的功能
    vue runtime报错问题
    webpack简单配置
    input type=color 设置颜色
    vue统一注册组件
    vue模板字符串写法
  • 原文地址:https://www.cnblogs.com/Albert-Lee/p/6226699.html
Copyright © 2011-2022 走看看