zoukankan      html  css  js  c++  java
  • Python爬虫基础之认识爬虫

    一、前言


    爬虫Spider什么的,老早就听别人说过,感觉挺高大上的东西,爬网页,爬链接~~~dos黑屏的数据刷刷刷不断地往上冒,看着就爽,漂亮的校花照片,音乐网站的歌曲,笑话、段子应有尽有,全部都过来~~~

    前段时间在学习Python打基础,一周时间过去了,是时候要开始写点东西了,Python爬虫刚好可验证下这段时间的学习成果,写写博文记录下自己学习爬虫的经过和遇到的坑,希望对同样是小白的园友有帮助!!!

    我用的Python 3.5版本,2.7版本用的人也挺多的。

    那么,接下来,我们要搞清楚几个问题:爬虫是什么东西?爬虫可以用来做什么?开发爬虫前需要掌握什么?

    二、爬虫是什么东西


    百度百科这么定义爬虫:

    这里有几个关键词"规则","自动","万维网","程序"或者"脚本",理解了这几个关键词估计对爬虫就有个大体上的认识了。

    接下来,会对这几个关键词就行解释.

    三、爬虫从哪里爬取数据


    浏览器输入QQ音乐首页的网址:https://y.qq.com/,展现在我们面前的是浏览器解析器后的样子,敲击F12后,我们可以看到网页的源码,都是由一些html标签(标签我们这里用"节点"表示吧)构成。

    所有网页的源码结构主要长的是这个样子:

    <html>

      <head>

        <title>title name</title>

      </head>

      <body>

        page content

      </body>

    </html>

     

    关键词"万维网"?最简单的理解,万维网就是千千万万台电脑相互连接形成的像蜘蛛网一样的东西,我们的爬虫就是在这张网上干活,从网页上爬取信息。

    关键词"规则"?这就是爬虫需要遵守的规则,<html>节点是<head>和<body>的父节点,<head>和<body>是子节点, 父节点包含子节点,子节点相邻的节点是兄弟节点,<title>是<html>的子孙节点,

    这就构成了HTML DOM(文档对象模型),简单地说,爬虫就是爬取这些节点的内容,例如图片,文本等。。

    关键词"自动"和"程序"或者"脚本"?可以理解成非人工的方式,也就是编写代码的方式,通过程序或者一段脚本(我们这里用Python脚本),自动按着我们预设的意愿工作,爬取我们认为有价值的信息,满足我们对信息的需求。

    四、我的爬虫知识储备


    HTML + CSS + Javascript

    掌握一些HTML静态网页的知识,CSS样式,ID,标签,类选择器,还有Javascript如何定位和操作页面上的元素,w3school的教程,有教程和实例,还可以用来调试代码脚本,新手入门和知识查阅十分方便。网页解析方面,后面我们会用到正则表达式、BeautifulSoup和Lxml三种方式。

    HTTP协议

    具备一些网络方面的知识,了解浏览器和服务器之间的交互,如何发送http请求和处理请求结果。网页请求和下载网页,后面我们会用到Python的库urllib

    Python

    我们的脚本语言,这个自然不用说,必须掌握,入门推荐 runoob.com,Python基础 和 Python 3

    掌握了以上知识,我们就可以开始实战了!!!


    我们一无所成的主要原因是想的太多,而做的太少!

  • 相关阅读:
    Python2 新手 编码问题 吐血总结
    朴素贝叶斯算法下的情感分析——C#编程实现
    element ui输入框监听enter回车事件
    MySql的动态语句foreach各种用法比较
    Mybatis中的CDATA标签的用法
    IDEA里面报黄色/灰色的重复代码的下划波浪线的去除方案
    wamp 3.0.6(apache 2.4.23) 403 forbidden 解决办法
    less文件编译成微信小程序wxss文件
    C#返回时间格式转换成 js 字符串
    Highcharts动态添加点数据
  • 原文地址:https://www.cnblogs.com/taotaoblogs/p/6858994.html
Copyright © 2011-2022 走看看