Python爬虫基础之认识爬虫

zoukankan html css js c++ java

Python爬虫基础之认识爬虫

一、前言

爬虫Spider什么的，老早就听别人说过，感觉挺高大上的东西，爬网页，爬链接~~~dos黑屏的数据刷刷刷不断地往上冒，看着就爽，漂亮的校花照片，音乐网站的歌曲，笑话、段子应有尽有，全部都过来~~~

前段时间在学习Python打基础，一周时间过去了，是时候要开始写点东西了，Python爬虫刚好可验证下这段时间的学习成果，写写博文记录下自己学习爬虫的经过和遇到的坑，希望对同样是小白的园友有帮助！！！

我用的Python 3.5版本，2.7版本用的人也挺多的。

那么，接下来，我们要搞清楚几个问题：爬虫是什么东西？爬虫可以用来做什么？开发爬虫前需要掌握什么？

二、爬虫是什么东西

百度百科这么定义爬虫：

这里有几个关键词"规则"，"自动"，"万维网"，"程序"或者"脚本",理解了这几个关键词估计对爬虫就有个大体上的认识了。

接下来，会对这几个关键词就行解释.

三、爬虫从哪里爬取数据

浏览器输入QQ音乐首页的网址：https://y.qq.com/，展现在我们面前的是浏览器解析器后的样子，敲击F12后，我们可以看到网页的源码，都是由一些html标签（标签我们这里用"节点"表示吧）构成。

所有网页的源码结构主要长的是这个样子：

<html>

　　<head>

　　　　<title>title name</title>

　　</head>

　　<body>

　　　　page content

　　</body>

</html>

关键词"万维网"？最简单的理解，万维网就是千千万万台电脑相互连接形成的像蜘蛛网一样的东西，我们的爬虫就是在这张网上干活，从网页上爬取信息。

关键词"规则"？这就是爬虫需要遵守的规则，<html>节点是<head>和<body>的父节点，<head>和<body>是子节点，父节点包含子节点，子节点相邻的节点是兄弟节点，<title>是<html>的子孙节点，

这就构成了HTML DOM（文档对象模型），简单地说，爬虫就是爬取这些节点的内容，例如图片，文本等。。

关键词"自动"和"程序"或者"脚本"？可以理解成非人工的方式，也就是编写代码的方式，通过程序或者一段脚本（我们这里用Python脚本），自动按着我们预设的意愿工作，爬取我们认为有价值的信息，满足我们对信息的需求。

四、我的爬虫知识储备

HTML + CSS + Javascript

掌握一些HTML静态网页的知识，CSS样式，ID，标签，类选择器，还有Javascript如何定位和操作页面上的元素，w3school的教程，有教程和实例，还可以用来调试代码脚本，新手入门和知识查阅十分方便。网页解析方面，后面我们会用到正则表达式、BeautifulSoup和Lxml三种方式。

HTTP协议

具备一些网络方面的知识，了解浏览器和服务器之间的交互，如何发送http请求和处理请求结果。网页请求和下载网页，后面我们会用到Python的库urllib

Python

我们的脚本语言，这个自然不用说，必须掌握，入门推荐 runoob.com，Python基础和 Python 3

掌握了以上知识，我们就可以开始实战了！！！

我们一无所成的主要原因是想的太多，而做的太少！

查看全文

相关阅读:
timeit模块
 python中的del
python的默认参数
 python3中的nonlocal 与 global
python通俗讲解闭包
 vlc 视频播放器的快捷键
 Python的重要知识点汇总3
Python的重要知识点汇总2
Python的重要知识点汇总1
01玩转数据结构_08_堆和优先队列

原文地址：https://www.cnblogs.com/taotaoblogs/p/6858994.html

Python爬虫基础之认识爬虫

一、前言

二、爬虫是什么东西

三、爬虫从哪里爬取数据

四、我的爬虫知识储备

我们一无所成的主要原因是想的太多，而做的太少！