scrapy爬虫笔记(一)环境配置

zoukankan html css js c++ java

scrapy爬虫笔记(一)环境配置
前言：

　　本系列文章是对爬虫的简单介绍，以及教你如何用简单的方法爬取网站上的内容。

　　需要阅读者对html语言及python语言有基本的了解。

　　（本系列文章也是我在学习爬虫过程中的学习笔记，随着学习的深入会不断地更新）

爬虫简介：

　　网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。

　　网络爬虫先获取某网站的源代码，通过源码解析（如<a><p>标签等）来获得想要的内容。

环境配置：

　　ubuntu系统（安装方法请自行百度。由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多，故我们选用ubuntu系统）

　　爬虫可用的软件很多，我们选择在ubuntu系统下使用python进行网页爬取，并将爬取下的内容放入mysql数据库中。

所需软件：

　　python：ubuntu系统自带，无需安装

　　pip：python包管理工具(需要下载python内的库进行网页爬取，安装pip方便我们对python中库的下载)

　　scrapy：Python开发的一个快速,高层次的屏幕抓取和web抓取框架。即从web站点爬取信息，读入到本地。

　　BeautifulSoup：通过标签解析（如<a>,<p>,id,class等）从html或xml文件中提取数据的python库。

　　mysql：一种关联数据库管理系统，将数据保存在不同的表中，用来存储数据。

软件安装步骤：

　　使用Ctrl+Alt+T打开命令行

　　1.pip安装 sudo apt-get install python-pip

　　2.scrapy安装 pip install scrapy

　　3.beautifulsoup4安装 pip install beautifulsoup4

　　4.安装与mysql相关的python库

　　(1) pip install mysql-connector-python

　　5.安装mysql

　　(1) sudo apt-get install mysql-server

　　(2) sudo apt-get install mysql-client

*注：1.用pip安装时如出现错误，可能是权限不够，最前面加上sudo命令即可。

　　 2.如安装python相关模块中出现'error:command 'gcc' failed with exit status 1'的错误信息，可通过安装如下库解决：

　　　　 sudo apt-get install python-dev

　　 3.如安装mysql-connector-python时出现error:
```
　　Could not find any downloads that satisfy the requirement mysql-connector-python
　　Some externally hosted files were ignored 
　　   (use --allow-external mysql-connector-python to allow). 
```
　　输入命令

　　　　 pip install --allow-external mysql-connector-python mysql-connector-python

　　环境配置是个挺麻烦的工作，要有耐心哦～不同ubuntu系统版本可能会遇到各种奇葩问题，由于个人水平所限，请自行百度(-.-)

　　如果环境已经配置好了，那么下面我们可以开始爬取网页了^v^
查看全文

相关阅读:
struts2 标签为简单标签
 html a标签链接使用action 参数传递中文乱码
 html 字体加粗
 Unity3D学习笔记（一）：Unity简介、游戏物体、组件和生命周期函数
 Unity3D学习笔记（一）：Unity3D简介 111
C#学习笔记（二十）：C#总结和月考讲解
 C#学习笔记（十九）：字典
 C#学习笔记（十八）：数据结构和泛型
 C#学习笔记（十七）：委托、事件、观察者模式、匿名委托和lambert表达式
 C#学习笔记（十六）：索引器和重载运算符

原文地址：https://www.cnblogs.com/KoalaDream/p/4464999.html

scrapy爬虫笔记(一)环境配置

前言：

爬虫简介：

环境配置：

所需软件：

软件安装步骤：