zoukankan      html  css  js  c++  java
  • scrapy爬虫笔记(一)环境配置

    前言:

      本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。

      需要阅读者对html语言python语言有基本的了解。

      (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)


    爬虫简介:

      网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

      网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容。


    环境配置:

      ubuntu系统(安装方法请自行百度由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多,故我们选用ubuntu系统)

      爬虫可用的软件很多,我们选择在ubuntu系统下使用python进行网页爬取,并将爬取下的内容放入mysql数据库中。


    所需软件:

      pythonubuntu系统自带,无需安装

      pippython包管理工具(需要下载python库进行网页爬取,安装pip方便我们对python中库的下载)

      scrapyPython开发的一个快速,高层次的屏幕抓取和web抓取框架即从web站点爬取信息,读入到本地

      BeautifulSoup:通过标签解析(如<a>,<p>,id,class等)htmlxml文件中提取数据的python

      mysql一种关联数据库管理系统,将数据保存在不同的表中,用来存储数据。


    软件安装步骤:

      使用Ctrl+Alt+T打开命令行

      1.pip安装 sudo apt-get install python-pip

      2.scrapy安装 pip install scrapy

      3.beautifulsoup4安装 pip install beautifulsoup4

      4.安装与mysql相关的python

      (1) pip install mysql-connector-python

      5.安装mysql

      (1) sudo apt-get install mysql-server

      (2) sudo apt-get install mysql-client

    *注:1.用pip安装时如出现错误,可能是权限不够,最前面加上sudo命令即可。

       2.如安装python相关模块中出现'error:command 'gcc' failed with exit status 1'的错误信息,可通过安装如下库解决:

         sudo apt-get install python-dev

       3.如安装mysql-connector-python时出现error:

      Could not find any downloads that satisfy the requirement mysql-connector-python
      Some externally hosted files were ignored    (use --allow-external mysql-connector-python to allow).
     

        输入命令

         pip install --allow-external mysql-connector-python mysql-connector-python

      

      环境配置是个挺麻烦的工作,要有耐心哦~不同ubuntu系统版本可能会遇到各种奇葩问题,由于个人水平所限,请自行百度(-.-)

      如果环境已经配置好了,那么下面我们可以开始爬取网页了^v^

  • 相关阅读:
    Matplotlib使用笔记
    python之enumerate
    初识matlab
    动态规划的解题思路是如何形成的
    【JVM】体系结构及其细节
    位运算的题目小结
    【JUC】死锁的实现及其定位分析
    【JUC】如何理解线程池?第四种使用线程的方式
    【JUC】实现多线程的第三种方式Callable
    可怜的实验鼠和小猪问题
  • 原文地址:https://www.cnblogs.com/KoalaDream/p/4464999.html
Copyright © 2011-2022 走看看