zoukankan      html  css  js  c++  java
  • 爬虫教程-1

    很久没来了,先贴一篇上个月的旧文。#最近争取每天中午更新一点,也算是复习笔记了,哭泣#

    可能是我蠢,爬虫这块搞了好几天才写了这么一点点,先入门吧,之后再写复杂的。#可能是下个月了:)#


    环境:VirtualBox,lubuntu。

    1. 安装docker

    https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

    $ sudo apt-get update

    $ sudo apt-get install

        apt-transport-https

        ca-certificates

        curl

        software-properties-common

    $ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

    $ sudo add-apt-repository

        "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu

        $(lsb_release -cs)

        stable"

    $ sudo apt-get update

    $ sudo apt-get install docker-ce

     

    启动 Docker CE

    $ sudo systemctl enable docker

    $ sudo systemctl start docker

     

    建立 docker 组:

    $ sudo groupadd docker

    将当前用户加入 docker 组:

    $ sudo usermod -aG docker $USER

    退出当前终端并重新登录,进行如下测试。

    测试是否安装成功:

    sudo docker run hello-world

     

    2.安装Splash

    https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

     

    sudo docker pull scrapinghub/splash

    sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

    现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。

     

    3. 安装scrapy

    sudo apt-get install python-dev

    sudo apt-get install libevent-dev

    sudo apt-get install libssl-dev

     

    现在是万众瞩目的debug时间

     

    fatal error: libxml/xmlversion.h: 没有那个文件或目录

    ln -s /usr/include/libxml2/libxml /usr/include/libxml

     

    fatal error: libxslt/xsltconfig.h: 没有那个文件或目录

    sudo apt-get install libxslt-dev

     

    sudo pip install scrapy

     

    The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

    sudo leafpad ~/.bashrc

    export PATH=/usr/lib/pypy/../../local/bin:$PATH

    source ~/.bashrc

     

    下一篇,我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面,抓取的时候需要更注意,之后更新。

     

  • 相关阅读:
    使用SharePoint PeopleEditor控件
    python快排的三种写法
    js获取浏览器屏幕高度、宽度等
    Spring总结> 第一结 概述
    js设置body高度、宽度为浏览器窗口高度、宽度
    简单的Spring调用jdbc.porperties配置信息,以mysql为例
    SSM(Spring + Spring MVC + MyBatis)整合
    【原创】MS SQL2005 存储过程分页(简洁型)后续完善更新中......
    【转载】动态sql语句基本语法
    Provider模式Demo
  • 原文地址:https://www.cnblogs.com/pxy7896/p/9814643.html
Copyright © 2011-2022 走看看