zoukankan      html  css  js  c++  java
  • 爬虫教程-1

    很久没来了,先贴一篇上个月的旧文。#最近争取每天中午更新一点,也算是复习笔记了,哭泣#

    可能是我蠢,爬虫这块搞了好几天才写了这么一点点,先入门吧,之后再写复杂的。#可能是下个月了:)#


    环境:VirtualBox,lubuntu。

    1. 安装docker

    https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

    $ sudo apt-get update

    $ sudo apt-get install

        apt-transport-https

        ca-certificates

        curl

        software-properties-common

    $ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

    $ sudo add-apt-repository

        "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu

        $(lsb_release -cs)

        stable"

    $ sudo apt-get update

    $ sudo apt-get install docker-ce

     

    启动 Docker CE

    $ sudo systemctl enable docker

    $ sudo systemctl start docker

     

    建立 docker 组:

    $ sudo groupadd docker

    将当前用户加入 docker 组:

    $ sudo usermod -aG docker $USER

    退出当前终端并重新登录,进行如下测试。

    测试是否安装成功:

    sudo docker run hello-world

     

    2.安装Splash

    https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

     

    sudo docker pull scrapinghub/splash

    sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

    现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。

     

    3. 安装scrapy

    sudo apt-get install python-dev

    sudo apt-get install libevent-dev

    sudo apt-get install libssl-dev

     

    现在是万众瞩目的debug时间

     

    fatal error: libxml/xmlversion.h: 没有那个文件或目录

    ln -s /usr/include/libxml2/libxml /usr/include/libxml

     

    fatal error: libxslt/xsltconfig.h: 没有那个文件或目录

    sudo apt-get install libxslt-dev

     

    sudo pip install scrapy

     

    The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

    sudo leafpad ~/.bashrc

    export PATH=/usr/lib/pypy/../../local/bin:$PATH

    source ~/.bashrc

     

    下一篇,我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面,抓取的时候需要更注意,之后更新。

     

  • 相关阅读:
    4.2 省选模拟赛 流浪者 容斥dp
    4.2 省选模拟赛 旅行路线 广义SAM
    4.2 省选模拟赛 摆棋子 网络流 最大流/上下界最小流
    bzoj 4316 小C的独立集
    CF R630 div2 1332 E Height All the Same
    C++多线程の条件变量
    c++多线程のunique和lazy initation
    c++多线程の死锁与防止死锁
    c++多线程の数据竞争和互斥对象
    c++的多线程和多进程
  • 原文地址:https://www.cnblogs.com/pxy7896/p/9814643.html
Copyright © 2011-2022 走看看