zoukankan      html  css  js  c++  java
  • 爬虫教程-1

    很久没来了,先贴一篇上个月的旧文。#最近争取每天中午更新一点,也算是复习笔记了,哭泣#

    可能是我蠢,爬虫这块搞了好几天才写了这么一点点,先入门吧,之后再写复杂的。#可能是下个月了:)#


    环境:VirtualBox,lubuntu。

    1. 安装docker

    https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

    $ sudo apt-get update

    $ sudo apt-get install

        apt-transport-https

        ca-certificates

        curl

        software-properties-common

    $ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

    $ sudo add-apt-repository

        "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu

        $(lsb_release -cs)

        stable"

    $ sudo apt-get update

    $ sudo apt-get install docker-ce

     

    启动 Docker CE

    $ sudo systemctl enable docker

    $ sudo systemctl start docker

     

    建立 docker 组:

    $ sudo groupadd docker

    将当前用户加入 docker 组:

    $ sudo usermod -aG docker $USER

    退出当前终端并重新登录,进行如下测试。

    测试是否安装成功:

    sudo docker run hello-world

     

    2.安装Splash

    https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

     

    sudo docker pull scrapinghub/splash

    sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

    现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。

     

    3. 安装scrapy

    sudo apt-get install python-dev

    sudo apt-get install libevent-dev

    sudo apt-get install libssl-dev

     

    现在是万众瞩目的debug时间

     

    fatal error: libxml/xmlversion.h: 没有那个文件或目录

    ln -s /usr/include/libxml2/libxml /usr/include/libxml

     

    fatal error: libxslt/xsltconfig.h: 没有那个文件或目录

    sudo apt-get install libxslt-dev

     

    sudo pip install scrapy

     

    The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

    sudo leafpad ~/.bashrc

    export PATH=/usr/lib/pypy/../../local/bin:$PATH

    source ~/.bashrc

     

    下一篇,我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面,抓取的时候需要更注意,之后更新。

     

  • 相关阅读:
    ASP.NET MVC下的四种验证编程方式
    tp框架下,数据库和编辑器都是utf-8, 输出中文却还是乱码
    按拼音首字母排序
    PHP 文件导出(Excel, CSV,txt)
    RedisDesktopManager 可视化工具提示:无法加载键:Scan..
    window下redis如何查看版本号
    jQuery 防止相同的事件快速重复触发
    input中加入搜索图标
    JS搜索商品(跟外卖app店内搜索商品一样) ,keyup函数和click函数调用
    JS正则对象 RegExp(有变量的时候使用),用来匹配搜索关键字(标红)
  • 原文地址:https://www.cnblogs.com/pxy7896/p/9814643.html
Copyright © 2011-2022 走看看