zoukankan      html  css  js  c++  java
  • Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬行要求python包裹

    后果《信息检索》第二project,微博具有抓取数据,再处理。师兄给了代码。让慢慢爬。可是在ubuntu下。少了非常多python软件包。须要安装。

    1.首先执行时。说少了python。BeautifulSoup包。用来解析html文件奇妙,这么重要的包怎么能缺少呢。百度ubuntu python BeautifulSoup后。看博客后找到方法:

    先安装easy_install工具:

     再用easy_install安装:

    easy_install BeautifulSoup

    若是还没有安装easy_install,在ubuntu下,会自己主动提示按如何的命令去安装。

    2.继续执行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。执行:

    pip install -r requirements.txt
    #不行,须要在root权限,换
    sudo pip install -r requirements.txt

    
    

    成功安装。运行源码,可行。

    3.另外的话,缺少display的话,用来展示验证码的。通过下面命令安装:

    sudo apt-get install imagemagick

    若是不能安装display的话。凝视掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()

    #proc = subprocess.Popen(['display', filename])		#第178行
    self.loginpostdata['pcid'] = pcid
    self.loginpostdata['door'] = raw_input(u'请输入验证码:')
    os.remove(filename)
    #proc.kill()										#第182行

    
    

    但与之相对的,在执行时,须要在目录里打开抓取的验证码图片,在终端手动输入验证码。

    有一点挺疑惑的是,队友直接没有安装display,直接使用

    python main.py display

    连验证码都没有输入,直接可以进入爬取部分。并且可以爬取出数据。吓尿。

    4.有的时候在抓取文件。可是没有下载,坑爹,没想到这问题,还没解析代码就那么执行着。还以为已经在抓取呢。

    在自己的笔记本centos6.5下抓取的时候甚是麻烦并且没成功。换了实验室里ubuntu14.04.1LTS版本号,改好了一下參数最终在怕去数据了,下一步要分析数据。进行兴许任务了。

    5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。只是能够改crawler/config.py參数

    begin_time="2012-11-1 00:00:00"
    end_time="2014-11-1 00:00:00"

    把用户数据降将为一年,可是对应的。在兴许分析用户数据时。少了的话。当然也是有一定的影响了。

    而已经爬取的部分不会再爬取。

    转载请认证:http://blog.csdn.net/u010454729/article/details/40656087

    版权声明:本文博主原创文章。博客,未经同意不得转载。

  • 相关阅读:
    AFNetWorking 文件上传 By-H罗
    利用系统APP实现导航---By张秀清
    项目 和 需求文档 -- 吴欧
    键盘弹起及lab时的动态计算高度 --董鑫
    NSSet和NSMutableSet
    内联函数 在ios中的运用 --黄仁斌
    iOS 七大手势之轻拍,长按,旋转手势识别器方法-赵小波
    网络技术之BGP
    [手游项目3]-3-golang
    [手游项目3]-2-git
  • 原文地址:https://www.cnblogs.com/gcczhongduan/p/4910241.html
Copyright © 2011-2022 走看看