Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬行要求python包裹

zoukankan html css js c++ java

Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬行要求python包裹
后果《信息检索》第二project，微博具有抓取数据，再处理。师兄给了代码。让慢慢爬。可是在ubuntu下。少了非常多python软件包。须要安装。

1.首先执行时。说少了python。BeautifulSoup包。用来解析html文件奇妙，这么重要的包怎么能缺少呢。百度ubuntu python BeautifulSoup后。看博客后找到方法：

先安装easy_install工具：

再用easy_install安装：

easy_install BeautifulSoup

若是还没有安装easy_install,在ubuntu下，会自己主动提示按如何的命令去安装。

2.继续执行，说是缺少rsa包，想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。执行:

pip install -r requirements.txt #不行，须要在root权限，换 sudo pip install -r requirements.txt

成功安装。运行源码，可行。

3.另外的话，缺少display的话，用来展示验证码的。通过下面命令安装：

sudo apt-get install imagemagick

若是不能安装display的话。凝视掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()

#proc = subprocess.Popen(['display', filename]) #第178行 self.loginpostdata['pcid'] = pcid self.loginpostdata['door'] = raw_input(u'请输入验证码：') os.remove(filename) #proc.kill() #第182行

但与之相对的，在执行时，须要在目录里打开抓取的验证码图片，在终端手动输入验证码。

有一点挺疑惑的是，队友直接没有安装display，直接使用

python main.py display

连验证码都没有输入，直接可以进入爬取部分。并且可以爬取出数据。吓尿。

4.有的时候在抓取文件。可是没有下载，坑爹，没想到这问题，还没解析代码就那么执行着。还以为已经在抓取呢。
在自己的笔记本centos6.5下抓取的时候甚是麻烦并且没成功。换了实验室里ubuntu14.04.1LTS版本号，改好了一下參数最终在怕去数据了，下一步要分析数据。进行兴许任务了。

5.爬取微博的时候，速度可能有些慢，平均下来爬18页/min,要看网速了。只是能够改crawler/config.py參数。

begin_time="2012-11-1 00:00:00" end_time="2014-11-1 00:00:00"

把用户数据降将为一年，可是对应的。在兴许分析用户数据时。少了的话。当然也是有一定的影响了。
而已经爬取的部分不会再爬取。

转载请认证：http://blog.csdn.net/u010454729/article/details/40656087

版权声明：本文博主原创文章。博客，未经同意不得转载。
查看全文

相关阅读:
NOIP2009-2018简要题解
 luogu P5023 填数游戏
 Java桌面精灵基础——swing类的使用与关键代码
 c信号处理程序以及setjmp函数longjmp函数的简单应用
 mmapcopy函数的编写
 nm命令的学习以及可执行文件中的段
 关于C中数组和指针的一点理解
 写一个简单的lisp解释器(1)
House Robber
SICP_3.31

原文地址：https://www.cnblogs.com/gcczhongduan/p/4910241.html