zoukankan html css js c++ java

爬虫大作业

python爬虫抓取《极简宇宙史》书评，制作词云

分析网页源码，进行数据抓取

 1 coding = "UTF-8"
 2 #引入 requests BeautifulSoup 两个
 3 import requests
 4 from bs4 import BeautifulSoup
 5 import time
 6 #先命名一个空list
 7 sm_list = []
 8 #填写头部信息
 9 headers = {'Host':'book.douban.com',
10  'Referer':'https://book.douban.com/subject/26697350/', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' }
11 #先利用requests请求网页信息，这里的循环主要作用是我们发现书评有1354条，每页有20条，将近70页，这里用字符串格式化操作，进行遍历抓取数据
12 for page in range(1,70):
13     url = 'https://book.douban.com/subject/26697350/comments/hot?p={}'.format(page)
14     req = requests.get(url,headers=headers)
15     content = req.content
16     soup = BeautifulSoup(content,'lxml')
17     article = soup.find('div',class_='article')
18     list = article.find_all('p',attrs ={'class':'comment-content'},)
19     for i in list:
20      shuji_list = i.get_text().replace('
','')
21         sm_list.append(shuji_list)
22   #这里我设置时间间隔为1秒
23 time.sleep(1)
24 print(page)
25 print(sm_list)

数据抓取完之后，删除标点符号。把全部书评复制到桌面的一个新建文本文档中

生成词云

 1 #导入三个库
 2 import matplotlib.pyplot as plt
 3 from wordcloud import WordCloud
 4 import jieba
 5 #用open函数打开文档，读取内容存放在text文件中
 6 text = open('C:\Users\Administrator\Desktop\jijian.txt').read()
 7 #用jieba库对文档进行分词，分词后存储在一个叫wordlist_jieba的文件中,这个文件为list格式
 8 wordlist_jieba = jieba.cut(text, cut_all = True)
 9 #用join函数将list转为str
10 wordstr = " ".join(wordlist_jieba)
11 #用wordcloud生成词云
12 my_wordcloud = WordCloud().generate(wordstr)
13 plt.imshow(my_wordcloud)
14 plt.axis("off")
15 plt.show()

运行程序之后，生成的词云如图所示：

查看全文

相关阅读:
ZAB 和 Paxos 算法的联系与区别？
Spring支持的ORM？
解释对象/关系映射集成模块？
哪种依赖注入方式你建议使用，构造器注入，还是 Setter方法注入？
我们能自己写一个容器类，然后使用 for-each 循环码？
Struts2的Action中获取request对象的几种方式？
Chroot 特性?
String是最基本的数据类型吗?
@Autowired 注解？
比较HQL、Criteria、Native-SQL这三者做查询的区别，以及应该如何进行选择?

原文地址：https://www.cnblogs.com/WaiD/p/8932527.html

爬虫大作业

python爬虫 抓取《极简宇宙史》书评，制作词云

分析网页源码，进行数据抓取

python爬虫抓取《极简宇宙史》书评，制作词云