zoukankan      html  css  js  c++  java
  • 四十行Python代码,带你爬取热门音乐评论,制作评论词云图!

    今天你抑郁了吗?
    在这里插入图片描述

    听歌的时候挺喜欢看评论的,特别是网抑云的,不知道各位铁汁是不是也这样,毕竟自古评论出人才,哈哈!
    在这里插入图片描述

    然后我就弄了个简单的代码,把评论给爬下来做了个词云图,看一下大家讨论的最多的是什么!文章看不懂的话,也有视频教程详细讲解,要看的话直接翻到文章最下面有~

    福利我就不上了,怕被举报~


    在这里插入图片描述

    好了,我们先介绍下今天要用的软件和模块~

    软件

    python 3.6
    pycharm

    模块

    re
    selenium  (安装方法)python模块: pip install selneium
    jieba
    wordcloud
    imageio

    大概流程

    1、selenium简单使用
    2、中文分词库的使用
    3、词云图的制作
    

    先看看爬虫部分
    导入浏览器的功能

    from selenium import webdriver

    正则表达式模块, 内置

    import re

    时间模块, 程序延迟

    import time 

    创建一个浏览器对象

    driver = webdriver.Chrome()

    请求页面数据

    driver.get('https://music.163.com/#/song?id=569213220')  #

    selenium无法直接获取到嵌套页面里面的数据
    switch_to.frame() 切换到嵌套网页

    driver.switch_to.frame(0)

    让浏览器加载的时候, 等待渲染页面

    driver.implicitly_wait(10)

    driver.page_source 获取请求页面的 html 数据

    print(driver.page_source)

    下拉页面, 直接下拉到页面的底部

    js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight'
    driver.execute_script(js)

    控制翻页 速度太快

    for page in range(10):

    解析评论数据

    divs = driver.find_elements_by_css_selector('.itm')  # 所有div  css语法: 定位到 html 数据/xpath/正则
    
    for div in divs:
        cnt = div.find_element_by_css_selector('.cnt.f-brk').text
    
        cnt = re.findall(':(.*)', cnt)[0]  # 中英文有区别
        print(cnt)
    
        with open('contend.txt', mode='a', encoding='utf-8') as f:
            f.write(cnt + '
    ')

    翻页 , 找到下一页标签, 点击?

    driver.find_element_by_css_selector('.znxt').click()
    time.sleep(1)

    效果
    在这里插入图片描述

    爬虫部分完事了,接下来看看词云图部分~
    在这里插入图片描述
    模块

    import jieba  # 中文分词库  pip install jieba
    import wordcloud  # 制作词云图的模块  pip install wordcloud

    读取文件数据

    with open('contend.txt', mode='r', encoding='utf-8') as f:
        txt = f.read()
    print(txt)

    词云图 分词<中文(词语)> 基于结果

    txt_list = jieba.lcut(txt)
    print('分词结果:', txt_list)

    合并

    string_ = ' '.join(txt_list)  # 1 + 1 = 2   字符串的基本语法
    print('合并分词:', string_)
    
    import imageio

    添加系统环境变量

    img = imageio.imread('音乐.png')

    创建词云图

    wc = wordcloud.WordCloud(
        width=1000,  # 图片的宽
        height=800,  # 图片的高
        background_color='black',  # 图片的背景色
        font_path='msyh.ttc',  # 微软雅黑
        scale=15,  # 词云图默认的字体大小
        mask=img,  # 指定词云图的图片

    停用词< 语气词, 助词,…

    stopwords=set([line.strip() for line in open('cn_stopwords.txt', mode='r', encoding='utf-8').readlines()] )
    
    )

    绘制保存

    print('正在绘制词云图...')
    wc.generate(string_)  # 绘制词云图
    wc.to_file('out.png')  # 保存词云图
    print('词云图绘制完成...')

    效果
    在这里插入图片描述
    代码其实都在上面,实在是文章看不懂的话,可以在这看视频教程,也可以加视频里面的群直接找我要源代码,包括一些其它的案例教程啊,代码,电子书都可以免费获取,或者有问题的话都可以在群里解答!
    点我看视频加群
    在这里插入图片描述

  • 相关阅读:
    关于HTTP协议,一篇就够了
    jvm在什么情况下会执行GC
    为什么我们做分布式使用Redis?
    linux入门系列
    linux学习笔记-13.进程控制
    linux学习笔记-12.输入输出重定向及管道
    app获取自己的签名
    安卓给微信公众号发消息
    微信扫码下载apk
    设备通道开启关闭状态
  • 原文地址:https://www.cnblogs.com/hahaa/p/15110600.html
Copyright © 2011-2022 走看看