zoukankan      html  css  js  c++  java
  • day 05

    day005

    1.文本处理+词云

    01.什么是文件;文件是操作系统提供的一个虚拟概念,用来储存信息

    02.文本文件;.txt/.word/.md/.py/.xml/.ini 储存的是文字

    03.通过文本编辑器去控制txt文件

    1.找到文件路径 # file_path='/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt' 2.打开文件 # f=open(file_path)(只是把文件读入内存没有将文件可视化) 打开文件的3种方式 3.读取/修改操作 # data=f.read() # 读取文件让文件可视化 4.保存 # f.flush() # 保存文件 5.关闭文件 # f.close() # 关闭文件

    import jieba
    import imageio
    import wordcloud

    # 1. 读取文件内容
    with open(r'/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt','r+',encoding='utf8') as fr:
      # for i in range(1000):
      #     fr.write('回家的诱惑,')
      #     fr.flush() # 相当于保存

      data = fr.read()


    # 2. 使用结巴模块对文件内容切割
    jieba.add_word('回家的诱惑') # 让"回家的诱惑"成为一个单词
    jieba.del_word('女士')
    jieba.del_word('先生')
    jieba.del_word('小马')
    data_list = jieba.lcut(data)
    data = ' '.join(data_list)

    # 3. 找到一张洪世贤的图片
    img = imageio.imread(r'hongshixian.jpg')

    # 4. 使用词云模块生成词云
    w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:WindowsFontssimsun.ttc',max_words=150)
    w.generate(data)
    w.to_file('nihaosaoa.png')

    2.爬取图片

    import requests
    response = requests.get(
      url='http://gss0.baidu.com/-4o3dSag_xI4khGko9WTAnF6hhy/zhidao/pic/item/5243fbf2b21193136cdd4aab6c380cd791238d0b.jpg'
    )

    with open('蕾姆.jpg','wb') as f:
      f.write(response.content)
      print('图片下载成功')

    3.爬取视频

    import requests
    response = requests.get(url='https://video.pearvideo.com/mp4/third/20190827/cont-1595605-10024340-172750-hd.mp4')
    with open('肉沫虹豆。mp4','wb') as f:
      f.write(response.content)
      print('视频下载成功')

    4.爬取文本

    import requests
    import re
    response=requests.get(url='https://movie.douban.com/chart')
    response.encoding = 'utf-8'
    print(response.text)
    Weekly=re.findall('<td width="100" valign="top">.*?<a class="nbg" href="(.*?)".*?title="(.*?)">', response.text, re.S)
    num = 1
    with open('renren11.txt', 'w', encoding='utf-8')as f:
      for line in Weekly:
          movie_url = line[0]
          movie_name = line[1]
          f.write(movie_url + '---' + movie_name + ' ')
    print('写入数据成功,程序结束')
  • 相关阅读:
    Snort 2.9.4.0 发布,入侵检测系统
    Tails 0.15 发布,基于Debian的Linux发行
    httpkit 1.2 发布
    cmogstored 0.9.0 发布,mogstored 的 C 实现
    JSwat 2012.1 发布,Java 调试工具
    诺基亚 Lumia 920T 今日发布 处理器升级
    如何在你的网站中嵌入 RunJS 的代码 (gist)?
    Linux 上的 Darwin/OS X 仿真器 Darling
    Zarafa 7.0.11/7.1.2 发布
    Silverlight实例教程 – Datagrid,Dataform数据验证和ValidationSummary
  • 原文地址:https://www.cnblogs.com/luocongyu/p/11426924.html
Copyright © 2011-2022 走看看