目录
20190827
1.文本处理
a.什么是文件
文件是操作系统提供的一个虚拟概念,拿来存储信息的
b.什么是文本
.TXT/.Word/.md/.py/.xml/.ini 存储的是文字
c.视频/音频文件du
多媒体文件
d.我们如何通过文本编辑器去控制txt文件
- 找到文件路径
- 通过记事本打开文件
- 读取/修改操作
- 保存
- 关闭文件
代码
file_path='文本路径' #将文本路径设置为变量file_path
f=open(file_path) #把该路径的文件读入内存,只是没有可视化界面而已
data=f.read #读取文件 .read (命名为data数据变量)
print(data) # 打印读取出的文件
f.close #关闭
e.打开文件的三种模式
r-- read (只可读,不可写)
w--write (只可写不可读,同时清空文本)
a---append (只可读不可写,在最后追加值)
file_path='文本路径' #将文本路径设置为变量file_path
f=open(file_path,"a",encoding="gbk")
#打开文本路径 , 打开方式是a , 将编码格式更改以符合文本
data=f.read()
#读取f(即文本路径中的文件)并赋值给变量data
print(data)
f.撤销删除
右键点击文本--》 local history --》 show history
g.文本高级补充
t模式与b模式
b模式(针对音频与视频)
b不单独使用,一般与r/w/a一起配合使用
rb---read b
gbk/utf8只针对文本,所以音频通过rb模式打开-->读取二进制,b模式下没有encoding这个参数,
b不单独使用,一般与r/w/a一起配合使用
f = open(r'D:上海python12期视频python12期预科班视频day 05 1 文本处理.mp4','rb') # 读入内存##
#f=open(r为防止地址出现/读取不出 "想要读取的地址","读取模式rb")
data = f.read() #读取出代码值到data变量中
print(data)
f.close() #关闭
t模式(仅用于文本)
t不单独使用,一般与r/w/a一起配合使用 r 默认为 r t模式
with as
加上with会自动关闭 即with open
with open(r'D:上海python12期视频python12期预科班视频day 05关于实施乡村振兴战略的意见.txt','r+',encoding='utf8') as f:
# 这个缩进内部的代码都是文件打开的状态 as指的是将..作为
# 即不需要定义直接as 为一个变量 加上: 回车,会在下一行缩进
# 直到结束缩进,自动关闭
data = f.read()
print(data)
2.文本处理与词云分析
import jieba
import imageio
import wordcloud #导入库
# 1. 读取文件内容
with open(r'D:上海python12期视频python12期预科班视频day 05huijiadeyouhuo.txt','r+',encoding='utf8') as fr: #找到路径并读取至内存赋值给变量"fr"
data = fr.read() #读取fr变量至data
# 2. 使用结巴模块对文件内容切割
jieba.add_word('回家的诱惑') # 让"回家的诱惑"成为一个单词
jieba.del_word('女士') #删除固定的词汇
jieba.del_word('先生')
jieba.del_word('小马')
data_list = jieba.lcut(data) #把读取的变量用.lcut切割
data = ' '.join(data_list) #用join变为字符串
# 3. 找到一张洪世贤的图片
img = imageio.imread(r'D:上海python12期视频python12期预科班视频day 05hongshixian.jpg')
# 4. 使用词云模块生成词云
w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:WindowsFontssimsun.ttc',max_words=150)
w.generate(data)
w.to_file('nihaosaoa.png')