zoukankan      html  css  js  c++  java
  • 信息领域热词分析系统--python切词

    利用python将标题切割成词语

    import jieba
    #读取文件
    f=open(r"F:大数据大作业爬取到的数据data1_xinxi.txt",'r')
    s=f.read()
    #print(s)
    #切割文件中的字符串
    zifuchuan=s.split("
    ");#按行分割
    i=0
    zifuchuan1=[]#标题
    zifuchuan2=[]#文章链接
    zifuchuan3=[]#作者
    for ss in zifuchuan:
       if ss!='':#去掉空行
          #print(":"+ss)
          zifu=ss.split("	")
          zifuchuan1.append(zifu[0])
          zifuchuan2.append(zifu[1])
          zifuchuan3.append(zifu[2])
    #print(zifuchuan1)
    #分词
    k1=0
    k2=0
    fencihou2=[]
    for ss in zifuchuan1:
        #print(ss)
        fencihou=jieba.lcut(ss,cut_all=True)
        #print(fencihou)
        for f in fencihou:
            if f.isspace()==False:
                 print("@:"+f)
                 fencihou3 = f + ' ' + zifuchuan2[k2] + ' ' + zifuchuan3[k2]
                 fencihou2.append(fencihou3)
                 k1 = k1 + 1
    
        k2=k2+1
    #print(fencihou2)
    #写入文件
    f1=open("F:大数据大作业分词后的文件data2_xinxi.txt",'a+')
    for fencihou4 in fencihou2:
        f1.write(fencihou4)
        f1.write("
    ")
    f1.close()
    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
  • 相关阅读:
    学期总结
    C语言I博客作业09
    C语言I博客作业08
    C语言I博客作业07
    C语言I博客作业06
    C语言I博客作业06
    C语言I博客作业05
    C语言I博客作业04
    作业02
    c语言 学习笔记之二 选择题2
  • 原文地址:https://www.cnblogs.com/wl2017/p/10294415.html
Copyright © 2011-2022 走看看