zoukankan      html  css  js  c++  java
  • python对读取的文件内容进行分词

      分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,它是一种自然语言处理技术,这里的分词指中文分词,其本质是提取一个字符串中的词组或者字。

    其详细代码非常简单,如下:

    #导入jieba分词模块
    import jieba
    #记录输入的文件路径
    filepath = input('请输入要读取的文件:')
    #打开文件
    with open(filepath,encoding='utf-8') as f:
    #读取文件内容并分词
    words = jieba.lcut(f.read())
    #替换换行符
    print(words)

    结果:

    ['1', '.', '', '代码', '行数', '', '评估', '程序', '', '开发进度', '', '', '好比', '', '重量', '', '评估', '一个', '飞机', '', '建造', '进度', '
    ', '2', '.', '程序', '不是', '年轻', '', '专利', '', '但是', '', '', '属于', '年轻', '
    ', '3', '.', '作为', '一个', '程序员', '', '郁闷', '', '事情', '', '', '面对', '一个', '代码', '', '', '', '不敢', '', '修改', '', '', '糟糕', '', '', '', '这个', '代码', '', '还是', '自己', '', '']

  • 相关阅读:
    Java 装饰者模式
    struts2注解的作用
    XML DOM 笔记
    XMLHttpRequest的用法
    Eclipse中实现JS代码提示功能
    .after()和.before()的关系
    xml的的特殊字符转义&
    html和xml的区别
    dom4j的解析实例
    tld自定义标签系列--使用body-content的作用--比较有用
  • 原文地址:https://www.cnblogs.com/xiao02fang/p/12853685.html
Copyright © 2011-2022 走看看