zoukankan      html  css  js  c++  java
  • 语言计算:文本和词汇

    1、搜索文本

      text1.concordance( )      

    concordance:著作或作家全集的重要用字索引

    可以显示指定单词的出现情况,同时还可以显示一些上下文

      text1.similar( )

    可以查到还有哪些词出现在相似的上下文中

      text1.common_contexts( [ “...”, “...” ] )

    研究共用两个或两个以上词汇的上下文

      text1.generate( )

    根据text1的文本风格自动生成一些随机文本

    2、计数词汇

    先理解几个概念:

    标识符:单词和标点符号

    词类型:一个词在文本中独一无二的出现或拼写形式

      len( text1 )

    计算文本中标识符的个数,会有重复,因为计算的是序列出现的次数

      len( set(text1) )

    计算文本中标识符的个数,不会重复计数,因为集合中重复的元素都只算一个

    3、简单的统计

    FreqDist( text1 )   

    频率分布函数,能够获得文本中出现频率高的标识符

    调用该函数能够获得一个含key 和 value的字典,key是单词,value是个数

    set( text1 )   将文本单词放入集合中,确保无重复

     词语搭配:

    text1.collocations( )   查找到频繁出现的双连词

    4、决策与控制

    条件语句:

    [ w for w in sent if condition]

    词汇比较函数:

    s.startswith( t )      以t开头

    s.endswith( t )       以t结尾

    t in s                      是否包含t

    s.islower( )            

    s.isupper( ) 

    s.isalpha( )             所有字符是字母

    s.isalnum( )            字母或数字

    s.isdigit( )           

    s.istitle( )                 首字母大写 

    举例如下:

    [w for w in set(text1) if w.endswidth('ment') ]        在text1单词存放的set集合中,查找以ment结尾的单词

  • 相关阅读:
    HTTP 筛选器 DLL C:WindowsMicrosoft.NetFrameworkv4.0.30319aspnet_filter.dll 加载失败。数据是错误。
    win7(iis7)无法加载运行CSS文件的解决方法
    MVC异步消息推送机制
    查看目录下所有文件的行数
    解决 mac全屏时不能隐藏Dock工具栏 killall Dock
    jetty中传java参数(spring-io中的配置项)
    nginx代理前端项目
    【转】mackbook wifi卡死未响应的问题
    WeekMap WeakSet的用途
    每日新知2019-08-23
  • 原文地址:https://www.cnblogs.com/lidan-prime/p/9138639.html
Copyright © 2011-2022 走看看