zoukankan      html  css  js  c++  java
  • 获得文本语料和词汇资源

    语料库的访问方法:

    raw( )       没有经过任何语言学处理之前把文件内容分析出来

    words( )     把文本处理成一个个单词    

    sents( )      把文本划分成语句,其中每一个句子都是一个词汇链表

    注意: 数值比较: ==                           单词比较: =

    条件频率分布

    条件频率分布是一个对许多NLP都有用的数据结构。

    频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。

    常用方法:

    FreqDist( ) :  以一个简单的链表作为输入

    ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

    tabulate( ) :   参数 conditions 指定显示哪些条件, samples 限制要显示的样本

    为条件频率分布制表

    plot( ) :  为条件频率分布绘图

    bigrams( ) :    接受一个词汇链表,并建立起一个连续的词对链表

    conditions( ) :   将条件按字母排序来分类

     

     

     

  • 相关阅读:
    CH6301 疫情控制
    [BeiJing2010组队]次小生成树 Tree
    CH6303 天天爱跑步
    CH6302 雨天的尾巴
    POJ3417 Network
    Problem 1999. -- [Noip2007]Core树网的核
    [Apio2010]patrol 巡逻
    「TJOI2018」str
    NOI2018 你的名字
    BZOJ5137 [Usaco2017 Dec]Standing Out from the Herd
  • 原文地址:https://www.cnblogs.com/lidan-prime/p/9153093.html
Copyright © 2011-2022 走看看