zoukankan      html  css  js  c++  java
  • 【语言处理与Python】2.4词典资源

    词典或者词典资源是一个词/或短语以及一些相关信息的集合,例如:词性和词意定义等相关信息。

    一个词项包括词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不同的词拼写相同,被称为同音异义词。

     

    词汇列表语料库

    NLTK包括一些仅仅包含词汇列表的语料库。

    #过滤文本,这个函数计算文本的词汇表,然后删除所有在现有的词汇列表中出现的元素,只留下罕见或者拼写错误的词。
    
    def unusual_words(text):
    
    text_vocab=set(w.lower() for w in text if w.isalpha())
    
    english_vocab=set(w.lower() for w in nltk.corpus.words.words())
    
    unusual=text_vocab.difference(english_vocab)
    
    return sorted(unusual)

     

    停用词语料库:那些高频词汇,如the,to

    #定义一个函数来计算文本中没有在停用词列表中词的比例
    
    def content_fraction(text):
    
    stopwords=nltk.corpus.stopwords.words(‘engilsh’)
    
    content=[w for w in text if w.lower() not in stopwords]
    
    return len(content)/len(text)

     

    姓名语料库:分为男性和女性

    #研究姓名结尾与男女比例
    
    cfd=nltk.ConditionFreqDist(
    
    (fileid,name[-1])
    
    for fileid in names.fileids()
    
    for name in names.words(fileid))
    
    cfd.plot()
  • 相关阅读:
    9.2模拟题解
    NOI1995 石子合并
    NOIP2012 借教室
    织梦内页读取栏目banner图
    mysql数据库版本引发的问题
    简单修改hosts文件加快打开网页速度
    详细剖析电脑hosts文件的作用和修改
    内部标签样式
    织梦让当前的子栏目拥有特殊的样式
    织梦获取单个顶级栏目名
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3096273.html
Copyright © 2011-2022 走看看