zoukankan      html  css  js  c++  java
  • NLP入门(三)词形还原(Lemmatization)

      词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。
      简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的单词为“car”,单词“ate”词形还原后的单词为“eat”。
      在Python的nltk模块中,使用WordNet为我们提供了稳健的词形还原的函数。如以下示例Python代码:

    from nltk.stem import WordNetLemmatizer
    
    wnl = WordNetLemmatizer()
    # lemmatize nouns
    print(wnl.lemmatize('cars', 'n'))
    print(wnl.lemmatize('men', 'n'))
    
    # lemmatize verbs
    print(wnl.lemmatize('running', 'v'))
    print(wnl.lemmatize('ate', 'v'))
    
    # lemmatize adjectives
    print(wnl.lemmatize('saddest', 'a'))
    print(wnl.lemmatize('fancier', 'a'))
    

    输出结果如下:

    car
    men
    run
    eat
    sad
    fancy

    在以上代码中,wnl.lemmatize()函数可以进行词形还原,第一个参数为单词,第二个参数为该单词的词性,如名词,动词,形容词等,返回的结果为输入单词的词形还原后的结果。
      词形还原一般是简单的,但具体我们在使用时,指定单词的词性很重要,不然词形还原可能效果不好,如以下代码:

    from nltk.stem import WordNetLemmatizer
    
    wnl = WordNetLemmatizer()
    print(wnl.lemmatize('ate', 'n'))
    print(wnl.lemmatize('fancier', 'v'))
    

    输出结果如下:

    ate
    fancier

      那么,如何获取单词的词性呢?在NLP中,使用Parts of speech(POS)技术实现。在nltk中,可以使用nltk.pos_tag()获取单词在句子中的词性,如以下Python代码:

    sentence = 'The brown fox is quick and he is jumping over the lazy dog'
    import nltk
    tokens = nltk.word_tokenize(sentence)
    tagged_sent = nltk.pos_tag(tokens)
    print(tagged_sent)
    

    输出结果如下:

    [('The', 'DT'), ('brown', 'JJ'), ('fox', 'NN'), ('is', 'VBZ'), ('quick', 'JJ'), ('and', 'CC'), ('he', 'PRP'), ('is', 'VBZ'), ('jumping', 'VBG'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]

      关于上述词性的说明,可以参考下表:

      OK,知道了获取单词在句子中的词性,再结合词形还原,就能很好地完成词形还原功能。示例的Python代码如下:

    from nltk import word_tokenize, pos_tag
    from nltk.corpus import wordnet
    from nltk.stem import WordNetLemmatizer
    
    # 获取单词的词性
    def get_wordnet_pos(tag):
        if tag.startswith('J'):
            return wordnet.ADJ
        elif tag.startswith('V'):
            return wordnet.VERB
        elif tag.startswith('N'):
            return wordnet.NOUN
        elif tag.startswith('R'):
            return wordnet.ADV
        else:
            return None
    
    sentence = 'football is a family of team sports that involve, to varying degrees, kicking a ball to score a goal.'
    tokens = word_tokenize(sentence)  # 分词
    tagged_sent = pos_tag(tokens)     # 获取单词词性
    
    wnl = WordNetLemmatizer()
    lemmas_sent = []
    for tag in tagged_sent:
        wordnet_pos = get_wordnet_pos(tag[1]) or wordnet.NOUN
        lemmas_sent.append(wnl.lemmatize(tag[0], pos=wordnet_pos)) # 词形还原
    
    print(lemmas_sent)
    
    

    输出结果如下:

    ['football', 'be', 'a', 'family', 'of', 'team', 'sport', 'that', 'involve', ',', 'to', 'vary', 'degree', ',', 'kick', 'a', 'ball', 'to', 'score', 'a', 'goal', '.']

    输出的结果就是对句子中的单词进行词形还原后的结果。
      本次分享到此结束,欢迎大家交流~

    注意:本人现已开通微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注哦~~

  • 相关阅读:
    git让线上代码强制覆盖本地的
    redis连接时报错:Could not connect to Redis at 127.0.0.1:6379: Connection refused
    Apache使用内置插件mod_php解析php的配置
    Apache2.4+PHP7.2配置站点访问变下载
    Linux下查看某一进程所占用内存的方法
    SNMP监控一些常用OID的总结
    kafka 生产消费原理详解
    HttpServletRequest接收参数的几种方法
    【转载】idea 2018注册码(激活码)永久性的
    SecureCRT & SecureFx 绿色破解版
  • 原文地址:https://www.cnblogs.com/jclian91/p/9898511.html
Copyright © 2011-2022 走看看