Python nltk English Detection - 走看看

zoukankan html css js c++ java

Python nltk English Detection

http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/

>>> from nltk import wordpunct_tokenize

>>> wordpunct_tokenize("That's thirty minutes away. I'll be there in ten.")

['That', "'", 's', 'thirty', 'minutes', 'away', '.', 'I', "'", 'll', 'be', 'there', 'in', 'ten', '.']

>>> from nltk.corpus import stopwords

>>> stopwords.fileids()

['danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'portuguese', 'russian', 'spanish', 'swedish', 'turkish']

>>>

>>> stopwords.words('english')[0:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your']

>>> languages_ratios = {}

>>>

>>> tokens = wordpunct_tokenize(text)

>>> words = [word.lower() for word in tokens]

>>> for language in stopwords.fileids():

... stopwords_set = set(stopwords.words(language))

... words_set = set(words)

... common_elements = words_set.intersection(stopwords_set)

...

... languages_ratios[language] = len(common_elements)

# language "score"

>>>

>>> languages_ratios

{'swedish': 1, 'danish': 1, 'hungarian': 2, 'finnish': 0, 'portuguese': 0, 'german': 1, 'dutch': 1, 'french': 1, 'spanish': 0, 'norwegian': 1, 'english': 6, 'russian': 0, 'turkish': 0, 'italian': 2}

>>> most_rated_language = max(languages_ratios, key=languages_ratios.get)

>>> most_rated_language

'english'

查看全文

相关阅读:
千年不曾看懂《道德经》，直至有了《道德图》！--作者:南山空同
 初探工作流的库表设计
 教你如何快速上手markdown语法，编写技术博客（史上最全最简，用MarkDown写博客）
面试官：你连RESTful都不知道我怎么敢要你？文章解析
 Dapper系列作者：懒懒的程序员一枚
 为何要编写《元灵心经》养、和、消三篇作者南山空同
 南山空同《学经》前24章
 ASP.NET Core 2.2 WebApi 系列【九】使用SignalR (作者:tenghao510 ) 学习及内容补充
 Net Core 中WebAPI有关 Session的设置,及获取
 asp.net core系列 WebAPI 作者：懒懒的程序员一枚

原文地址：https://www.cnblogs.com/turtle920/p/5597829.html

Copyright © 2011-2022 走看看