一个人工智能项目里的中文分词方案 - 走看看

zoukankan html css js c++ java

一个人工智能项目里的中文分词方案

　　做搜索的都知道，中文分词，一般都是先建一个词库，再根据词库进行分词。但是这样做有两个问题：1.存在歧义词，2.不容易发现新词。尤其第2点，在处理舆情类内容时更是如此。如果想减少这类问题，现在的主要解决手段，一般都是在后端建一个词条系统，通过累积找到高频词，然后把高频词加到词库中，再进行分词。但是这样做仍然有一个时间差问题，不适合即时性的内容判断。

　　最近接手了一个舆情类的人工智能项目，为了避免上述问题，采用以下手段。方法如下：
　　1. 拿到整个文本。
　　2. 按照文本段落，分成多个文本块。
　　3. 每个文本块，根据标点符号，切成多个文本句。
　　4. 对文本句进行二元分词。
　　5. 统计高频词，记录这些高频词的文本位置。
　　6. 以高频词为断点，重新对文本句进行分词，得到非高频词。
　　7. 结合词库分词。
　　8. 统计词条出现频率，标记属性，提交给后续任务做内容分析。

　　试验下来，用时基本相同，效果比单纯的词库分词要好，容易发现新词和敏感词，这对分析舆情内容非常有帮助。

查看全文

相关阅读:
hdu1251统计难题（trie树）
线段树
 poj2632Crashing Robots
UVA10194 Football (aka Soccer)
hdu1166敌兵布阵（线段树）
【洛谷P3810】【模板】三维偏序（陌上花开）
【洛谷P2480】古代猪文
 【洛谷P3449】PALPalindromes
【洛谷P4777】扩展中国剩余定理（EXCRT）
【洛谷P2421】荒岛野人

原文地址：https://www.cnblogs.com/laxcus/p/5716007.html

Copyright © 2011-2022 走看看