中文自动分词算法

zoukankan html css js c++ java

中文自动分词算法

【中文自动分词算法】

　　当在搜索引擎中搜索“软件使用技巧”时，搜索引擎通常会帮你找出同时含有”软件“、”使用“、”技巧“的网页。一个好的新闻网站通常会有“相关文件推荐”的功能，这也要依赖于自动分词的算法。要想让计算机准确切分并不容易，例如某网站报道北京大学生，而相关文章里列出的全是北京大学的新闻。这多半是分词算法错误地把标题中的“北京大学”当成了一个词。

　　难题一，交集词。例如“结婚的和尚未结婚的”。“和尚”和“尚未”都是词。“中外科学名著”里，“中外”、“外科”、“科学”。。。全是词。类似的问题很多，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习法语规则”。这些极端的例子下，分词算法的优劣一试便知。

　　一种改进方法是构造一个不单独成词表，比如“”民“、”尘“、”伟“，这些字通常不会单独划出来，都要跟旁边的字一块组成一个词。在分词过程中，一理发现这些字被孤单出来，都要重新考虑它与前面的字组词的可能性。

　　另一种改进方法是根据数据统计，计算出每个词出现的概率，来给一个句子打分。将句子中每种分词结果都打一个分，选取一个最高分。此种问题下，一些高频词会产生问题，如“的”字，考虑“的确”这个词组，“的”字总是以高分单独列出。

　　难题二，组合词。如“个人恩怨”、”这个人“中，虽然都有”个人“，都要拆分成2个词。

　　我们可以构造一个二元模型，P(w1,w2)表示w1后恰好是w2的概率。再定义一个句子的划分方案得分：P(s, w1)*P(w1, w2)。。。

　　更多资料参考《思考的乐趣》11篇《中文自动分词算法》

查看全文

相关阅读:
生成函数
 泰勒公式与牛顿迭代
 如何在浏览器关闭发送请求
 elment-ui table组件 -- 远程筛选排序
 微信小程序 -- 数据请求
 2019年学习计划
 vue 表单校验（二）
ubuntu 学习
 vue-cli如何添加多种环境变量
 vue兼容ie

原文地址：https://www.cnblogs.com/tekkaman/p/4086605.html