zoukankan      html  css  js  c++  java
  • 中文自动分词算法

    中文自动分词算法

      当在搜索引擎中搜索“软件使用技巧”时,搜索引擎通常会帮你找出同时含有”软件“、”使用“、”技巧“的网页。一个好的新闻网站通常会有“相关文件推荐”的功能,这也要依赖于自动分词的算法。要想让计算机准确切分并不容易,例如某网站报道北京大学生,而相关文章里列出的全是北京大学的新闻。这多半是分词算法错误地把标题中的“北京大学”当成了一个词。

      难题一,交集词。例如“结婚的和尚未结婚的”。“和尚”和“尚未”都是词。“中外科学名著”里,“中外”、“外科”、“科学”。。。全是词。类似的问题很多,“提高产品质量”、“鞭炮声响彻夜空”、“努力学习法语规则”。这些极端的例子下,分词算法的优劣一试便知。

      一种改进方法是构造一个不单独成词表,比如“”民“、”尘“、”伟“,这些字通常不会单独划出来,都要跟旁边的字一块组成一个词。在分词过程中,一理发现这些字被孤单出来,都要重新考虑它与前面的字组词的可能性。

      另一种改进方法是根据数据统计,计算出每个词出现的概率,来给一个句子打分。将句子中每种分词结果都打一个分,选取一个最高分。此种问题下,一些高频词会产生问题,如“的”字,考虑“的确”这个词组,“的”字总是以高分单独列出。

      难题二,组合词。如“个人恩怨”、”这个人“中,虽然都有”个人“,都要拆分成2个词。

      我们可以构造一个二元模型,P(w1,w2)表示w1后恰好是w2的概率。再定义一个句子的划分方案得分:P(s, w1)*P(w1, w2)。。。

      更多资料参考《思考的乐趣》11篇《中文自动分词算法》

  • 相关阅读:
    深入理解六边形架构
    boost::lockfree使用介绍
    分布式监控系统zipkin介绍
    深入理解std::chrono的时钟Clock
    arcgis地图空白原因收集
    VM16
    ubuntu16.04 搭建简单http代理服务器 TinyProxy
    git 提交:gnutls_handshake() failed: Error in the pull function
    scrapy-redis redis 认证
    python把html网页转成pdf文件
  • 原文地址:https://www.cnblogs.com/tekkaman/p/4086605.html
Copyright © 2011-2022 走看看