zoukankan      html  css  js  c++  java
  • 一个人工智能项目里的中文分词方案

      做搜索的都知道,中文分词,一般都是先建一个词库,再根据词库进行分词。但是这样做有两个问题:1.存在歧义词,2.不容易发现新词。尤其第2点,在处理舆情类内容时更是如此。如果想减少这类问题,现在的主要解决手段,一般都是在后端建一个词条系统,通过累积找到高频词,然后把高频词加到词库中,再进行分词。但是这样做仍然有一个时间差问题,不适合即时性的内容判断。

      最近接手了一个舆情类的人工智能项目,为了避免上述问题,采用以下手段。方法如下:
      1. 拿到整个文本。
      2. 按照文本段落,分成多个文本块。
      3. 每个文本块,根据标点符号,切成多个文本句。
      4. 对文本句进行二元分词。
      5. 统计高频词,记录这些高频词的文本位置。
      6. 以高频词为断点,重新对文本句进行分词,得到非高频词。
      7. 结合词库分词。
      8. 统计词条出现频率,标记属性,提交给后续任务做内容分析。

      试验下来,用时基本相同,效果比单纯的词库分词要好,容易发现新词和敏感词,这对分析舆情内容非常有帮助。

  • 相关阅读:
    ie兼容问题整理
    jQuery Easing 使用方法及其图解
    前端模块化学习
    velocity常用语句速查表
    table插件实现
    表单自动提交问题整理
    移动端开发
    工具的使用及配置
    《TCP/IP详解 卷1:协议》读书笔记
    iOS 内存泄漏
  • 原文地址:https://www.cnblogs.com/laxcus/p/5716007.html
Copyright © 2011-2022 走看看