zoukankan      html  css  js  c++  java
  • 多文档自动摘要算法实现(是否基于新闻文本还需要考虑)

    中文多文档自动摘要

    第一步,获取语料(数据库,子旋师兄)和测试集。(泽枫)

    第二步,使用mead(java,传懋)和sumbasic(python,柏棋)方法实现一下看看效果;(瑞滨)

    第三步,使用遗传算法和人工蜂群算法实现看效果怎样;(泽枫)

    第四步,在阵雨师兄暑假提取关键词任务的基础上,由关键词拓展为自动摘要,进而拓展为多文档自动摘要;(柏棋)

    第五步,在阵雨师兄暑假提取关键词特征的基础上,将其丢入sklearn分类器训练,同时实现learning to rank 的词排序方法,由关键词扩展为自动摘要,进而扩展为多文档自动摘要。(柏棋)

    第六步,将多文档自动摘要的各类算法分别迁移到英文和印尼语上,看效果如何。(泽枫,瑞滨,柏棋)

    第七步,实现可视化。(瑞滨)

    第八步,写paper。(泽枫,瑞滨,柏棋——负责写好各自算法的那部分论文,若妍负责整合编辑和排版,加上补充说明)

    SumBasic对每个非停用词赋予一个权重,句子的分值定义为其中词汇的平均权值。词汇的初始权重即为词频,在该词被选进摘要后,其权重随进入摘要的次数呈指数级下降,最终该算法应用于项目组的印尼舆情系统(已获得国家级的软件著作权)中;

  • 相关阅读:
    .NET牛人应该知道些什么
    秋梦
    感谢你走进我的生命里
    漂流有感
    QQ在跳舞
    青春无痕
    名人只是传说,你我才是传奇
    祝福紫秋
    可以用在任何人身上:百战百胜人生10大成功秘诀
    c#发送邮件
  • 原文地址:https://www.cnblogs.com/flippedkiki/p/7590152.html
Copyright © 2011-2022 走看看