zoukankan      html  css  js  c++  java
  • 19-09 【github 自动提取项目的topic】

    【github-提取项目的topic】
    1,获取reademe,并清理(移除不想要的block,文本分词);
    2,生成candidate topic(定义了stop word来切分词组单元);
    3,消除noisy topic(使用逻辑斯蒂回归来剔除bad topic,移除不满足最小频度约束的topic)
    4,给topic打分(打分使用:tf-idf得分,topic频次,n-gram size)
    5,规范化topic(使用内部词典(in-house))
    6,消除相近的topic(jacard 相似性算法来做)
    7,返回top-N topic


    实践blog:https://github.blog/2017-07-31-topics/

  • 相关阅读:
    C++ 中的深入浅拷贝和深拷贝
    C++ 引用小问题
    6-10
    6-8
    6-7
    6-4
    6-3
    6-1
    5-31
    COMException 依赖服务或组无法启动(0x8007042C)处理办法
  • 原文地址:https://www.cnblogs.com/helww/p/10823836.html
Copyright © 2011-2022 走看看