zoukankan      html  css  js  c++  java
  • 项目日报(二)

    今天进行项目的第二阶段,进项关键字的提取,本打算利用hanlp进行分词,将成果简介中的数据提取,可是在Python中安装pyhanlp之后运行老是报错

     提示无法引入包,找不到Java路径,还根据教程下载了hanlp的资源包,放到pyhanlp的static路径下还是无法解决,折腾了一晚上还是没弄出来

    所以选择使用TextRank 或者是TF-IDF方法进行分词了,等完成之后继续解决。

    然后对国家标准行业代码进行了梳理,现在的国民经济行业代码一共有2个版本,GB/T 4754-2017 和GB/T 4754-2011 由于网上的数据几乎都是PDF或文本格式,为了符合要求,按照国民经济行业代码的结构进行还原(门类,大类,中类,小类)这样就便于查找了

  • 相关阅读:
    c-复习基础
    java-根据起止IP获取IP段集合
    java-随机数
    java-数组
    TypeSafe Config使用
    日志手段
    git 常用命令
    看门狗
    容器HashSet原理(学习)
    容器Vector原理(学习)
  • 原文地址:https://www.cnblogs.com/1gaoyu/p/12489379.html
Copyright © 2011-2022 走看看