今天,我们在实验室三个人整整做了一天,心理感受有点蒙,遇到的全是问题啊。主要有以下问题:
1.使用IDEA搭建好了服务器端,正在逐步整合小程序端。原本打算发布小程序,但是域名没有备案仅支持服务器IP地址访问(IP地址访问仅可用于调试),多种尝试最终没能发布。
2.我们始终纠结于从哪爬取关键词?怎么划分关键词?这两个问题中,目前使用的jieba分词库对于政策性文章划分出来的关键词始终是:指导意见、规划这种文件词汇。
对于解决分词库的问题,我们大致经过以下三步解决:
(1)爬取新闻网站和人民政府网站的文章,进行爬取。===》划分太笼统,数据噪音太大
(2)为了解决第一个问题,我们想到能否仅仅对文章和政策的标题进行爬取。===》jieba库划分 的结果依旧欠佳
(3)熬到晚上,实在无奈,开始怀疑自己的词库。于是突发奇想换成计算机相关的词库,参考了开源中国的中文分词库,目前暂定是清华大学开源的高质量中文词库 THUOCL(简介:THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。),现在已经晚上十点半,刚想到的办法,正在测试中,明日即可见分晓。
3.对于朴素贝叶斯等算法很不熟悉,使用起来难度有点大。
现场图: