zoukankan      html  css  js  c++  java
  • 第八周进度

    这周做了什么

    1. 寻找游记分析、信息挖掘的方法。找到了一篇关于游记分析的论文《游记文本中的知识发现与聚合* ———以蚂蜂窝旅行网杭州游记为例 》-- 吕琳露 李亚婷 从该论文中总结出了初步的游记分析过程
      (1)、数据获取:在爬取数据的时候,按照地区进行分类,分别对每个地区的游记进行分析
      (2)、数据预处理:从各大旅游网站爬取各地区的景点及地名,由于语义表达方式多样,,游 客在撰写游记时对于相关词汇的使用既有共性也有差 异,例如“西湖”的描述上有“西湖风景名胜区”、“西湖 景区”、“杭州西湖”等,因此本文人工对词表进行统一 处理,以最少匹配为原则,最终得到杭州景点词表 和杭州地名词表 。然后再对该地区的游记进行分词,保留各个有机的名词、形容词以及自定义的地名,同时用“|”对句子进行划分,得到数据集。
      (3)、游记文本挖掘:热门的景点在游记中的使用 频率也会更高,因此本文对景点在所有游记 中的篇频次进行分析,得到各个景点的热门程度,根据 排序结果选取相应的阀值,由此获得本文的热门景点。 由于游客经历的旅游线路会蕴含在游记内旅游景点之间的出现顺序关系中,本文进而获得每篇游记中任意相邻两个热门景点的相对位置,以此作为一条旅游路线( 如“西湖->灵隐寺” ),分析所有的游记,计算线路的热门程度,画出路线图
    2. 根据论文中的分析过程,从携程网中爬取了5000条杭州的游记,并且爬取了杭州的景点作为自定义词库进行分析,将分词出来的地点名进行词频统计,找出最热门的景点,但是其中还是夹杂着不少其他地区的地点,这里还有点问题,要想办法将这部分地点词删除

    遇到的困难

    1. 开始对文本分析的方法还是不懂,直到找到了这篇论文之后,初步有了一点思路,按照论文中说的方法,进行试验。但是从5000篇游记中分析的热门景点的时候发现还是存在一些不在该地区的热门景点,还在想办法将这些景点剔除。
    2. 想办法如果根据热门景点,将关于该热门景点的描述分离出来。
    3. 每个景点的语义表达各有不同,想办法进行统一

    下一周的计划

    1. 找到每个地区的热门景点,将非该地区的景点剔除了
    2. 将每个游记中关于景点的描述的都分离出来的,然后对分离出来的景点描述进行情感分析。
    3. 将景点地名的表达方式进行统一 ,准备构建同义词词典,尝试是否能够解决
    4. 对游记进行分词,找到其中的出现次数最多的景点和所有游记中的热门景点。根据这两项,找出游记中游客实际去过的景点,再分离关于景点描述
  • 相关阅读:
    shiro整合springmvc
    HashMap中的位运算
    jedis的scan操作要注意cursor数据类型
    DispatcherServlet的url-pattern尽量不要配置为"/*"
    解决阿里云ECS下kubeadm部署k8s无法指定公网IP(作废)
    win10下使用mklink命令给C盘软件搬家
    Ubuntu管理软件源
    C++ 自增、自减运算符的重载和性能分析
    C++ 流插入"<<"和流提取">>"运算符的重载
    C++ 手把手教你实现可变长的数组
  • 原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9945898.html
Copyright © 2011-2022 走看看