zoukankan      html  css  js  c++  java
  • 第九周进度

    本周内容

    1. 统一景点名称:尝试在爬取的时候将一些特定的景点进行替换,但是由于景点的名词没有统一的,需要自己定义
             困难:需要找需要替换的景点的词库,还有曾用名,暂时还没有找到,还没思路
    
    2. 划分景点内容:目的是将游记根据景点进行划分,将关于每个景点的描述,对应到对应的景点。
            尝试的方法:
                1. 根据景点词频划分
                2. 根据行词频划分
                3. 根据句子的相似度划分
                4. 根据景点出现的行数,选取某两个行中间的所有行
            困难:
                1. 游记文章的格式太随意,没有一定的格式。
                2. 有的两行文字都是描述一个景点,但是上边那行出现景点,下边虽然也是描述同一个景点,但是没有出现这个名词,导致景点描述不全
                3. 如果只是简单地取两个取地点出现的段落,图片的链接会添加不上去
    
     3. 爬取的游记虽然都是关于杭州的,但是其中还是会夹杂着一些其他地方的游记,这个在提取的时候遇到的问题跟第二个差不多,还是在游记中切分的问题
  • 相关阅读:
    ORBSLAM2的资源
    工程思想
    Linux中PATH、 LIBRARY_PATH、 LD_LIBRARY_PATH和ROS_PACKAGE_PATH
    CMkeList文件编写
    SLAM资料
    windows下隐藏文件夹
    Ubuntu16装Flash
    知识管理
    学习纲领
    lsof详解
  • 原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9982249.html
Copyright © 2011-2022 走看看