zoukankan      html  css  js  c++  java
  • 【论文简读】 Deep web data extraction based on visual

    Deep web data extraction based on visual information processing
    作者 J Liu 上海海事大学 2017 AIHC会议登载
    引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.

    简介

    一种基于卷积神经网络(CNN)的数据区域定位方法
    结合视觉信息进行网页的分割(作者命名为VIBS)

    1、CNN 基于卷积神经网路进行区域定位

    CNN网络结构由3个阶段组成,如图所示 。第一阶段设置卷积层和汇集层以学习图像的特征。第二阶段是设置展平图层所必需的,展平图层会将卷积图层和合并图层生成的特征图转换为一维矢量,以计算完整的连接图层。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。
    clipboard.png
    网络架构设计使用13级CNN,包括5个采样层(S),6个卷积层(C)和2个完全连接层。

    clipboard.png

    据区域检测的标准IOU,如果IOU  > 50%,则数据区域被视为正样本。

    clipboard.png

    区域定位主要步骤流程图如下

    clipboard.png

    2、基于视觉信息的网页分割方法 VIBS

    clipboard.png

    clipboard.png

    clipboard.png

    3、实验结果和分析

    数据集(Lianjia、Complanet、Fangjia)

    58,500个样本数据集,其中有195种具有不同大小和不同位置的图像样本,包含数据区域,总共300个组。

    实验结果

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    clipboard.png

    总结

    总体看下来,文章的创新意义大于实际意义吧,这么高的精确度,感觉像是过拟合了,而且速度不可能这么快,应该是把网页先行保存成图片了的,文章写得很不错,对比什么的体系也比较完善,就是有些地方没有讲清楚,比如能否divide的判定等。

  • 相关阅读:
    ModelState 错误信息输出
    c# 导入导出excel方法封装
    签名时出错: 未在路径 C:Program Files (x86)Microsoft SDKsWindowsv7.0Ain
    win 10 升级远程连接服务器 要求的函数不受支持
    请求被中止: 未能创建 SSL/TLS 安全通道
    访问iis 出现500.19错误
    ubuntu下交叉编译海思平台下的x264/x265
    C++编程规范
    C++入门--菱形继承与虚继承
    C++入门 --- 纯虚函数与抽象类
  • 原文地址:https://www.cnblogs.com/10manongit/p/12773467.html
Copyright © 2011-2022 走看看