zoukankan      html  css  js  c++  java
  • Data Collection

    众所周知,计算机领域论文是要以实验为基础的,而实验的原料就是数据。不管是在图像,文字或者语音领域,开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。

    计算机视觉:

     【ImageNet】

    【Caltech Pedestrian Dataset】

    简介:行人检测数据集

    网址:https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

    细节:

    (1)摄像头位于车上

    (2)图片模糊

    (3)行人少而小,大多数图片不包含行人

    (4)原始数据为视频,可以采样为图片

    (5)官网给出了各种方法的性能,给出了evaluation的代码。

    自然语言处理:

    【维基百科简体中文语料】

    简介:较大规模的中文语料

    网址:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

    细节:

    (1)这个压缩包包含标题和正文

    (2)用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取数据

    (3)抽取命令 bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

    (4)内容为简繁体混杂,需要https://github.com/BYVoid/OpenCC,https://code.google.com/archive/p/opencc/wikis/Install.wiki解决,运行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

    (5)参考使用网站:http://licstar.net/archives/262

    语音处理:

    数字医学数据:

  • 相关阅读:
    网络数据包分析工具列表
    完美支持Py3的微信开发库推荐
    微信后台服务器地址验证的逻辑
    人工智能头条技能树图谱汇集
    如何构建通用 api 中间层
    vue 2.0 购物车小球抛物线
    基于Vue的事件响应式进度条组件
    vuex学习总结
    vue 上传图片到阿里云(前端直传:不推荐)
    vue-router的history模式发布配置
  • 原文地址:https://www.cnblogs.com/huangshiyu13/p/6164965.html
Copyright © 2011-2022 走看看