Data Collection - 走看看

zoukankan html css js c++ java

Data Collection

众所周知，计算机领域论文是要以实验为基础的，而实验的原料就是数据。不管是在图像，文字或者语音领域，开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。

计算机视觉：

【ImageNet】

【Caltech Pedestrian Dataset】

简介：行人检测数据集

网址：https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

细节：

（1）摄像头位于车上

（2）图片模糊

（3）行人少而小，大多数图片不包含行人

（4）原始数据为视频，可以采样为图片

（5）官网给出了各种方法的性能，给出了evaluation的代码。

自然语言处理：

【维基百科简体中文语料】

简介：较大规模的中文语料

网址：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

细节：

（1）这个压缩包包含标题和正文

（2）用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取数据

（3）抽取命令 bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

（4）内容为简繁体混杂，需要https://github.com/BYVoid/OpenCC，https://code.google.com/archive/p/opencc/wikis/Install.wiki解决，运行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

（5）参考使用网站：http://licstar.net/archives/262

语音处理：

数字医学数据：

查看全文

相关阅读:
ui5 call view or method from another view
vuejs helloworld
vuejs v-model
vuejs v-bind
vuejs on
vuejs fatherandson
vuejs scope
vuejs keep-alive
VLAN虚拟局域网
 网线的制作

原文地址：https://www.cnblogs.com/huangshiyu13/p/6164965.html

Copyright © 2011-2022 走看看