zoukankan      html  css  js  c++  java
  • Cora 数据集介绍

    0. 概述

    Cora 数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数据集中,论文被分为以下七类之一:

    • 基于案例
    • 遗传算法
    • 神经网络
    • 概率方法
    • 强化学习
    • 规则学习
    • 理论

    论文的选择方式是,在最终语料库中,每篇论文至少引用一篇论文或被至少一篇论文引用(即至少有一条出边或至少有一条入边,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点,则这是一个连通的图,不存在孤立点)。整个语料库中有2708篇论文。在词干堵塞和去除词尾后,且文档频率小于10的所有单词都被删除后,只剩下1433个独特的单词。

    1. 文件介绍

    Cora 数据集中主要包含两个文件:cora.contentcora.cites

    1.1 cora.content

    cora.content 共有 2708 行,每行代表一个样本点,即一篇论文。一行由三部分组成:论文编号(raw_data的编号并非 0~2708)。接下来 1433 列是论文的词向量。最后一列为论文类别,如 Neural_Networks

    31336	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Neural_Networks
    1061127	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Rule_Learning
    1106406	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Reinforcement_Learning
    

    1.2 cora.cites

    cora.cites 共有 5429 行,每一行有两个论文编号,表示第一个论文先写,第二个论文引用第一个论文。如果将论文看做图中的点,那么这5429行便是点之间的5429条边。

    35	1033
    35	103482
    35	103515
    
    ---- suffer now and live the rest of your life as a champion ----
  • 相关阅读:
    iOS项目中的网络请求和上下拉刷新封装
    iOS 自定义转场动画浅谈
    python中通过xlwt、xlrd和xlutils操作xls
    Python: PS 滤镜--水波特效
    Python: PS 滤镜--旋涡特效
    Python: PS 滤镜--USM 锐化
    Python: PS 滤镜--素描
    Python: PS 图像调整--饱和度调整
    Python: PS 图像特效 — 模糊玻璃
    Python: PS 滤镜--表面模糊
  • 原文地址:https://www.cnblogs.com/popodynasty/p/14975945.html
Copyright © 2011-2022 走看看