一般手工生成的数据集(artificial datasets),通常用于实验部分最开始的演示和示意,用于对结果的一种精确计算和量化分析。
1. Swiss/Helix/Twinpeaks/Broken Swiss(随机化数据集)
既然是某种随机化生成的数据集,自然依赖某种特定类型的随机变量。这里我们取采样自服从 [0, 1]
区间上的均匀分布(uniform distribution)的随机变量的随机数值
对于 Swiss roll 数据集的生成,其三维上的数据点
xi=[ticos(ti),tisin(ti),30qi] ,其中ti=3π2(1+2pi) t = (3*pi)/2*(1+2*rand(n, 1)); height = 30*rand(n, 1); X = [t.*cos(t) height t.*sin(t)]; if ~exit('noise', var), noise = 0.05; end X = X + noise * randn(n, 3);
references