Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）

zoukankan html css js c++ java

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
　　不多说，直接上干货！

Local vector ：本地向量集

　　由两类构成：稀疏型数据集（spares）和密集型数据集（dense）

　　（1）、密集型数据集

　　　　　　例如一个向量数据（9,5,2,7）,可以设定为（9,5,2,7）进行存储，数据集被作为一个集合的形式整体存储。

　　（2）、稀疏型数据集

　　　　　　例如一个向量数据（9,5,2,7）,可以按向量的大小存储为（4，Array（0,1,2,3），Array（9,5,2,7））

　　

testVector.scala
package zhouls.bigdata.chapter4 import org.apache.spark.mllib.linalg.{Vector, Vectors} object testVector { /* * 主函数 */ def main(args: Array[String]) { val vd: Vector = Vectors.dense(2, 0, 6) //建立密集向量 println(vd(2)) //打印密集向量第3个值 val vs: Vector = Vectors.sparse(4, Array(0,1,2,3), Array(9,5,2,7))//建立稀疏向量 println(vs(2)) //打印稀疏向量第3个值 } }
　　有人会问，为什么会输出来为浮点型数了呢。

　　答：对于目前，Spark Mllib，仅支持整数与浮点型数。这是因为与其目的数值计算有关。

　　dense方法，不多赘述。

　　sparse方法，第一个参数4是代表输入数据的大小，一般要求大于等于输入的数据值。

　　　　　　　　第二个参数Array(0,1,2,3)是数据vs下标的数值

　　　　　　　　第三个参数Array(9,5,2,7)是输入的数据值，一般要求将其作为一个Array类型的数据进行输入

　　总结

　　Spark MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：
import org.apache.spark.mllib.linalg.{Vector, Vectors} //创建一个稠密向量 val dv : Vector = Vector.dense(1.0,0.0,3.0); //创建一个稀疏向量（第一种方式） val sv1: Vector = Vector.sparse(3, Array(0,2), Array(1.0,3.0)); //创建一个稀疏向量（第二种方式） val sv2 : Vector = Vector.sparse(3, Seq((0,1.0),(2,3.0)))
　　对于稠密向量：很直观，你要创建什么，就加入什么，其函数声明为Vector.dense(values : Array[Double])

　　对于稀疏向量，当采用第一种方式时，3表示此向量的长度，第一个Array(0,2)表示的索引，第二个Array(1.0, 3.0)与前面的Array(0,2)是相互对应的，表示第0个位置的值为1.0，第2个位置的值为3

　　对于稀疏向量，当采用第二种方式时，3表示此向量的长度，后面的比较直观，Seq里面每一对都是(索引，值）的形式。

　　

　　更多具体，见

Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
查看全文

相关阅读:
Ajax基本案例详解之load的实现
 Ajax基本案例详解之$.post的实现
 Ajax基本案例详解之$.post的实现
 Ajax基本案例详解之$.get的实现
 Ajax基本案例详解之$.get的实现
 Ajax基本案例详解之$.ajax的实现
 Ajax基本案例详解之$.ajax的实现
 [置顶] 别羡慕别人的舒服，静下心来坚持奋斗！！！
别羡慕别人的舒服，静下心来坚持奋斗！！！
Struts文件上传与下载详解_文件的下载

原文地址：https://www.cnblogs.com/zlslch/p/7469342.html

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）

Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计