Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

zoukankan html css js c++ java

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）
我们如今開始训练模型，还输入參数例如以下：
rank：ALS中因子的个数。通常来说越大越好，可是对内存占用率有直接影响，通常rank在10到200之间。

iterations：迭代次数，每次迭代都会降低ALS的重构误差。在几次迭代之后，ALS模型都会收敛得到一个不错的结果，所以大多情况下不须要太多的迭代（一般是10次）。
lambda：模型的正则化參数，控制着避免过度拟合。值越大，越正则化。

我们将使用50个因子，8次迭代，正则化參数0.01来训练模型：

val model = ALS.train(ratings, 50, 8, 0.01)

说明：原书中使用的迭代參数是10。可是在本机上使用10次迭代參数会造成堆内存溢出，经过调试将它改成8。

它会返回一个MatrixFactorizationModel对象，包括了user和item的RDD，以（id。factor）对的形式，它们是userFeatures和productFeatures。

println(model.userFeatures.count) println(model.productFeatures.count)

MatrixFactorizationModel类有有一个很方便的方法predict，会针对某个用户和物品的组合预測分数。

val predictedRating = model.predict(789, 123)

这里选择的用户id为789。计算他对电影123可能的评分。结果例如以下：

你得到的结果可能跟我这的不一样，由于ALS模型是随机初始化的。

predict方法会创建一个RDD（user，item），为某个用户进行个性化推荐，MatrixFactorizationModel提供了一个很方便的方法——recommendProducts。输入參数：user，num。user是用户id，num是将要推荐的个数。

如今为用户789推荐10部电影：

val userID = 789 val K = 10 val topKRecs = model.recommendProducts(userID, K); println(topKRecs.mkString(" "))

结果例如以下：

以下取到电影的名字：

val movies = sc.textFile("F:\ScalaWorkSpace\data\ml-100k\u.item") val titles = movies.map(line => line.split("\|").take(2)).map(array => (array(0).toInt, array(1))).collectAsMap() println(titles(123))

结果例如以下：

我们再来看看用户789对多少部电影进行了评分：

val moviesForUser = ratings.keyBy(_.user).lookup(789) println(moviesForUser.size)

结果例如以下：

能够看到用户789对33部电影进行了评分。

接下来我们将要取得前10个评分最高的电影，使用Rating对象的rating字段。而且得到依据电影的id得打电影的名字：

moviesForUser.sortBy(-_.rating).take(10).map(rating => (titles(rating.product), rating.rating)).foreach(println)

结果例如以下：

然后我们再来看看为这个用户推荐的是哪10部电影：

topKRecs.map(rating => (titles(rating.product), rating.rating)).foreach(println)

结果例如以下：

找到类似电影

通过计算两个向量的夹角的余弦值来推断类似度，假设是1，那么说明全然一样，假设是0那么说明没有相关性，假设是-1则表明这两者是全然相反的。首先编写计算两个向量夹角余弦值的方法：

def cosineSimilarity(vec1: DoubleMatrix, vec2: DoubleMatrix): Double = { vec1.dot(vec2) / (vec1.norm2() * vec2.norm2()) }

如今来检測下是否正确，选一个电影。看看它与它本身类似度是否是1：

val itemId = 567 val itemFactor = model.productFeatures.lookup(itemId).head val itemVector = new DoubleMatrix(itemFactor) println(cosineSimilarity(itemVector, itemVector))

能够看到得出的结果是1！

接下来我们计算其它电影与它的类似度：

val sims = model.productFeatures.map{ case (id, factor) => val factorVector = new DoubleMatrix(factor) val sim = cosineSimilarity(factorVector, itemVector) (id,sim) }

然后取得前10个：

val sortedSims = sims.top(K)(Ordering.by[(Int, Double), Double]{ case(id, similarity) => similarity }) println(sortedSims.take(10).mkString(" "))

结果例如以下：

如今来看看电影名字：

val sortedSims2 = sims.top(K+1)(Ordering.by[(Int, Double), Double]{ case(id, similarity) => similarity }) println(sortedSims2.slice(1, 11).map{case (id, sim) => (titles(id), sim)}.mkString(" "))

结果例如以下：
查看全文

相关阅读:
2.monkey的使用
 1.monkey的安装及环境配置
 3.SQL注入系列二
 2.SQL注入系列一
 1.Appscan工具的使用
 二十二.jmeter的架构和loadrunner原理一样，都是通过中间代理，监控和收集并发客户端发出的指令，把他们生成脚本，再发送到应用服务器，再监控服务器反馈结果
 二十一.HTTP属性管理
 二十. StringFromFile与counter函数
 十九.jmeter函数---csvRead( )
十八.jmete java工程测试

原文地址：https://www.cnblogs.com/wzzkaifa/p/7294144.html