我们在网上购物的时候总是会花大量时间去搜索自己需要的信息,即使找到了一些类似的商品也可能不是特别满意的,搭上了大把的时间不说可能还选不到合适的商品那就太悲催咯,鉴于这个情况,个性化推荐就应运而生了,如果你去过亚马逊或卓越亚马逊应该就会知道这个东西。
当我们登陆进去后,网站首页会自动列出一些我们喜欢的商品,这样我们就不用到处去找我们想买的商品了。
网站是怎么知道我们喜欢什么商品的呢? 下面是我对这个原理比较肤浅的理解,现帖出来分享一下,废话不多说,切入正题。
基本概念:
协同过滤算法:协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
目前还存在的缺点:
· 稀疏性问题:用户和商品的总数都非常大,蛋是用户对商品的评分却很少
· 性能问题: 用户数和商品数越来越多,数据量日益增大导致处理效率降低
· 最初评价问题:如果没人给这个商品评分,那么这个商品因为没基数就无法被推荐
为了弥补这三个很要命的缺点,所以又提出了基于组合加权评分的方法,这样基本可以缓解以上缺点,具体如何解决且听慢慢道来。
为什么要用组合加权评分?他的主要作用是通过对评分矩阵行和列的平均加权评分进行综合处理并计算得出预测评分,这样就可以使每个用户对每个商品都有评分值,从而缓解了稀疏性问题。
为什么要Base on item? 如果按会员和商品搞个笛卡尔积形成矩阵再进行计算会是一件很悲催的事情,假设目前会员10万人,商品10万件, 10w*10w 后面会有10个零。那会是多少? 天文数字吧,不现实的,放弃吧。
建立矩阵R(m,n) 他是一个m*n阶矩阵,其中m行表示m个用户,n列表示n个商品, Ri,j 表示用户i对商品j的评分值。(至于怎么降维可以参考奇异值分解法SVD,HSPA算法,单调递减指数函数时间权重分析法,基于时间权重还可以及时反映用户的兴趣变化)
组合加权评分由用户平均加权评分和项目平均加权评分两部分组成。
用户平均加权评分的公式是:
其中i表示商品,u表示用户,ru为此用户平均评分与用户各项评分相对于未评分项平均评分的平均偏差之和。
其中Q为用户u对商品空间的评分总数,ri为此商品平均评分与用户集合中各用户对未评分项i评分与用户平均评分的平均偏差之和。
组合加权评分ru,I 即是求前两个积的平方根。
用这个公式把相应项填充后就造成了所有用户对所有商品均有评分的结果,这样矩阵就圆满了。
具体实现方法:
建环境:
会员表:
create table tmp_yofee_member (id number,login_id varchar2(100),status varchar2(30));
商品表:
create table tmp_yofee_product(id number,subject varchar2(100),status varchar2(30));
插入测试数据:
--会员表
declare i number;
begin
i:=2;
while i<200 loop
insert into tmp_yofee_member (id,login_id)
values(i,'yuki'||i);
i:=i+2;
end loop;
end;
--商品表
declare i number;
begin
i:=2;
while i<1000 loop
insert into tmp_yofee_product (id,subject)
values(i,'item_'||i);
i:=i+2;
end loop;
end;
评分表(将会员表和商品表笛卡尔积):
create table TMP_YOFEE_VOTE
as
select b.id pid,b.subject,a.id mid,a.login_id
from tmp_yofee_member a ,tmp_yofee_product b;
加入评分列:
alter table tmp_yofee_vote add score number(6,0);
修改随机评分值:
updateTMP_YOFEE_VOTE
set score = trunc(dbms_random.value(40,100))
where pid not like '%5';
commit;
下面就可以按照刚才的公式通过游标逐个计算还没有评分项的预测评分值.
DECLARE
AVG_P NUMBER(6, 2);
AVG_M NUMBER(6, 2);
WE_M NUMBER(6, 2);
WE_P NUMBER(6, 2);
CURSOR CUR IS
SELECT PID, MID
FROM (SELECT DISTINCT PID, MID FROM TMP_YOFEE_VOTE WHERE SCORE IS NULL);
CUR_PID NUMBER;
CUR_MID NUMBER;
BEGIN
OPEN CUR;
FETCH CUR
INTO CUR_PID, CUR_MID;
WHILE CUR%FOUND LOOP
SELECT AVG(SCORE)
INTO AVG_P --商品平均
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID
AND SCORE IS NOT NULL;
SELECT AVG(SCORE)
INTO AVG_M --用户平均
FROM TMP_YOFEE_VOTE
WHERE MID = CUR_MID
AND SCORE IS NOT NULL;
SELECT SUM(SCORE - AVG_P) / COUNT(PID) + AVG_M
INTO WE_M --用户加权
FROM TMP_YOFEE_VOTE
WHERE MID = CUR_MID
AND SCORE IS NOT NULL;
SELECT SUM(SCORE - AVG_M) / COUNT(PID) + AVG_P
INTO WE_P --商品加权
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID
AND SCORE IS NOT NULL;
-- DBMS_OUTPUT.PUT_LINE(SQRT(WE_M * WE_P)); --67.15
UPDATE TMP_YOFEE_VOTE
SET SCORE = SQRT(WE_M * WE_P)
WHERE PID = CUR_PID
AND MID = CUR_MID;
FETCH CUR
INTO CUR_PID, CUR_MID;
END LOOP;
CLOSE CUR;
COMMIT;
END;
这样我们就可以通过这种方法把矩阵里面未评分项预测并填满以便即将进行的协同过滤.
矩阵已经填满,然后,我们就可以进入协同过滤算法核心部分,计算商品相似性并搜寻目标商品的最近邻居商品集合。
(*注)这里是用的sql实现的,C语言方法以后再加。
输入:用户-商品评分矩阵R(m,n) 最近邻用户数k, top-N 推荐集项的项目数N.
输出: 目标用户u的top-N推荐项集I
第一步:建立用户-商品评分矩阵R(m,n).
表tmp_yofee_vote(PID,MID,Score) 可以反映之间的对应关系。
第二步:从R(m,n)中分别提取目标商品i与商品j的评分项集,设为Ii,Ij从而得到商品I,j的评分项并集Iij=IiUIj .
第三步:用刚才的公式对这评分项并集中未评分项进行填补。
第四步(关键点):搜寻最近邻居项目,对于目标项目i,算法需要搜寻i的最近邻居商品集合I={i1,i2,…ik},i I且i与I中商品ik之间的相似性sim(i,ik) (1<=k<=K) 由大到小排列。k值可直接给定或通过相似性阈值来确定,也可将这两种方法结合,即在相似性大于阈值的商品中择取相似性最大的前k个商品。
第五步:循环执行1~4步,得到i与其他商品的相似性,从而择取相似性最大的前k个项目作为i的最近邻居项目集合I={i1,i2,…,ik} sim(i,ik)由大到小排列。
第六步: 通过计算目标用户u对任意项目i的评分,然后选择得到top-N推荐集。设项目i的最近邻居项目集合为I={i1,i2,…ik} 且i与I中任意项目ik(1<=k<=K)之间的相似性 sim(i,ik)由大到小排列,则目标用户u对项目i的评分P(u,i)可以基于用户u对I 中各商品的评分进行加权处理得到:
第七步:输出u的top-N推荐项集I,结束。
--创建相似度表:
CREATE TABLE tmp_yofee_sim
(pid_i NUMBER(6,0),pid_j NUMBER(6,0),score NUMBER(6,4));
余弦相似性:
代码大致思路:
通过两个游标进行循环取商品i和商品j进行对比。
--24000sec
DECLARE
SUM_AB NUMBER;
I2 NUMBER;
J2 NUMBER;
MAX_SCORE NUMBER(6, 4);
CNT_6 NUMBER;
CURSOR CUR1 IS
SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;
CURSOR CUR2 IS
SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;
CUR_PID NUMBER;
CUR_PID2 NUMBER;
BEGIN
OPEN CUR1;
FETCH CUR1
INTO CUR_PID;
WHILE CUR1%FOUND LOOP
OPEN CUR2;
FETCH CUR2
INTO CUR_PID2;
--排除将两个完全一样的数据进行对比,第二个游标开始循环。
WHILE CUR2%FOUND AND CUR_PID <> CUR_PID2 LOOP
--一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。
SELECT SUM(A.SCORE * B.SCORE)
INTO SUM_AB
FROM TMP_YOFEE_VOTE A, TMP_YOFEE_VOTE B
WHERE A.MID = B.MID
AND A.PID = CUR_PID
AND B.PID = CUR_PID2;
--将商品i的所有评分算平方和再求平方根
SELECT SQRT(SUM(SCORE * SCORE))
INTO I2
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID;
--将商品j的所有评分算平方和再求平方根
SELECT SQRT(SUM(SCORE * SCORE))
INTO J2
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID2;
--下面这一段的意思是找出与这个商品最相似的六个商品,如果没到六个就直接插入,如果已经有六个了如果比这个最小的大就插入新值。
SELECT DECODE(MIN(SCORE), NULL, 0, MIN(SCORE))
INTO MIN_SCORE
FROM TMP_YOFEE_SIM
WHERE PID_I = CUR_PID;
SELECT COUNT(*) INTO CNT_6 FROM TMP_YOFEE_SIM WHERE PID_I = CUR_PID;
IF CNT_6 < 6 THEN
INSERT INTO TMP_YOFEE_SIM
SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;
ELSE
IF CNT_6 >= 6 AND SUM_AB / (I2 * J2) >= MIN_SCORE THEN
INSERT INTO TMP_YOFEE_SIM
SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;
END IF;
END IF;
--打完收功
FETCH CUR2
INTO CUR_PID2;
END LOOP;
CLOSE CUR2;
COMMIT;
FETCH CUR1
INTO CUR_PID;
END LOOP;
CLOSE CUR1;
COMMIT;
END;
--最后查出每个商品按分值排序取最相近的六个并列出来。
SELECT PID_I, PID_J, SCORE, MM
FROM (SELECT PID_I,
PID_J,
SCORE,
RANK() OVER(PARTITION BY PID_I ORDER BY SCORE DESC) MM
FROM TMP_YOFEE_SIM)
WHERE MM <= 6
ORDER BY PID_I, MM