找点空闲,找点时间,百忙之中,写篇博文。(刚才 CSDN突然不会自动换行了,只好在WORD里面写了粘贴上来,不过表情什么的,就能省则省了)
废话少说,先来吐槽两句,Joseph A Konstan 自然是很厉害的,虽然我确实不知道他。吐槽基于以下几点:
1、视频没截短,too long ,单个视频略长了。
2、语速太慢,这个还好可以加速。然后,可能是因为课程本质所致,举了很多例子,太过费时。
3、吐槽完毕,回归正题。
第一周的视频中,第一讲讲历史,没字幕,能大致听懂已经让我兴奋异常了,这个笔记难指望了。第二讲讲课程安排,咦,CSDN居然不会自动换行了?没什么可留恋的。第三四讲是配置环境,上一博文已经写了。最后一讲,带我们浏览了亚马逊,然后详细地把亚马逊多个主要(也可能就是全部了)的推荐系统给分析了一遍。
各位看官要问了,那他是怎样分析亚马逊的推荐系统的呢(易中天的声音)?那还得看第五、第六两讲,所谓磨刀不误砍柴工,不对,所谓庖丁解牛,游刃有余,盖因,盖因,也没啥盖因,就是因为那一头头的牛在他眼中,并不是一个个美女,而是“未尝见全牛也”,整头牛的结构已经完全印刻在他的潜意识中。所以,让我们来看看,在Konstan 教授眼中,推荐系统这头牛的“结构”是怎样的。
推荐系统分析框架 Analytical Framework of Recommend System
包含8个要素,domain(推荐领域)、purpose(目的)、context(推荐背景)、whose opinions(推荐者)、personalization level(个性化或定制化层次)、privacy and trustworthiness(隐私性和可信度)、interface(接口即入与出)、algorithms(推荐算法)。且看一一道来。
1、推荐领域 domain —— 什么被推荐
易于理解,推荐的是信息、新闻类,产品、厂商类,寻找相似品味的人,还是诸如音乐列表的那么一个序列?前两者常见,后两者亦好理解。
不过,有时会有特殊的性质。
(1)新商品的推荐问题,大家对它都还没有了解,如何推荐,所谓“冷启动”问题。
(2)还有些像食品或音乐此类的物品,是允许重复推荐的,也许是一直爱好,也许换换口味(希望不要太重)。而书本等物品,你多半只会买一次。
2、目的 purpose —— 为什么推荐
不说的话,可能往往只会想到销售这一点。其实有3种:
(1)销售或信息获取。
(2)education of user。咋看之下,education,教育,不可能啊。其实是指像地图公交路线那种的指导或建议。比如,建议你去哪儿、建议什么方式旅游。
(3)围绕被推荐的事物,组建出一个用户的群体,把喜爱这一事物的人们聚在一起。
话说,我在做第一周作业时,选择分析豆瓣的推荐系统,在确定这个目的时,就需要考虑了。看似推荐出来的书或电影或音乐,不应该就是让我去购买、观看的吗?但是,豆瓣本质还是一个web 2.0社交网络。所以,我选了第三条。
3、背景 recommend context
也就是推荐活动发生的一些情况和限制,一是用户当时的活动,二是这个背景会对推荐产生什么样的限制。就比如,刚听完一首《吻别》的你,是想继续听李宗盛的《领悟》呢,还是听春哥的《我的心里只有你没有他(她?)》。
4、推荐者 whose opinion
可以肯定的是,推荐者的身份、水平make a big difference。是权威的专家教授,徒惹人笑的砖家叫兽呢,还是平平常常的大众,还有就是和你爱好、品味相似的人们。这点,真的很重要。
5、个性化层次 personalized level
是通用的非个性化非定制推荐呢,还是基于统计的有目标群体的推荐呢(很难想像把房地产的传单发给小学生的情形)?
是只针对你当前活动而作出的推荐呢,还是分析你长期记录得到的推荐?
6、隐私和可信度 privacy and trustworthiness
这年头,大家都觉得自己快没隐私了,那推荐系统知不知道我们的隐私呢?它知道我们的个人信息吗?或是需要让每个人有个特定的身份identify吗?另外,我们可以否认它为我们总结的偏好吗?
又有多少可信的呢?会不会有内在的偏见,就像这家店的导购正常情况下不会给你推荐其他店的商品。会不会有恶意的、非真实的操作,比如网络水军(豆瓣上电影还没上映,分数就出来了,高分低分都水军,一个捧一个黑,哪怕出于自愿)。
说到网络水军,那就要考虑推荐者的信誉了。名气大的人总不能信口雌黄、信口开河了吧?也不一定,这年头转发只是一个鼠标轻轻一点的动作。而畅销书不挂上好几个人的名头,作者都不好意思说他在写书。
7、接口 interface
看完视频后,觉得这确实是个很计算机化的说法。也就分成了输入输出。
输入就是,它有没有明确地问你的观点,让你进行评分或评论,还是默默地记录了你的购买或浏览行为(单相思以及聪明的追求都经常这样吧?)。
输出则分几类:
(1)预测,是得到一个特定的评分结果?
(2)推荐,是得到一个或一堆推荐的事物?
(3)过滤,是过滤一列表的搜索项?
另外,输出结果是自然的互动,还是明确地说“我给你推荐如下东东”。
好吧,时间有点晚了。为了身体健康,我现在坚持早睡。剩下第八项推荐算法,正好原视频也在此分成了两个部分,那我就在此结束了。整篇也就是个笔记或者叫翻译的东东,自己的观点、体会很少。望各位大大多多拍砖——帮我把砸过来的砖拍飞。在下会知耻而后勇,啊,不对,会再接再厉,争取多写笔记。哪怕因为懒了,连下一篇都不写了。这种情况也是有可能的。
再说说这个视频之后的作业,就是找个网站,从中找出两个不同的推荐系统,当然需要有算法等多个方面不同,然后根据上述的分析框架,根据这八个要素,写一篇分析报告。
也许会觉得,开发推荐系统为什么要分析这样啰嗦的东西。道理其实也在最开始说的庖丁解牛这故事上了。我也就不多说了。我自己也挺懒的,虽然还是把作业写完了,写英语不容易啊。