五、用户描述信息的表达与更新、资源特征选取与表达
1、用户描述信息表达与更新
基于内容信息过滤来说,同样需要用户的参与。为了跟踪用户的兴趣和行为,需要为每个用户建立一个用户描述文件(User Profile),用户描述文件可以包括个人信息、个人兴趣、行为模式、以及用户间的关系等。具体描述信息参见第六节。
A、用户描述文件的建立。
从四个角度考虑:
内容:基于兴趣和基于行为?
粒度:一个用户一个描述或多个描述,还是一类用户共享一个描述?
时效性:短期的或长期的?
存储:是用文件来组织,还是用关系数据库或其它数据库来存储、XML数据?
B、用户描述文件的更新。
动态更新用户的兴趣可以提高个性化服务的质量。用户第一次使用时,用户注册自己的基本信息和感兴趣的内容,也可以隐式地收集用 户信息。在定制好一个用户描述文件后,可以让用户自主修改,也可以自适应地修改,这样,随用户兴趣的变化而变化。
用户跟踪:显式跟踪(很少有用户向系统主动表达自己的喜好)和隐式跟踪(行为跟踪、日志挖掘)
标记书签、浏览页面和拖动滚动条所花时间能有效地揭示用户的兴趣。收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类。
2、资源的特征选取与表达
资源的表达需要获取资源的特征,并表示为合适的方式。
基于内容的方法:从文档本身抽取信息来表示文档,利用特征词条及其权值来表示。(特征选取)
基于分类的方法:基于分类的方法是利用类别来表示资源,将文档资源分类有利于将文档推荐给对该类文档感兴趣的用户。(聚类算法)
六、个性化搜索里的个性化究竟代表哪些层面和因素?
个性化中的用户层面:
顶级域名(TLD,Top Level Domain)的地理位置
IP地址
对查询的地理位置分析
技术方面的因素
浏览器
操作系统
移动设备
时间因素
当前在一天中的时间因素
当前在一年中的时间因素
历史性数据
行为性因素
搜索的历史数据
与搜索结果页(SERP)互动的数据
选择率和跳出率的数据
和广告的互动操作
浏览习惯(常用用户 – 更新鲜的结果)
可能的个性化因素
社会化搜索
人口统计学(指使用者的年龄、职业等个人信息)
浏览历史(隐性数据)