zoukankan      html  css  js  c++  java
  • 视频推荐系统

    一、视频推荐系统特征

    1、物品特征

    当视频作为推荐系统的item,其包含的特征和商品有所不同,主要包含如下几个维度的特征:、
    1.标题,标题提取关键词,得到标签
    2.国别,电影的国家,地区等
    3.年代
    4.演员,针对电影,短视频通常不需要
    5.标签,豆瓣上电影的标签,每个标签代表一个维度
    6.频道,大分类和小分类
    7.时长
    8.内容,视频描述也可提取关键词,实体词
    9.画面,文字描述版
    10.up主

    2、用户特征

    1. 物品画像直接赋值给用户,得到用户画像:标签。

    2.播放时长

    3.用户聚类特征:

    1、基于TF-IDF,用户特征向量加权就是该组用户的特征向量。
    2、基于用户协同过滤思路,构建用户和物品的行为矩阵,矩阵元素为用户对物品评分,该矩阵行向量即为用户特征向量,基于该特征向量进行用户聚类。
    3、矩阵分解得到每个用户的特征向量,该组用户特征向量的均值作为用户组的特征向量。
    4、词嵌入,用户操作过的物品看作一个文档集合,物品为一个单词,试用word2vec获得物品向量表示。
    5、计数统计,一组用户操作过的物品计数,按计数大小降序排列,topN推荐给该组。

    4、用户自身属性:性别,地区等

    3、上下文特征

    上下文信息(context)是描述推荐行为产生的场景的信息。
    最常用的是 "时间"和 “地点”。包含但不限于时间、地点、季节、月份、是否节假日、天气、空气质量、社会大事件等信息。
    引入上下文信息的目的是尽可能保存推荐行为发生场景的信息。典型的例子是:视频推荐场景中,用户倾向于傍晚看轻松浪漫的电影。深夜看悬疑惊悚题材。如果不引入上下文,无法捕获这些场景相关的信息。

    二、数据处理流程

    1、视频信息构造物品画像存到hbase
    2、用户原始日志经过处理存入hdfs,使用hive读取
    3、用户日志每日定时任务计算用户画像存入hbase

    三、离线推荐阶段

    1、召回算法

    1、根据用户日志,协同过滤
    2、根据用户画像和物品画像:关键词、实体词、大分类、小分类。
    3、up主召回
    4、聚类推荐

    2、数据存储

    定时任务的推荐结果保存到hbase

  • 相关阅读:
    C#开源实现MJPEG流传输
    EntityFramework中使用Repository装饰器
    Lambda应用设计模式
    Lambda表达式的前世今生
    那些年黑了你的微软BUG
    敏捷软件开发揭秘
    SVN previous operation has not finished
    NodeJS+Express开发web,为什么中文显示为乱码
    使用Visual Studio 调试断点不起作用的问题解决办法 调试Revit CAD 不能进入断点
    openFileDialog的Filter属性设置
  • 原文地址:https://www.cnblogs.com/leimu/p/14806168.html
Copyright © 2011-2022 走看看