zoukankan      html  css  js  c++  java
  • 视频推荐系统

    一、视频推荐系统特征

    1、物品特征

    当视频作为推荐系统的item,其包含的特征和商品有所不同,主要包含如下几个维度的特征:、
    1.标题,标题提取关键词,得到标签
    2.国别,电影的国家,地区等
    3.年代
    4.演员,针对电影,短视频通常不需要
    5.标签,豆瓣上电影的标签,每个标签代表一个维度
    6.频道,大分类和小分类
    7.时长
    8.内容,视频描述也可提取关键词,实体词
    9.画面,文字描述版
    10.up主

    2、用户特征

    1. 物品画像直接赋值给用户,得到用户画像:标签。

    2.播放时长

    3.用户聚类特征:

    1、基于TF-IDF,用户特征向量加权就是该组用户的特征向量。
    2、基于用户协同过滤思路,构建用户和物品的行为矩阵,矩阵元素为用户对物品评分,该矩阵行向量即为用户特征向量,基于该特征向量进行用户聚类。
    3、矩阵分解得到每个用户的特征向量,该组用户特征向量的均值作为用户组的特征向量。
    4、词嵌入,用户操作过的物品看作一个文档集合,物品为一个单词,试用word2vec获得物品向量表示。
    5、计数统计,一组用户操作过的物品计数,按计数大小降序排列,topN推荐给该组。

    4、用户自身属性:性别,地区等

    3、上下文特征

    上下文信息(context)是描述推荐行为产生的场景的信息。
    最常用的是 "时间"和 “地点”。包含但不限于时间、地点、季节、月份、是否节假日、天气、空气质量、社会大事件等信息。
    引入上下文信息的目的是尽可能保存推荐行为发生场景的信息。典型的例子是:视频推荐场景中,用户倾向于傍晚看轻松浪漫的电影。深夜看悬疑惊悚题材。如果不引入上下文,无法捕获这些场景相关的信息。

    二、数据处理流程

    1、视频信息构造物品画像存到hbase
    2、用户原始日志经过处理存入hdfs,使用hive读取
    3、用户日志每日定时任务计算用户画像存入hbase

    三、离线推荐阶段

    1、召回算法

    1、根据用户日志,协同过滤
    2、根据用户画像和物品画像:关键词、实体词、大分类、小分类。
    3、up主召回
    4、聚类推荐

    2、数据存储

    定时任务的推荐结果保存到hbase

  • 相关阅读:
    HDU4507 吉哥系列故事――恨7不成妻(数位dp)
    UCF Local Programming Contest 2017 G题(dp)
    ICPC Latin American Regional Contests 2019 I题
    UCF Local Programming Contest 2017 H题(区间dp)
    HDU2089 不要62
    AcWing1084 数字游戏II(数位dp)
    UCF Local Programming Contest 2017 F题(最短路)
    Google Code Jam 2019 Round 1A Pylons(爆搜+贪心)
    AcWing1083 Windy数(数位dp)
    Vue
  • 原文地址:https://www.cnblogs.com/leimu/p/14806168.html
Copyright © 2011-2022 走看看