互联网广告的个性化推荐平台设计--相关知识

zoukankan html css js c++ java

互联网广告的个性化推荐平台设计--相关知识

人群分类模型

依据用户人群数据记录。建立人群属性分类模型。根绝用户特点。将用户标记为特定类别。据此进行精准定向服务。并进行效果评估。主要分类方法：

1.採用模糊数学综合判定理论，构建关系矩阵。判定类别属性的映射关系。採样真实数据，模拟真实数据分布。统计属性取值的概率分布，作为概率的预计值，另外，将广告类别的点击次数作为权重矩阵R。构建映射关系公式：

R是关系矩阵。W是出现次数矩阵，C是计算结果的类别判定矩阵。

2. 採用分类器算法构建分类模型。依据数据特点。利用数据挖掘和机器学习

相关的分类器算法，如naïve bayes，决策树，uncertain data learning，clustering algorithm，SVM。CART，adaBoost等。结合数据的分布，建立综合分类器，权衡各种分类器性能。建立综合行的人群分类模型。

用户标记人群类别后。測试合理性。进一步我们将人群分类模型不断精细化。复杂化。结合云平台和大数据。使模型达到最佳的分类效果。从而，挖掘用户兴趣，以及行为习惯。据此。我们将为用户提供个性化的定制服务。

未来。我们将尝试和高校合作，进行机器学习，模式识别等方向上的探索和研究。争取进一步深入挖掘大数据价值。

个性化推荐平台

我们的目标是建立个性化推荐平台，基于长尾理论（longtail），通过构建用户的兴趣模型，将有效信息从海量数据中提取出来。提供给用户。满足用户的信息需求，推荐相关信息（包含活动信息，可能购买的物品推荐，广告）。

眼下业界的推荐技术有非常多，主要有：

（1）contextad：google AdSense，依据用户正在浏览的网页内容，推荐与网页内容相关ad

（2）searchad：Google AdWords和百度，分析用户当前搜索记录，推断目的，推荐与目的相关ad

（3）personalizingdisplay ad：雅虎，依据用户历史行为，找出兴趣。在用户浏览某个站点时。展示兴趣相关广告。

（4）协同过滤：依据用户的历史行为。建立兴趣模型。推荐相关性高的物品信息，分为基于物品，基于项集等等。如亚马逊，hulu。neflix等公司使用

（5）社会化网络模型推荐（如facebook，微博，人人发现兴趣共性。建立兴趣模型推荐信息）。

未来我们将尝试在平台上实现协同过滤的推荐方式。通过用户行为数据构建兴趣模型，并将推荐信息有效分类，实现推荐。
眼下，我们正在通过多种方式获得大量网络数据，将数据有效组织在一起。识别同一用户，针对每个用户建立唯一信息集。构建具有处理复杂大数据能力的DMP平台，合理的存储和使用大数据，为推荐系统提供后台支持。

未来，我们将实现多种复合的推荐算法。採用综合性的推荐方案。将平台设计成为多渠道。多功能的复合型数据应用平台。

推荐系统评估工作

推荐系统评估是一项专业度高。难度大的工作。经常使用的评分指标有RMSE（均方根误差），MAE（平均绝对误差）。但仅仅通过评分标准非常难估量系统优劣。眼下经常用法:

（1）评測指标：重要指标（没有之中的一个）是预測精确度。
比方，推断用户买java书，推荐后发生购买行为。有直接结果反馈信息。方便通过离线计算出结果。但其衡量也不全面，比方样例中，用户可能早打算买java书。不管是否推荐，都将购买。而这个推荐行为没有让用户买很多其它的书，仅是让原来必将发生的行为在此刻发生，推荐结果对用户不新颖，没能添加潜在购买人数。所以这属于失败的推荐。

除了上述共同指标。不同领域有各自不同的评測指标。如广告推荐系统通常使用ROI，CTR。CR等。现实，谷歌的免费转换跟踪工具能够让你看到哪些keyword和广告的效果最好，时间和资源获得了最高价值。
将广告预算聚焦在高效的关键词上。而我们应该将广告预算聚焦在广告内容上。

（2）用户惬意度调查：上线測试，抽样用户保持用户真实分布，在线收集用户惬意度反馈。保持双盲实验，不让运行人员和用户知道測试目标。
这样做的长处是反馈信息真实有效，直接反应用户主观感受。缺点是成本太高。无法组织大规模測试用户，并且造成用户负担，减少用户体验，假设雇佣用户完毕測试，代价会很大。

（3）划分AB组，完毕对比实验。推荐系统上线，切分流量。对老系统和新系统进行对比測试，直接比較性能。这样做效果直接，但设计和实现过程复杂，造成人力成本投入太高，并且实验多方面因素都要考虑到，试验环境和条件比較复杂，比方用户要选择独立具有可參照性的。但相互影响的因素是不可避免的。

（4）离线实验：这是高校等研究机构的科研方法。採样数据集模拟数据真实分布，作为训练数据集。训练模型后，利用十重交叉验证模型性能。（缺点：缺少商业指标。CTR，TR计算不出，仅仅从理论上验证，不能衡量真实的商业价值）。

总之。系统评估，要全面的衡量三方利益，比方推荐系统中。三个參与者各自是用户、物品供应商、推荐系统的全部者）。要设法收集高质量反馈。添加用户交互。从不用角度，不同指标如精确度，覆盖度。信任度，支持率。透明度等等。

此外模型评估的标准方案为（KDD cup 2012评估方案）

–效果评估：提升CTR。转化率TR。ROI

–AUC评估：绘制ROC曲线，分析准确率

–MAE（Maximum Average Error）/MSE（Mean squared error）误差预计

大数据工作

大数据发挥协同效应须要产业链各个环节的企业达成竞争与合作的平衡。
项目平台的目的是让大数据更好的发挥价值，将提供服务变为可能。

机遇与挑战：

1.数据收集和提取的合法性。
数据採集要多渠道，多来源。但要具有合法性，不能暴露用户隐私。

2.大数据要存储成合理的组织结构，方便使用，才干有效的发发挥大数据价值，实现服务功能。
这就是平台中DMP的设计目标。

3.领域专家建模。针对大数据的挖掘，单纯的数学和计算机背景是不够的，还须要深入的领域背景知识，才干构建合理模型。眼下，国内公司重数据，轻建模，非常多工作事实上不合理。更加毫无章法可循。而非常多研究机构缺少领域的业务知识，不能面向实际应用，建模缺乏目的性，应用性。

我们的工作:

1.数据收集。我们将利用自身的优势，合法的收集各种信息。眼下。我们能够利用各种产品收集的互联网用户行为信息。监測日志的数据达到PB量级。而我们同一时候，将採用合作，主动爬取等方式。获得其他站点的公开信息，如新浪微博，淘宝。腾讯，百度等。将数据整合成为统一形式。识别同一用户信息，终于能够建立全网的用户行为信息，形成网络综合行为记录信息。

2.DMP平台的数据服务。针对获取的大数据集，利用合理的组织结构存储。利用云平台工具，如，hive，hbase，storm，spark。drill。impala等。以及相关数据处理工具，完毕ETL,OLAP等工作，管理数据完毕相关计算，使平台能提供多样化的数据服务。

3.大数据挖掘。数据分析的前提是数据分布，比方自然界广泛存在的两种数学分布：幂次法则分布和高斯分布。
非常多数据挖掘理论必需要求数据满足一定的分布条件（如高斯或拉普拉斯分布），否则不能使用。而大数据复杂度高，难以预计出分布。所以我们将结合大数据的特点。进行数据挖掘的研究。
大数据特点有海量性（Volume）、多样性（Variety）、高速性（Velocity）、价值化（Value）这4V特征。眼下挖掘工作方向分两个：

(1)面向宏观，从大量数据中通过数据分析方法找到整体规律与趋势，一般用统计学知识构建相关计算模型，计算相关结果，得出综合性的结论.

(2)面向微观。从数据中分析出个别数据的特征规律,预測个别数据可能的行为规律。并指定决策。

大数据研究不仅须要良好的理论知识，还须要丰富的领域背景知识。我们将结合自身优势研究和探索大数据的挖掘工作。

研究过程:

第一步、领域专家讨论、预建模。
第二步、小范围採集、分析
第三步、领域专家讨论、修正模型
第四步、大范围採集、分析
第五步、得出结果
第六步、验证
第七步、应用

终于目标是让大数据成为条件，而不再是负担。挖掘大数据价值，进行全网信息资源整合，为互联网客户提供服务而不是广告。
建立健康，有效的互联网数据生态环境。

兴趣模型和社会网络分析

基于大数据收集和数据挖掘技术，我们将开展兴趣模型的构建以及社会网络分析相关工作。

通过收集的用户大数据，採用理论和背景知识相结合，挖掘出用户在互联网上的行为信息。找到用户的兴趣特征，构建合理的用户兴趣模型。主要方法有TF/IDF，PCA。svm，传统数据挖掘中分类器算法，如决策树，贝叶斯，以及聚类算法，如k-means等。

终于，计算各项衡量指标。验证兴趣模型的可用性。从而。根据用户的兴趣，提供相关信息服务，方便用户的生活。当然。也能够实现定向广告投放，根据用户兴趣模型，找出相关性最高的广告，提高广告CTR，实现价值最大化，经常用法有logistic回归模型。泊松分布等等。

同一时候，基于眼下行业内已存在的社会网络分析技术，我们将结合微博现有的社会网络分析模型。同我们自身DMP内的大数据特点相结合，进行社会网络分析，如舆情分析，竞争情报分析，人际传播问题。小世界理论，六度空间切割理论，流动关系，相似关系，距离关系。等等。
通过社会网络分析，更好的发现用户之间的关联性，用户的网络行为和兴趣分布。甚至，发现信息在互联网的传播方式，通过何种途径，达到何种规模。
从而能够建立一个信息传媒渠道。帮助商品做推广。

RTB广告系统设计

实时竞价模型RTB（RealTime Bidding）：依据展示位（SSP）的价格预计，实时发出展示请求。买方（DSP）实时竞拍出价，两方通过adexchange平台交互完毕，终于由出价第二个高的用户拍得，并展示广告。售卖的不不过传统意义上的广告位，而是訪问这个广告位的详细用户。依据依据訪问用户的兴趣爱好，甚至包含年龄大小,地域以及网上的浏览习惯，对什么样的产品感兴趣，系统推荐相关度高的广告，投其所好就能产生最大的收益。RTB强调精准投放，放大了网络广告的指向性和精准度。使需求方的效益最大化。

RTB最大突破莫过于让广告主购买“受众”，广告通过“竞价”购买。比方某一个用户可能是两个广告投放的目标人群，则二者必须出价竞买，多人同一时候出价。则出价第二高的获得展示机会。
以后广告主将能够作出下面的投放要求“25-34岁的妇女、生活在亚洲、对奢侈品时尚服装抱有浓厚兴趣、在过去2个月以前进行在线购买、现正关注2012的春/夏季商品”。
通过RTB投放广告﹐广告主不再须要考虑广告渠道与位置，由于通过RTB你的广告会精确的展示在你的目标客户眼前。

眼下Google的AdWords已经接入RTB，还有百度，腾讯。阿里等等。

查看全文

相关阅读:
免费音频录制及处理软件 Audacity
centos7设置程序开机启动方案
 tomcat开启前或者关闭前执行清理任务 servlet基础知识解决
 BigDecimal比较大小及判0处理
 File文件夹操作创建层级文件夹
 centos7设置activemq开机启动
 tomcat关闭时无法清理资源解决方案
 java数据类型和C++的对应关系 SDK开发
 centos7查询开机启动项及设置服务为开机自启动
 Entity Framework 教程

原文地址：https://www.cnblogs.com/gavanwanggw/p/7221464.html

互联网广告的个性化推荐平台设计--相关知识

人群分类模型

个性化推荐平台

推荐系统评估工作

大数据工作

兴趣模型和社会网络分析

RTB广告系统设计