zoukankan      html  css  js  c++  java
  • 数据挖掘十大经典算法一览

    分类算法:C4.5 ,svm,knn,朴素贝页斯,cart

    聚类算法:k-means,em

    关联挖掘算法:apriori

    其他:Adaboost用于综合多种分类算法

    1,C4.5 一种决策树算法,用于分类

    参见http://blog.csdn.net/aladdina/article/details/4141048

    貌似之前找到一篇更详细的分析

    2,k-means,聚类算法

    http://blog.csdn.net/aladdina/article/details/4141089

    3,svm 支持向量机 用于统计分类及回归分析,用于分类

    http://blog.csdn.net/aladdina/article/details/4141094

    4,Apriori算法 挖掘布尔关联规则频繁项集的算法

    http://blog.csdn.net/aladdina/article/details/4141101

    5,EM 最大期望算法 用于数据集聚

    http://blog.csdn.net/aladdina/article/details/4141114

    6,PageRank 计算网页排名,论文影响力等

    http://blog.csdn.net/aladdina/article/details/4141120

    7, Adaboost 迭代算法,将若干弱分类器综合为一个强分类器

    http://blog.csdn.net/aladdina/article/details/4141124

    8,kNN 用于分类或者回归

    http://blog.csdn.net/aladdina/article/details/4141127

    9,朴素贝页斯 用于分类

    http://blog.csdn.net/aladdina/article/details/4141140

    10,CART,用于分类

    第一届大数据竞赛的相关题目概况:

    题目一:关键词行业分析 ,为关键词标注所属类别(一共33种)百度题目

    辅助信息为:关键词在百度搜索后的前10个标题  关键词和广告主的关系数据

    上述三个数据文件的更多信息包括:

    • keyword_class.txt:关键词数据集。约1千万记录,其中100万包含标注信息。

    • keyword_titles.txt:关键词辅助信息数据集。关键词(query)和关键词检索的自然结果(title)信息。

    • keyword_users.txt:关键词与广告主关联关系数据集。关键词和广告主的购买关系,一个关键词可能被多个广告主购买,一个广告主可能购买了多个关键词。

    题目二:移动网络寻呼黑洞分析(需要行业只是和数据库相关操作,暂不考虑)中国移动研究院出题

     

    题目三:移动用户交往圈构建和特定类型用户识别(貌似依旧需要数据库支持) 中国移动研究院题目

    15万已经标记,150万需要标记,识别是否为学生用户

    可以扩展,利用图挖掘算法,可以进一步检测用户通话交往圈、短信交往圈

    题目四:购买行为的归因分析 秒针系统出题

    和广告相关,其中有些数据含义不甚了解

    题目五,基于出租车GPS轨迹的位置服务(和推荐关系最大,数据量很大50G)  中科院出题

    输入用户位置和当前事件,输出打到车的概率和等待时间,11年的数据来预测13年的路况,本身数据集是否有问题?而且出租车的状态各是指的什么?

    分析,从行业背景角度:题目1和题目3的数据含义概念最清晰。题目2最生疏,题目4次之

  • 相关阅读:
    【Python web 开发】购物车功能需求分析和加入购物车功能实现
    【Python web 开发】第九章开发总结
    【Python web 开发】个人中心-用户的收货地址
    【Python web 开发】个人中心-用户留言功能
    自适应网页设计(Responsive Web Design)
    无废话MVC系列教程
    标准查询运算符
    系统泛型委托
    var隐式类型
    自动属性
  • 原文地址:https://www.cnblogs.com/bobodeboke/p/3362747.html
Copyright © 2011-2022 走看看