zoukankan      html  css  js  c++  java
  • 数据挖掘十大经典算法一览

    分类算法:C4.5 ,svm,knn,朴素贝页斯,cart

    聚类算法:k-means,em

    关联挖掘算法:apriori

    其他:Adaboost用于综合多种分类算法

    1,C4.5 一种决策树算法,用于分类

    参见http://blog.csdn.net/aladdina/article/details/4141048

    貌似之前找到一篇更详细的分析

    2,k-means,聚类算法

    http://blog.csdn.net/aladdina/article/details/4141089

    3,svm 支持向量机 用于统计分类及回归分析,用于分类

    http://blog.csdn.net/aladdina/article/details/4141094

    4,Apriori算法 挖掘布尔关联规则频繁项集的算法

    http://blog.csdn.net/aladdina/article/details/4141101

    5,EM 最大期望算法 用于数据集聚

    http://blog.csdn.net/aladdina/article/details/4141114

    6,PageRank 计算网页排名,论文影响力等

    http://blog.csdn.net/aladdina/article/details/4141120

    7, Adaboost 迭代算法,将若干弱分类器综合为一个强分类器

    http://blog.csdn.net/aladdina/article/details/4141124

    8,kNN 用于分类或者回归

    http://blog.csdn.net/aladdina/article/details/4141127

    9,朴素贝页斯 用于分类

    http://blog.csdn.net/aladdina/article/details/4141140

    10,CART,用于分类

    第一届大数据竞赛的相关题目概况:

    题目一:关键词行业分析 ,为关键词标注所属类别(一共33种)百度题目

    辅助信息为:关键词在百度搜索后的前10个标题  关键词和广告主的关系数据

    上述三个数据文件的更多信息包括:

    • keyword_class.txt:关键词数据集。约1千万记录,其中100万包含标注信息。

    • keyword_titles.txt:关键词辅助信息数据集。关键词(query)和关键词检索的自然结果(title)信息。

    • keyword_users.txt:关键词与广告主关联关系数据集。关键词和广告主的购买关系,一个关键词可能被多个广告主购买,一个广告主可能购买了多个关键词。

    题目二:移动网络寻呼黑洞分析(需要行业只是和数据库相关操作,暂不考虑)中国移动研究院出题

     

    题目三:移动用户交往圈构建和特定类型用户识别(貌似依旧需要数据库支持) 中国移动研究院题目

    15万已经标记,150万需要标记,识别是否为学生用户

    可以扩展,利用图挖掘算法,可以进一步检测用户通话交往圈、短信交往圈

    题目四:购买行为的归因分析 秒针系统出题

    和广告相关,其中有些数据含义不甚了解

    题目五,基于出租车GPS轨迹的位置服务(和推荐关系最大,数据量很大50G)  中科院出题

    输入用户位置和当前事件,输出打到车的概率和等待时间,11年的数据来预测13年的路况,本身数据集是否有问题?而且出租车的状态各是指的什么?

    分析,从行业背景角度:题目1和题目3的数据含义概念最清晰。题目2最生疏,题目4次之

  • 相关阅读:
    交换机的配置文件和系统映像文件备份与恢复(如果不小心损坏了,可以用这种方法恢复)
    交换机端口安全配置
    路由器密码重置(不是适用于所有有些启动顺序数字不一样)
    交换机的默认网关(跨网段telnet)
    思科交换机的初始配置(使用telnet登录)
    Linux命令集(第一部分共40个)
    Linux6.9安装
    javamail邮件发送报错解决方案
    isEmpty()与equals()、==“”区别
    eclipse svn 修改了类名之后提交
  • 原文地址:https://www.cnblogs.com/bobodeboke/p/3362747.html
Copyright © 2011-2022 走看看