zoukankan      html  css  js  c++  java
  • Kaggle大数据竞赛平台入门

    Kaggle大数据竞赛平台入门

    大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,构造模型,解决问题提交结果.按照结果的好坏会有一个排名,成绩优异者还可能获得奖金/面试机会等.

    图1展示了进入Kaggle官网后显示的正在进行的比赛,这些比赛的类型是不同的,可以进行筛选显示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class这7个选项.显示为Featured的比赛(左侧有粉红色条条)一般奖金比较丰厚,竞争也比较大;显示为Research的比赛(左侧有黄色条条),奖金少一些;显示为Recruitment的比赛,虽然没有奖金,但是却可以获得发布项目公司的实习/面试机会,这也给企业招聘人才提供了另外一种方式.显示为Playground的为练习赛,主要用于初学者练手,对于初学者,建议从这里开始.Getting Started里面手把手教你一步一步地进行数据挖掘,是很好的入门教程.除了这些公开比赛,Kaggle还会想活跃的参与者提供私下的比赛,以及为大学团体提供Kaggle-In-Class项目.Kaggle的博客No Free Hunch也是一个好的学习去处,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner's Interviews这些栏目.

    图1 Kaggle首页

    比赛流程:

    1.进去感兴趣的竞赛项目,下载数据集(csv格式),数据集中一般包括训练数据集和测试数据集,查看数据描述和任务描述,明确需求;

    2.用你擅长的任何语言或者算法来构建模型,用训练集来训练,然后用训练好的模型推测测试集的labels,生成一个测试集labels作为最终的提交文件;

    3.系统会从所提交文件中选取25%的数据进行初评,根据评测结果得到准确率和排名.在比赛结束时,采用剩下的75%的数据进行终评,作为最后的准确率.

    Kernels:

    Kernels提供了数据分析的环境,数据集,代码和输出样式,点击进去是下面这样的: 这类似于Jupyper Notebook.在这里面可以直接编译python,可以在code和markdown之间自由切换,可以很方便地复现和分享.还有一点就是你可能不需要将数据集下载下来,也不需要配置本地的python以及各种库(比如pandas,numpy等),直接在网页上进行数据挖掘.Kernel上还可以分享代码(初学者好的学习去处),在Forum(论坛)回答问题还可以积分.

    参考文献:

    [1] Kaggle机器学习竞赛冠军及优胜者的源代码汇总: http://suanfazu.com/t/kaggle/230

    [2] Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur 

  • 相关阅读:
    支持向量机SVM知识点概括
    决策树知识点概括
    HDU 3081 Marriage Match II
    HDU 3572 Task Schedule
    HDU 4888 Redraw Beautiful Drawings
    Poj 2728 Desert King
    HDU 3926 Hand in Hand
    HDU 1598 find the most comfortable road
    HDU 4393 Throw nails
    POJ 1486 Sorting Slides
  • 原文地址:https://www.cnblogs.com/zhao441354231/p/6061363.html
Copyright © 2011-2022 走看看