zoukankan      html  css  js  c++  java
  • Tinghua Data Mining

    Learning Resources

    书籍:

    期刊:

    业界先驱:

    开阔视野,掌握业界最新动态。

    工具:

    数据挖掘是很多学科的综合体:

    甭管叫什么名字,归根到底都是数据挖掘:

    Comprehensive Learning:

    Learning != Listening

    数据

    What is Big Data?

    Big Data:

    Data Mning

    Data Integration & Analasis

    The Process of Data Mining

    DM Techniques -- Classification

    Classification Boundaries

    Classification -- Overfitting

    Confusion Matrix

    Receive Operating Charactics

    男人 女人 身高

    DM Techniques -- Clusting

    Hierrachical Clusting

    不同层面分组

    Association Rule

    关联规则

    DM Techniques -- Regression

    参数和变量之间是线性的 不是说最终的表达式线性的

    Overfitting -- Regression

    死记硬背

    既没有那么简单 也没有那么复杂

    Seeing is Knowing

    耳听为虚 眼见为实 高维数据直接很难理解 发挥人的知识的储备 主观能动性 领域知识的综合理解能力 可视化 对于用户来说 挖掘出来的东西给 可解释性

    Performance Dashborad

    Tableau

    可视化工具软件

    Data Preprocessing

    Gabage In Gabage Out

    脏数据输入 一定会脏数据输出

    预处理很重要 准确性 时效性 完整性

    原材料要好 打地基 否则外面再modern也是豆腐渣工程

    Privacy Protection

    Cloud Computation

    买 租 服务器

    把软硬件转换成一种服务

    Parrelal Compututing

    The Big Picture

    数据挖掘三要素:数据,模型,算力(支撑平台)

    No Free Lunch

    分类 聚类 告诉我一个哪一个算法不就行了 不行 没有那么好的事 参数 经验尝试

    拿到一个问题,先找简单的,说不定可以,够用就行了。没有必要一味地去追求看起来很复杂或者很高端的算法。

    量化交易:克服人内在的性格弱点。更加理性。

    Grouping

    正相关,负相关,可能存在内在的分组的情形。

    看问题要全面

  • 相关阅读:
    解题:HNOI 2008 玩具装箱
    2016级算法第一次上机助教版解题报告
    求解斐波那契数列复杂度分析
    数据库复习之规范化理论应用(第八次上机内容)
    数据库复习之规范化理论
    题目1042:Coincidence(最长公共子序列)
    题目1020:最小长方形(简单)
    题目1016:火星A+B(字符串拆分)
    题目1014:排名(结构体排序)
    题目1021:统计字符(hash简单应用)
  • 原文地址:https://www.cnblogs.com/ioveNature/p/10060312.html
Copyright © 2011-2022 走看看