zoukankan      html  css  js  c++  java
  • 徐宗本院士讲座《关于大数据研究下的若干问题》摘记

    今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好

    在我的接受范围内。讲座主要从下面三个方面来讲的:

    1 关于大数据的认识

    2 大数据研究涉及的科学问题

    3 他们团队的探索

    (一)关于大数据的认识

    大数据炒得很火,但是什么是大数据,跟海量数据有什么区别? 徐教授首先从自己的角度给出大数据的定义,主要有四个特点:

    a 不能在单个计算机上集中存储,一般需要用到分布式/云计算模式等;

    b 难以在可接受的时间内进行分析处理;

    c 单个数据可能价值不大,但是数据整体还是有高价值的(比如一个班级大家发的微博可能没有特别大的意义,但是全国高校大学生发的微博就可以反映当代大学生思想理念**)

    d 海量的复杂结构的数据集

    对于大数据,他觉得不能按什么GB,TB,PB,EB这些量化来死衡量。

    大数据这个概念最近炒得很火,主要是从2008年《Science》杂志用了几版做了大数据专题开始。奥巴马在2011年给出的报告《大数据分析》,竞选一般都喜欢对什么人说什么话,其实就是精确化营销。奥巴马的竞选主要得意于背后的数据分析团队,他们收集各个州post出来的微博,进行舆情分析,得出各个州分别最关心的是什么问题,然后在竞选的时候就针对这些问题提出相应的口号和策略。 继而欧洲等国也把大数据研究作为重要的发展战略。随之越来越火,企业,个人,现在好像所有人都在谈论大数据。

    大数据影响力不仅在自然科学研究中,而且在商业领域,徐教授觉得后面会成为企业核心竞争力(数据规模,活性(有没有用,即是不是活的)与解释力),以及发展与大数据相关的商业模式。这是未来高科技公司必须有的概念。 还有在公共政策上,徐教授觉得大数据的火一个很重要的贡献就是给决策者,政策修改者带来的观念上的冲击,即数据资产,主权的概念,现在不仅是海陆空主权了,数据已经渗透到我们每天的日常生活,早在十几年前,美国就能精确摧毁南斯拉夫大使馆,考的就是数据。我们现在用的google GPS,更是精确到一颗沙子,如果不注重数据主权,一个国家的主权也会受到侵犯。从这个角度来讲,google搜索退出中国,百度开始垄断中国搜索引擎市场,其实也是国家对数据主权的觉醒。徐宗本还呼吁大家多多使用百度,呵呵。(想到了斯诺登的事情。腾讯帝国。。)

    那么 大数据值得热吗?

    gartner报告中-—— 2012年,正在或是即将进行大数据的公司为58%,而进入2013年,这一数字变成了64%。对于大多数企业来说,他们最大的问题,就是不明白大数据究竟是什么,以及如何使用大数据。

    现在很多企业都在炒大数据,发展了大数据技术,其实本质上来说只是一种口号上的宣传。目前大数据研究还在初始阶段。

    总的来说,徐教授觉得大数据还是值得热,

    (1 数据概念重视;

    2 数据挖掘方法得到普世的重视。(数据挖掘主要方法: 聚类分析 判别分析 回归分析(一个因素如何随着另外一个因素而改变) 隐变量分析 因果分析 时间序列分析)

    但是不能一哄而上。他担心中国人做很多事情都很喜欢一哄而上,继而一哄而散。

    从数据到价值的产业链 管理学院前沿计划:大数据产业管理(产业链,商业模式,公共政策等)

    (二) 大数据研究涉及的科学问题

    a 超高维问题 即决策因素随着样本数n呈现更高量级引起的解的不确定性与经典统计推断失效问题。

    经典统计:n>>p,高维:p》》n,大数据高维度p=o(exp(n)) n->00

    热点研究:稀疏建模(尽管变量很多,但是很多都是0)

    比如南海,虽然监控很大,但是舰队只是很小的一部分。 基本科学问题: 如何补足信息使得数据可解; 利用特征相关性发展统计学(变量之间的独立性基本都是不能成立的)

    b 大数据的重采样 subsampling

    the big data boostrap,kleiner et.al 2012,ICML(大数据下如何求均值,很有创新) 

    基本问题:

    如何重采样以刻画数据整体特征

    基于试验设计的重采样

    基于目标信息的重采样

    联合处理:boosting ,bagging 等 现在的高分辨率(p维度大),同时雷达不能携带过多的样本数据,即n小。

    c 可解的计算理论

    大数据可解与传统数据不同,算法中的可解性是指在有限步内可以用图灵机解决的问题。

    大数据下的可解, 具体例子(针对具体形式的数据):

    流数据(容易是指处理的速度大于数据更新的速度)

    分布式数据(容易是指交互的速度大于处理的速度)

    d 分布式实时计算

    基本问题:

    问题的解分解性与解的可组装性

    随机优化模型可能成为将来一个趋势。(对于大数据而言,精确解并不太重要,实时性更重要。让我想起3D in the wild重构)

    e 非结构化问题

    挑战:数据的异构性,不一致性

    基本问题:

    异构数据的表示与分析 (向量-》矩阵-》张量(现在普遍应用))

    f 可视分析

    基本问题:

    1 高维数据的特征提取;

    2 特征如何用几何展示

    crowdsourcing(讲到现在公司不知道什么方面,向公众征集,再加上一点小奖励,利用群体智慧)

    (三) 我们的探索

    a 超高维的稀疏建模

     回归分析(大数据-》均匀抽样(subsampling)-》回归-》联合处理,成功

    网络监测(失败,因为处理的速度慢于更新的速度)模拟美国城市的交通监测 决策,比如如果处理速度快了,可以加快城市交通监测的更新速度。

    b 视觉认知

    基于尺度空间的数据建模(聚类)

    聚类看上去像5类,有的又说是4类,究竟是几类呢?模拟人脑视觉认知。 引入尺度空间的概念,sigma 为尺度,表示物体与视网膜距离或晶状体曲率。 在一定的尺度范围内,是5类,过了这个范围,在另一个范围内就是四类。 他们的团队引进了生存寿命,生命周期最长的一个类定义为最有价值的类。 谈到meanshift

    c 全局优化有用吗? f(x)极小值虽然不一定是全局最优,但是他的吸引域够大就可以了。类比药的结构及药效的稳定性在东南亚,广州。

    (粗略的笔记,后面找时间完善)

  • 相关阅读:
    人人数据挖掘实习生面经
    关于贝叶斯分类中的二项独立模型和多项式模型
    关于序列的面试题1 判断整数序列是否是二叉排序树的后续遍历
    机器学习经典算法之最小二乘法
    协同过滤算法之—slope one算法
    关于序列的面试题2最大连续子序列和以及积
    控制DOUBLE,DECIMAL小数点的位数
    Invoke的用法
    windowForm学习资料总结
    .NET开发编程规范
  • 原文地址:https://www.cnblogs.com/diliwang/p/3457309.html
Copyright © 2011-2022 走看看