zoukankan      html  css  js  c++  java
  • 大数据与黑天鹅等

    大数据与黑天鹅等
    2015.4.10发布的blog《大数据观点补充》曾经说过:
    http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

    【黑天鹅才是新常态】

    金融市场 大家都是大数据 会反向干扰态势的
    现在(2015) 黑天鹅才是新常态
    看看:石油价格 瑞士法郎 日元升值 光大砸盘 黄金狂跌
    全部没节操 没下限

    十天后,2015.4.21《上交所交易量“爆表”》
    上海证券交易所周一称因软件设置原因,上交所市场成交金额超过1万亿元人民币后无法及时更新
    http://www.solidot.org/story?sid=43769
    大数据与黑天鹅等


    并非我们有什么预测未来的大能,而是在实盘操作时得出的经验模型:
    黑天鹅算法模型(zPSO,z粒子算法的升级版)。

    传统的大数据分析,像R语言,置信空间是95%,也就是说,5%的小概率事件是不考虑的,属于黑天鹅事件
    而实盘中,恰恰是这5%的黑天鹅,才是真正的盈利点所在?

    经验表明,对整个数据级,5-8%左右的筛选结果,盈利概率(参数v)相对较高
    (摘自《大数据和高频量化交易》   http://blog.sina.com.cn/s/blog_7100d4220102vkai.html)

    why?为什么?
    没有道理啊?
    因为,当大家都是大数据时,会反向干扰态势。

    大数据需要大计算,普通的集群(100-200台)都不行,于是云计算华丽登场。
    目前,最早商业化的云计算亚马逊已经爆出n起大客户退单,就像网络实名制的韩国,目前也放弃了实名制。
    云计算的硬件基础是多核、并行运算,GPU、cuda、opencl、mpi,这些架构,目前都处于摸索阶段。
    其中最有前途的intel百核CPU:Xeon Phi系列,2015完成度也只有60%,而且需要3-5年才能发布。
    (《Intel 60核处理器登场》http://diy.pconline.com.cn/627/6277957.html)

    至于目前流行的各种大数据核心算法,都是基于统计分析、聚类分析,以及各种各样、五花八门的分析模型。
    这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。
    这些算法,看名字就知道,玄而又玄,不知所云。
    关键的是,这些算法都是受限模型,是基于某些特定条件下的模型,无法通用,
    就像冰岛的"啤酒和尿布"模型,到了中国,完全没戏,至少在沃尔玛、家乐福、华润等超市,没有看到这种模式。

    而并行开发最重要的工具,通用并行编程语言,目前一种都没有,目前最流行的cuda c,尚处于汇编阶段,
    硬件没有,软件没有,算法没有、模型没有、开发工具没有
    就这样一个项目,居然成为国家战略级项目,数千亿、上万亿的投资
    怎么看,怎么不靠谱?
    就像五十年代的赶英超美、全民炼钢。
    今天,我们是完成了这个目标,可是这个是在各种条件数十年积累后才完成的。

    政府决策部门,强推大数据,提升为国家战略的另外两个“潜在”考虑,可能是:
    ::基于大数据、信息科技的新型“计划经济”,个人对经济不熟悉,但直觉上觉得不靠谱,至少目前没看到有这方面的理论体系,而成熟的理论体系,是项目成功的基本要素。
      有了成熟的理论体系,未必一定成功,没有,绝对是失败 
    ::建立类似1984的社会管理体系,这个更加不靠谱,网络危机公关的经典手法就是,采用大量的关联信息,淹没负面新闻。
       一组(10台)电脑,每天可以发布上亿条信息(包括填写验证码),可以模拟千万级的用户数据。
       (顺便说一句,个人是国内首家4A级网络公关公司的联合创始人之一,服务过150+国际500强,包括微软、奔驰、西门子)
       
    政府决策部门,跑步进入数据共产主义,多半是被神奇的“人脸识别”算法和淘宝、支付宝后台数据唬住了,就像古代方士们神奇的魔术表演。
    ::“人脸识别”其实是个很简单的opencv通用算法,普通的手机、平板都可以实现,不需要大数据、也不需要云计算,我们发布的开源项目:zwPython,就内置了相关模块和算法、以及源码。
       (zwPython集成式python开发平台, http://blog.sina.com.cn/s/blog_7100d4220102vk6x.html )
    ::淘宝、支付宝的海量数据,也没有多么神奇,余额宝的利息,目前也和普通基金、定息差不多。

    大数据、云计算,看起来的确很高大上,比玩地产的土鳖“逼格”高太多了,比玩实业的工商企业轻松多了。
     可是,大数据的的核心硬件服务器、软件、数据库,都要进口,而硬件服务器的折旧比汽车还快,最前沿的硬件,基本3年就基本价值归零,就是一堆废铁
       因此,目前各地政府的批量上马数据中心、计算中心,投资回报更加令人担心,一个3-5年,回报率无限归零的项目,而且投资总额分分钟过万亿。
       也许,大家会认为,这么多资金,上万亿砸下去,至少在人才方面会有收获,会培养一支自己的团队。
       这个,也许,不过意思不大。
       日本全民动员的第五代电脑,目前至少也有些国际上知名的IT项目:比特币、ruby语言,可是对日本IT产业的整体盘,没有多少帮助。
      
     
    说个最简单的一线实例:
    大数据的处理平台,实际就是超算,什么天河一号、天河二号,等等
    CPU有用intel的Xeon Phi,但主流是nv显卡,cuda编程,操作系统,90%以上是linux
    国内开发团队刷排名,争资源、做政绩,intel、nv闷声接订单,赚金币。。。
    一直以来,这样做,大家都觉得蛮好的,
    好了,2015,黑天鹅又来了,美国政府宣布对中国超算项目,禁售高端xeon芯片
    禁售其实不难解决,汕头做硬盘、cpu、内存走私的、分分钟可以解决
    难的是,nv公司2015年最新的cuda7,不提供linux显卡驱动,
    这下,可真是会死人的,没驱动,显卡都点不亮,还超算,还cuda,
    至于大数据,连电都没有的非洲,你说什么互联网,还真以为自己是上帝,show me the light
    怎么办,还真的叫国安去吧nv的ceo黄总,请到国内,旅游、讲课。。。。。。
    大数据,再多的专家,再nb的模型,再炫的demo,
    也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看,再回头问问这些大师们,"啤酒和尿布"模型,怎么玩砸了?
    所以我们说:凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓
    关于大数据和人工智能,我的基本观点是:
    凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓。
    这就是大数据、人工智能的图灵测试!
    为什么?
    关于这个问题,就价值十个博士学位。
    看不懂这句话的,还是少玩大数据、人工智能。
    Talk is cheap,Show me the code!----Linus(linux 发明人)
    足球比赛,从数学角度而言,是最简单三选一,胜、负、平
    而真正的大数据分析,是在成千上万种可能中,选择最接近的进行匹配,
    连最简单的三选一都搞不定,来谈难度、复杂度高数百倍、上千倍的n选一(n>1000),是不是有些不靠谱

    2014世界杯 对于大数据 人工智能 是个分水岭 是元年
    微软 谷歌 百度 都有相关的项目 胜率<50%
    为什么?
    这个也可以作为,这个观点的背景与补充。


    QQ群 247994767(delphi与halcon) 【zw版《delphi与halcon系列原创教程》,网址,cnblogs.com/ziwang/ 】 QQ:2592439395(zw) , delphi+halcon,图像分析神级配置, 分分钟秒杀 c+opencv,python+opencv,c+matlab, 以及其他各种组合
  • 相关阅读:
    程序员自我【营销】,如何打造个人【品牌】
    程序员应该怎样和领导相处?
    程序员必备能力——晋升之道
    聊一聊 软件系统中的“热力学第二定律”
    程序员如何利用技术管理技巧
    技术人必须掌握能力——深度思考
    程序员逆袭之路——系列文章更新中
    程序员跳槽,该如何选择一家好公司
    C++-运行时类型信息,异常(day11)
    C++-多态,纯虚函数,抽象类,工厂模式,虚析构函数(day10)
  • 原文地址:https://www.cnblogs.com/ziwang/p/9500412.html
Copyright © 2011-2022 走看看