zoukankan      html  css  js  c++  java
  • 读《大数据时代》有感

     

    这本书买了几年了,一直没有时间读,直到2016年阿尔法狗火了以后,书架上找出了这本书,然而项目事情太多,又耽搁了。元旦后去出差,带上这本书作为坐飞机消遣之物。

    本书写于2012-2013年,距现在已有4,5年了,但对于中国的大数据产业来说,大数据这个词这几年才火起来,所以看起来仍有种感同身受的感觉。在大数据时代最重要的就是思维的变革,文中主要提了三点。首先”不是随机样本,而是全体数据”,之前学习信号处理的时候就讲过因为信息数据量太大所以需要采样,而在大数据时代一切都变了,我们需要的是全部数据,因为随着云计算的发展,框架的演进,人们已经有能力处理全部数据,而传统的从最小的信息样本中获取尽可能多的数据的方式暴露出了不足,比如2016年英国脱欧以及特普朗胜选与传统舆论调查结果向左。 其次”不是精确性,而是混杂型“,这点实际上是效率和准确性之间进行折中的结果,容忍小部分不精确的数据才能更方便的处理全部的数据; 三、”不是因果关系,而是相关性”, 这点实际上是有待商榷的,序言中也提到,追求相关性而不是因果性是以结果为导向的研究思路造成的,用户购买了一件产品,下次会购买另一件产品肯定是有因果性在其中的,只是为了达到快速推荐的目的而暂时不去深究其中的原因。

    在商业化方面,数字时代大部分信息都可以数字化、数据化,从而像个大金矿一样被挖掘加工和利用。文中介绍了一些数据创新,如数据再利用和数据开放。不少企业控制了大量数据但没有进行充分利用的能力和需要,则可以出售或授权其他公司使用,或者找专业的数据分析公司提供挖掘的能力,在中国,主要的数据在政府等公共机构以及BAT为首的互联网巨头,小公司对数据或相关服务的需求是很旺盛的,但数据又是公司的核心资产,能否提供以及用哪种方式提供在实际运作中还是需要摸索的(目前一些通用查询的能力还是比较成熟的)。在数据开放方面,记得以前在高考填志愿的时候,花了50块钱买了卡查询了几个大学各专业高考历年的录取分数,可谓是相当昂贵了,而现在试了下几个门户网站都可以查询到了,时代在进度,获取信息的成本也在降低。在中国,政府是大规模信息的原始采集者,而且数据化程度不高,未来蕴藏着很多机会,通过开放可以让更多企业和应用收益,当然也可能会是像古代食盐专卖那样间接养活一些接口公司。

    基于存在数据的需求,所以也存在着数据交易的意愿以及可能。作者在谈及数据估值的时候也提到过几个数据定价的市场:DataMarket、InfoChimps、Azure DataMarket等,但这几天搜索了下,InfoChimps被收购转型,DataMarket被收购集成到Qlik中,Azure DataMarket转型或准备停用了,网站给出了notcie

    DataMarket and Data Services are being retired and will stop accepting new orders after 12/31/2016. Existing subscriptions will be retired and cancelled starting 3/31/2017. Please reach out to your service provider for options if you want to continue service.

    在2011年,DataMarket有70+数据,到了2017年才有200+数据,不得不猜想这生意火不起来。

    在近几年国内也诞生了一批交易中心,一些是政府背景的数据交易中心或者是私企的数据交易中心,在知乎中有个话题已列举了部分https://www.zhihu.com/question/41514778?sort=created,看了下,印象比较深的有

    • 数粮,将目前的数据提供商按行业分类收集了一遍也不容易,而且为了支持数据的流通也不care是否是站内交易,将来也许能成为数据交易界的hao123
    • 数多多,主要是公共数据为主,鼓励数据矿工自己爬数据然后变现,搭配旗下的八爪鱼采集器风味更佳,这种人人参与的方式很互联网
    • 东湖大数据 ,一些有当地政府背景的交易中心基本上就是淘宝模版+产品(数据包、api接口、数据产品、众包等)模式打造的。东湖的数据众包看起来不错,但查了下已采纳0,估计没有实际成交的
    • 优易数据 对数据有完整性、稀缺性等的评价,一大亮点
    • 贵阳大数据交易所,会员制,会费10w,无缘进去一瞥,据说很高大上,交易额过亿,但是分不清到底是会员费还是实际的交易额。据2015年的时候该交易所预计,未来3~5年每天交易量将达到100多亿元,不知道是否能成真
      总的来看,数据交易中心也没出现什么令人眼前一亮的玩法,交易的数量和访问流量都较少,这一领域远未成熟。
  • 相关阅读:
    从B树、B+树、B*树谈到R 树
    平衡二叉树、B树、B+树、B*树
    数据库事务和四种隔离级别
    python 安装surprise库解决 c++tools错误问题
    python的sorted函数
    爬虫出现gbk错误
    Windows下Python安装numpy+mkl,Scipy和statsmodels
    Flask--框架及路由
    flask常见面试题
    RE正则表达式
  • 原文地址:https://www.cnblogs.com/opama/p/6262736.html
Copyright © 2011-2022 走看看