突然发现好久没有在博客园上说过话了。。。今天无聊写一些东西吧。
大家也许听说过“大数据”,就是说如果有足够的数据,我们可以不用知道为什么,就能从起因预测结果。比如说我们知道了许多的数字手写体和所代表数字的对应关系,我们遇到新的手写体时就可以查找最相近的手写体,然后把它对应的数输出。这是一个最简单的例子。。。
我们不用知道为什么,但是有足够多的数据来进行习惯性的推断,看起来很靠谱,直到有一天我脑洞大开。。。
我们可不可以用前一天市民的手机上网情况(指流量,访问入口,访问内容等)推断今天下不下雨呢?
说不定是可以的。。。。数据足够多,然后找不到为什么。。。
也许是有原因的,比如说如果天气不好,那么也许很多人就会查天气预报,然后明天下雨的可能就大,或者看着天气不好,有些人放弃了走路或者骑车改坐公交,在车上没事就会用流量玩耍,然后就流量使用上升了。。。
当然,最有可能的预测结果是,明天下雨的概率是50%,不下雨的概率是50%。。。就相当于没有预测出结果,说明二者间没有联系。。。。
怎么可能没有联系呢?万物都是有联系的,蝴蝶效应还是有的。那么为什么判断不出来?也许是联系太过渺小,取得的数据量不够造成的。也就是说,如果取得的数据量足够大,那么我们也是可以预测的。。。
个人理性的认为,如果两个有确定结果的事情(比如两个随机函数),其之间是没有关联的,但这也不一定,数据量大了之后,其函数间的数学关系也会体现出来,比如循环节。所以说,大数据的两个方面,数据量和数据库的一系列都是很重要的,相比来说,数据量更加实用,简单一些。
其实,像刚才那样预测天气,还不如直接去查天气预报。。。。