大数据由于对趋势的满足和技术的实用性,逐渐的被越来越多的人接纳。但是由于其自身结构的庞杂和内部技术的复杂使很多人望而却步,甚至很多公司在讨论到大数据的时候也往往把他看作是大公司的事情,大家在讨论大数据的时候自然而然的就谈到了BAT,似乎只有这些公司才配使用大数据,也只有这些公司才能充分发挥大数据价值。不可否认这些公司基于自身的数据积累,能够非常高效的使用大数据技术,发挥1+1>2的效果,但是我个人以为小公司未必没有机会使用大数据技术。
大数据的技术虽然纷繁复杂,但是笔者认为更重要的是大数据的思维,即用大数据的思维充分的利用身边的全量数据,尽可能多的挖掘出数据应有的价值,未必一定要追求最多、最复杂的数据。无论是个人还是企业,周边都会有形形色色的数据形式,图片、文字、数字等等,充分发挥这些数据的价值,也能保证让每个人、每个公司获取意想不到的效果。
从不同的角度,对数据的划分也是不一样的,数据类型角度下,数据可以分为:图片、文字、数字、视频等类型,各种类型会有不同的处理方式,当然也能处理出不同价值的信息,数字的分析是一直以来的主流,在数据量不大的情况下,可以使用EXCEL,SPSS等结构性的工具;文字的分析主要是用自然语言处理等方法;图片常用的方法为openCV等技术,大多是用机器学习的相关算法,进行深度优化,实现相应的功能。
从数据归属角度,数据可以分为:公有数据和私有数据,充斥在互联网上的各式各样的数据有一些是可以被广大网友使用的,比如新闻资料,各个资讯网站的统计数据,甚至有些电商网站的商品信息也都可以取下来直接使用,问题是提取的过程非常复杂,需要耗费长久的时间,甚至有可能会遗漏,此时便需要用到爬虫,因此,笔者以为了解数据的基础是获取数据,数据的一个重要来源是公有数据,而公有数据的最主要获取方式为网络爬虫,现在有很多计算机语言给出了网络爬虫的编写方法,最为便捷的当属python。
对于网站外界的人,获取数据的一个主要的方式是数据爬虫,而对于网站内部的人,获取数据的方式便多种多样,网页上除了能获取商品信息还能够获取到用户在页面上的操作信息,包括用户的浏览路径、浏览时长等,这些数据的获取方式主要是用的js定位,然后将js代码埋点在html页面上,用户每触发一次交易,js会将用户的操作轨迹传回到对应的日志服务器上,供用户使用;另外数据库中的信息、操作系统日志中的信息,甚至缓存数据库中的信息都可以作为大数据的信息来源。
当数据的获取量逐渐增加时,数据的存储会成为一个主要瓶颈,现阶段比较流行的工具为Hadoop,如果个人使用的话可以使用一些简单的数据库(结构型和非结构型),存储有限的数据,以方便自身使用,对于公司来讲,就需要用到分布式的处理,多种工具结合使用。
当然,如此杂乱的信息来源获取到的信息必然会非常繁杂,需要一定的技术工具来进行归一化处理,统一化数据后呈现给用户一个完整的,高价值的数据集。
笔者认为,基于大数据的思维,获取到自身能获取到的全量数据,然后提取价值,是大数据的主题价值之一,笔者希望能通过博文,深入对大数据的理解,成为大数据宇宙中的一个星星。
笔者也是初涉大数据,希望能通过一片片的博文深入对大数据的了解,记录平时点滴。