大数据的特点:
数据量(Volume)
多样性、复杂性(Variety)
速度(Velocity)
基于高度分析的新价值(Value)
大数据的应用:
预测
推荐
商业情报分析
科学研究
大数据上问题求解计算问题的过程:

大数据算法:

大数据算法的难题:

大数据的算法设计技术:

大数据的算法分析:

本门课的内容:

第二讲:亚线性算法
大纲:
2.1亚线性算法的定义
2.2水库抽样-空间亚线性算法
2.3平面图直径-时间亚线性计算算法
2.4全0数组判定-时间亚线性判断算法
亚线性的含义:
亚线性时间算法:
亚线性时间近似算法(求最优解)
性质检测算法(通过亚线性时间测定某一个特殊的性质)

亚线性空间算法:
数据流算法(仅根据当前得到的信息,在一个受限的空间内得到计算结果)


2.2水库抽样-空间亚线性算法:

算法:


例子:数据流中频繁元素
数据流的特点:

数据流模型:

问题:



(最多有10%的元素是频繁元素,频繁元素占总出现次数的90%)
算法的描述:

(k是计数器的个数)

分析:

2.3平面图直径-时间亚线性计算算法:



近似比的计算:

近似算法:

近似比-Ratio Bound:

相对误差:

例子:最小生成树:
问题:

求精确解存在的问题:

时间亚线性算法的思想:

最小生成树和联通分量的关系:


联通分量个数的求解:
精确解存在的问题:

估计联通分量的个数:


问题转换:估计nu


算法的描述:(用于估计一个连通分量的∑1/nu)
(节点的最大度为d)
分析:




故,最小生成树近似算法(调用算法CC):

分析:


乘近似:

2.4全0数组判定-时间亚线性判断算法:

判定问题的近似解:


全0数组判定中的近似:

后者的意思:任意抽出一个数,其为1的概率大于ε
算法的描述:



判定算法的定义:

例子:序列有序的判定:

算法的描述:

算法的分析:


(其中,n是数组的个数)
