背景
因项目中需要对一份位置数据做精细化判断,需要加入可信度指标,辅助业务人员进行判断。下文基于此展示一些分析思路。
分析
目标:定义位置的可信度,需要构建一个可信度模型指标。在这个指标框架下有一个评分标准。所有数据在这个评分标准下周期性的更新。
已有数据:1、loc:经纬度。2、time:清洗的时间。3、device/person:设备/人。4、type:汇报形式
数据分析告诉我们分析一份数据要用5个w去看待。how(如何),how many(多少次),how much(价值), who(谁),when(何时)。
这5点结合现有数据可以定义出很多可信度高价值条件(如某个汇报形式是高可信),但如何形成一个体系呢?
构建数据质量阶梯模型
阶梯模型的构建原则:1、高层级阶梯的可信度是低的,低层级可信度是高的。2、相邻的两个层级一定要有交集范围
实施
我们是这么构建阶梯模型的
1、3周期内数据
2、3周内出现至少2次的
3、3周内出现至少2次&&位置波动小于m米
4、3周内出现至少2次&&位置波动小于n米
5、3周内出现至少2次&&位置波动小于n米&&高价值条件1
6、3周内出现至少2次&&位置波动小于n米&&高价值条件1&&高价值条件2
。。。。
最后根据样本数据结果,分析定义目标数据范围和可信度
计算
位置计算的方式:1、直接选择高频位置;2、求中间点;3、排除漂移点再计算平均点
我们这边采用了求中间点的方式,用位置波动条件,不断修正位置。
具体求中间点的计算方式:加权求平均(多次汇报不去重),利用米勒投影进行坐标系转换。得到中间点再转换为geohash。