机器学习和数据分析处理的数据是不一样的。传统的数据分析处理的是交易数据,机器学习处理的是行为数据。
交易数据的移植性要求是非常高的,行为数据的移植性不高。所谓移植性不高那就意味着你这部分数据多一批少一批其实都无所谓。
NoSQL数据库只能用来处理这种行为数据。它是在保证你的数据的吞吐量的前提下,它会在数据的移植性上给你打一个折扣。也就是说我们如果是处理用户的交易数据,就是说只要是所有跟钱有关的数据,我们是不可能去用NoSQL去保存的,我们只能用SQL数据库去保存。
交易数据肯定是要使用关系型数据库,行为数据可以放到NoSQL数据库里。
分析方法也不一样。对于交易数据我们通常可以采用这种采样分析的方法。我们通过全量分析来提取出用户的行为特征,你这个数据量越大的话可能刻画的这个用户的特征会刻画的更确一点。