1、整理good.log文件为每列customerID, goodID, grade的格式到hdfs集群文件中
2、map中以good1ID为key,good2ID为value传递给reduce,reduce输出为good1ID, good2ID, 1
3、map以good1ID, good2ID为key传递给reduce,reduce将good1ID,good2ID出现的个数加到一起然后输出good1ID, good2ID, number
4、将步骤三的文件读入,以good1ID为key,good2ID和number为value输出到文件GG中,value用,隔开
5、将步骤一的文件读入,以goodID为key,customerID和grade为value输出到文件CG中,value用,隔开
6、将步骤4、5得到的文件读入,输出goodID,customerID,GC
7、将GC加到一起,去重,输出到数据库