zoukankan      html  css  js  c++  java
  • 天池大数据比赛

      第一赛季结束了,以往都是在网上找到有用的博客摘抄过来,这次参加比赛,难得有些切实体验,恰好好久没动手写东西了,这次就动动手,动动脚。。。流水账式的记录开始

      刚拿到数据,首先想到就是SVD,嘿嘿,这个东西学了这么久,正好碰到这么多的数据,那么多的维度(每个用户对应那么多商品,商品又有那么多用户购买,而且数据肯定特别稀疏),但是直接用SVD,面对10000*200w的维度还是很有难度的。窃以为刚好每个商品都有一个类别属性,统计了下约有8900个类别,不过这也是不小的数字。怎么对类别个数进行压缩呢?这么对类别,应该会有相似的吧,比如说裤子和裙子,嘿嘿,马上想到了聚类,这个学了好久的东西这次可以用下喽!马上对类别进行聚类,但是选择多少个类簇合适呢?这下我又发挥了自己的“聪明才智”,多试几个从10,到1000都试一下,比较那个什么距离平方和最小的。而且还把结果画成曲线,ok,就是那个拐角点出的值,好!就选100个类簇了,这下好开森哈!8900多个类被我压缩成100个了,那么仔细看下我的战果把,打开所用的工具weka(哇嘎哇嘎,诶诶诶,这东西一直也为是个玩具,这下用起来还挺“方便”的——挺弱智的),在100个类中,有很多类下只有3个—4个子类,而有的

  • 相关阅读:
    百度之星 1211 题目一
    acdream 1019 Palindrome 字符串hash
    POJ2480 Longge's problem 欧拉函数
    C#为应用程序注册快捷键
    sql跨数据库查询
    嵌入式轻量级数据库 SQLite和 System.Data.SQLite
    经典问题 C#隐藏和显示窗体
    System.Data.SQLite类Dll下载地址和移植C# SQLite
    CMMI5
    两个ComboBox之间Item的移动
  • 原文地址:https://www.cnblogs.com/hugh2006/p/4459357.html
Copyright © 2011-2022 走看看