zoukankan      html  css  js  c++  java
  • word2vec 评测 size_diff

    This is a test for word2vec
    Wed Nov 07 16:47:19 2018
    dir of model1: ./model/window3_ min_count2_worker4_sg0_sess1105/size_80.model
    dir of model2: ./model/window3_ min_count2_worker4_sg0_sess1105/size_110.model

                80         110         150

    绑定     1             

    关联                    1

    厨打     1

    促销  

    支付     1

    预约     1

    导入     1

    哪里

    导入

    关闭      1

    size80 的效果出乎意料的好,可能也是考虑到我们目前的训练数据并不是特别多,

    除了相似度高意外,很符合我们对近义词的要求,可以有效的解决歧义

    厨打
    ====== model1 ======
    [('厨房', 0.7792487144470215), ('KDS', 0.6969343423843384), ('厨房打印机', 0.6915861368179321), ('kds', 0.6875752210617065),

    ====== model2 ======
    [('厨房', 0.7365704774856567), ('厨房打印机', 0.6782543063163757), ('总控', 0.6597431898117065), ('kds', 0.6522904634475708),

    ====== model3 ======
    [('厨房', 0.7174404859542847), ('厨房打印机', 0.643281102180481), ('总控', 0.641669750213623), ('kds', 0.6321718692779541), ('后厨', 0.6275204420089722),

    后台
    ====== model1 ======
    [('云后台', 0.7980374693870544), ('前台', 0.7327364683151245), ('云端', 0.6401246190071106), ('后天', 0.6294926404953003)

    [('云后台', 0.7991924285888672), ('前台', 0.6874397993087769), ('后天', 0.6474512815475464), ('云端', 0.6466808319091797),

    [('云后台', 0.7783473134040833), ('后天', 0.6452266573905945), ('前台', 0.6173823475837708), ('云端', 0.5968232750892639),

    size高有助于识别错别字,但是考虑到错别字出现的频率,如果出现的频率很高的话,可能也可以在低维就识别出来

  • 相关阅读:
    UVA 11991 Easy Problem from Rujia Liu(map,vector的使用)
    UVA 11995 I Can Guess the Data Structure! (STL应用)
    HDU 2795 Billboard(线段树,单点更新)
    HDU 1394 Minimum Inversion Number (线段树,单点更新)
    UVA 11827 Maximum GCD(读入技巧,stringstream的使用)
    contest 2 总结
    Const 1 总结
    开始进行大量题目练习
    函数式线段树的个人理解
    poj 2318 TOYS
  • 原文地址:https://www.cnblogs.com/yjybupt/p/9923790.html
Copyright © 2011-2022 走看看