zoukankan      html  css  js  c++  java
  • pytorch实现word embedding: torch.nn.Embedding

    pytorch中实现词嵌入的模块是torch.nn.Embedding(m,n),其中m是单词总数,n是单词的特征属性数目。

    例一

    import torch
    from torch import nn
    
    embedding = nn.Embedding(10, 3)     #总共有10个单词,每个单词表示为3个维度特征。此行程序将创建一个可查询的表,
                                        #表中包含一个10*3的张量,张量中的数值是随机初始化的,每一行代表一个单词。
                                        #在神经网络的训练过程中,张量中的数值也将得到训练,每次迭代都将更新。
    
    input = torch.LongTensor([5])       #假如我想取出第6个单词的词向量。
    word_vector = embedding(input)      #这样就取出第6个单词的词向量了。input必须是Longtensor型的张量。
    print('5th word embedding is:
     {}'.format(word_vector))
    
    inputs = torch.LongTensor([0, 2, 9])     #假如我想取出第多个单词的词向量,比如第1、3、10个单词的词向量。
    words_vector = embedding(inputs)         #这样就取出多个单词的词向量了。
    print("words' embedding are:
     {}".format(words_vector))

    值得注意的是,程序第9行的word_vector是一个张量,size为([1, 3]),1表示只取出一个单词的词向量;3表示词向量的长度是3,即有3个特征。同样的,程序中的words_vector的size为([3, 3])。如果input的size是([n]),则输出的size为([n, dim]),dim表示特征数目;如果input的size是([b,n]),则输出的size为([b,n, dim]),b表示batchsize。

    例二

    例一程序中embedding的词嵌入张量是随机初始化的,如果从已经训练好的词向量中获取,则采用

    import torch
    from torch import nn
    import numpy as np
    
    #已训练好的词向量,大小为10*3
    pretrained_weight = np.array([[ 1.33869969, -0.16198419,  1.65357883],
                                  [ 1.55555752,  2.25915442, -1.7898287 ],
                                  [-0.31996402,  1.12052144,  0.76315345],
                                  [ 0.03442668,  0.03288871, -0.46975346],
                                  [ 0.36835297,  1.47698013,  0.26740319],
                                  [ 2.21786653, -0.64531753, -0.57987762],
                                  [-1.82413935,  0.44493353, -1.54555689],
                                  [ 0.44076455,  0.28416441,  0.38695892],
                                  [-0.18101847,  0.13821242,  0.28120627],
                                  [ 0.99084866, -0.03077417,  1.08613474]])
    
    embedding = nn.Embedding(10, 3)  #随机初始化词向量
    embedding.weight.data.copy_(torch.from_numpy(pretrained_weight))   #把随机初始化的词向量替换为已训练好的词向量
    print(embedding.weight.data)

    输出结果:

    tensor([[ 1.3387, -0.1620,  1.6536],
            [ 1.5556,  2.2592, -1.7898],
            [-0.3200,  1.1205,  0.7632],
            [ 0.0344,  0.0329, -0.4698],
            [ 0.3684,  1.4770,  0.2674],
            [ 2.2179, -0.6453, -0.5799],
            [-1.8241,  0.4449, -1.5456],
            [ 0.4408,  0.2842,  0.3870],
            [-0.1810,  0.1382,  0.2812],
            [ 0.9908, -0.0308,  1.0861]])

    例三

    把‘I earn the trust and respect of those around through my commitment every single day’这句话做词嵌入。

    import torch
    from torch import nn
    
    words = 'I earn the trust and respect of those around through my commitment every single day'.split()
    words = set(words)  #去掉重复的单词
    word_to_idx = {word: i for i, word in enumerate(words)}     #把每个单词都编号,因为在embedding中取出词向量时只能用数字
    embedding = nn.Embedding(len(words), 8)                     #每个词向量长度为8,即有8个特征
    trust_idx = torch.LongTensor([word_to_idx['trust']])        #假如我想取出单词trust的词向量
    trust_vector = embedding(trust_idx)
    print(trust_vector)
    

    输出结果为:

    tensor([[ 0.8197,  0.1230,  2.7905,  1.0388, -0.5418, -1.4987,  0.6195, -1.6211]],
           grad_fn=<EmbeddingBackward>)

    参考资料:

    [1] pytorch中的embedding词向量的使用方法

    [2] 10分钟快速入门PyTorch (7) word embedding

  • 相关阅读:
    python第九十天----jquery
    收藏所用C#技术类面试、笔试题汇总
    线程内打开窗体
    有关正则表达式的一些总结
    XML与Object的范型转换
    开始工作了
    Oracle查询数据表结构(字段,类型,大小,备注)
    MyEclipse安装jbpm插件
    MyEclipse启动tomcat增加内存配置
    extJs常用的四种Ajax异步提交
  • 原文地址:https://www.cnblogs.com/picassooo/p/12535916.html
Copyright © 2011-2022 走看看