zoukankan      html  css  js  c++  java
  • 深度学习处理文本数据

    与处理图像一样,也是首先要文本向量化,模型只能作用于文本tensor。

    分词方法:

    1文本分割为单词(分解得到的单元称为标记:token)————分词过程

    2文本分割为字符(分解得到的单元称为标记:token)————分词过程

    3利用 词袋法(bag of words ) 提取单词或字符的n-gram,并将n-gram转换成一个向量。n-gram是多个连续单词或字符的集合。————传统的特征工程手段

    文本向量化方法:

    1.one-hot编码:得到的向量是二进制的,稀疏的,高维度,硬编码。编码方式人为地架起了词之间的鸿沟。

    2.词嵌入(词向量):word embedding (word2vector),低维的浮点数向量,密集。比如每个单词用一个长度为8 的浮点向量表示。

    直接用随机向量拟合token到向量的映射:显然难度很大,因为很机械,无法保持单词之间的距离的意义,更不用说甚至嵌入空间中的特定方向也是有用的。

    理想词嵌入空间:尚未发现。

    合理做法:对每个新任务学习一个新的嵌入空间。

    某种程度上讲,Word2vec就是NLP得以发展的基础。

  • 相关阅读:
    虚拟机三种虚拟网络的区别
    关于 三次握手和四次挥手 的生动解析
    Tkinter布局管理器
    F#周报2019年第4期
    F#周报2019年第3期
    ML.NET 0.9特性简介
    F#周报2019年第2期
    浏览器保存数据的几种方法
    F#周报2019年第1期
    ML.NET教程之客户细分(聚类问题)
  • 原文地址:https://www.cnblogs.com/Henry-ZHAO/p/12781612.html
Copyright © 2011-2022 走看看