zoukankan      html  css  js  c++  java
  • 动手学深度学习 | 文本预处理 | 52

    目录

    代码

    我们把文本当作一个时序序列,这也是整个自然语言处理干的事情。NLP说白了就是把文本拿过来,把里面的每一个字符,词当作一个变量,作为一个样本,然后样本之间是有时序信息的。可以认为文本就是一条很长的序列。

    文本预处理:核心思想就是如何把这些文本变成可以训练的东西。

    tokens:这里是按照行来分词,tokens就是一行文本的一个分词的列表,里面的元素叫做一个token

    vocab:将分出来的一个一个的token进行唯一的编码

    corpus:token大集合 是允许有重复的(语料库)

    QA

    1. 现在中文分词有没有比较好的开源lib可以用?

    jieba “结巴”中文分词:做最好的 Python 中文分词组件。

    1. vocabulary里对unique_token按frequency的排序不是必要的吧?只要保证一个unique_token对应一个unique index?

    排序确实是不必要的,但是可以进行排序。

    一个是可以查看哪些是常用的词元,还有就是如果经常访问的东西放在一起,那么对计算机性能是比较好的,对后面的embedding也点点性能的好处。

  • 相关阅读:
    springmvc的文件上传和JWT图形验证码
    POJ 2932 Coneology计算最外层圆个数
    POJ1127 Jack Straws
    求逆序对
    P3809 【模板】后缀排序
    匈牙利算法
    POJ2976 Dropping tests
    字符串哈希
    zkw费用流
    最大流Dinic算法
  • 原文地址:https://www.cnblogs.com/Rowry/p/15340370.html
Copyright © 2011-2022 走看看