动手学深度学习 | 文本预处理 | 52 - 走看看

zoukankan html css js c++ java

动手学深度学习 | 文本预处理 | 52
目录
代码
QA
代码

我们把文本当作一个时序序列，这也是整个自然语言处理干的事情。NLP说白了就是把文本拿过来，把里面的每一个字符，词当作一个变量，作为一个样本，然后样本之间是有时序信息的。可以认为文本就是一条很长的序列。

文本预处理：核心思想就是如何把这些文本变成可以训练的东西。

tokens：这里是按照行来分词，tokens就是一行文本的一个分词的列表，里面的元素叫做一个token

vocab：将分出来的一个一个的token进行唯一的编码

corpus：token大集合是允许有重复的（语料库）

QA
1. 现在中文分词有没有比较好的开源lib可以用？
jieba “结巴”中文分词：做最好的 Python 中文分词组件。
1. vocabulary里对unique_token按frequency的排序不是必要的吧？只要保证一个unique_token对应一个unique index？
排序确实是不必要的，但是可以进行排序。

一个是可以查看哪些是常用的词元，还有就是如果经常访问的东西放在一起，那么对计算机性能是比较好的，对后面的embedding也点点性能的好处。
查看全文

相关阅读:
[LeetCode]Remove Duplicates from Sorted Array
二叉树中和为某一值的路径
 机器学习基石笔记：Homework #2 Decision Stump相关习题
 机器学习基石笔记：08 Noise and Error
机器学习基石笔记：07 The VC Dimension
机器学习基石笔记：06 Theory of Generalization
机器学习基石笔记：05 Training versus Testing
正交矩阵、EVD、SVD
win10安装ubuntu16.04及后续配置
 chmod命令相关

原文地址：https://www.cnblogs.com/Rowry/p/15340370.html

Copyright © 2011-2022 走看看