zoukankan html css js c++ java

torchtext支持的分词器

torchtext是pytorch自带的关于文本的处理工具。

torchtext支持的分词器

from torchtext.data.utils import get_tokenizer

tokenizer = get_tokenizer('basic_english')

在/Users/xuehuiping/anaconda3/envs/my_transformer/lib/python3.7/site-packages/torchtext/data/utils.py查看get_tokenizer的定义：

def get_tokenizer(tokenizer, language='en')

tokenizer可以是：

	tokenizer取值	分词说明
	None	无效
	basic_english	language只能是en
	spacy	spacy = spacy.load(language)
	moses	from sacremoses import MosesTokenizer moses_tokenizer = MosesTokenizer() return moses_tokenizer.tokenize
	toktok	from nltk.tokenize.toktok import ToktokTokenizer toktok = ToktokTokenizer() return toktok.tokenize
	revtok	import revtok return revtok.tokenize
	subword	import revtok return partial(revtok.tokenize, decap=True)

查看全文

相关阅读:
echarts----实现图表联动
 echarst-----入门，实现柱状图、饼图、环形图、折线图、词云图
 软件需求---河北省重大需求进度报告08
Tensorflow学习笔记（一）
软件工程课程个人总结
 Android项目——用户主页实现
 Android项目——消息列表实现
 Android项目——功能更新
 第十四周学习进度总结
 Android项目——查看我的发布