torchtext.data.utils¶

get_tokenizer¶

torchtext.data.utils.get_tokenizer(tokenizer, language='en')[source]¶

为字符串句子生成分词函数。

Parameters:

分词器 – 分词函数的名称。如果为None，它返回split()函数，该函数按空格拆分字符串句子。如果为basic_english，它返回_basic_english_normalize()函数，该函数首先对字符串进行标准化处理，然后按空格拆分。如果为可调用函数，它将返回该函数。如果为分词库（例如spacy、moses、toktok、revtok、subword），它将返回相应的库。
语言 – 默认为 en

示例

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

ngrams_iterator¶

torchtext.data.utils.ngrams_iterator(token_list, ngrams)[source]¶

返回一个迭代器，该迭代器生成给定的标记及其 n 元组。

Parameters:

token_list – 一个标记列表
ngrams – ngrams的数量。

示例

>>> token_list = ['here', 'we', 'are']
>>> list(ngrams_iterator(token_list, 2))
>>> ['here', 'here we', 'we', 'we are', 'are']

torchtext.data.utils¶

get_tokenizer¶

ngrams_iterator¶

文档

教程

资源