gm.data.Tokenize

gm.data.Tokenize#

class gemma.gm.data.Tokenize(*, key: typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>] | typing.Sequence[typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>]] | dict[typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>], typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>]], tokenizer: gemma.gm.text._tokenizer.Tokenizer, add_eos: bool = False, add_bos: bool = False)[source]

基类:kauldron.data.transforms.base.ElementWiseTransform

将字符串分词为 ID。

tokenizer

要使用的分词器。

类型:

gemma.gm.text._tokenizer.Tokenizer

add_eos

是否在序列末尾添加 EOS 标记 (1)。

类型:

bool

add_bos

是否在序列开头添加 BOS 标记 (2)。

类型:

bool

tokenizer: _tokenizer.Tokenizer
add_eos: bool = False
add_bos: bool = False
map_element(element: str)[source]