gm.data.Tokenize#

class gemma.gm.data.Tokenize(*, key: typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>] | typing.Sequence[typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>]] | dict[typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>], typing.Annotated[typing.Any, <object object at 0x75a909cb7ae0>]], tokenizer: gemma.gm.text._tokenizer.Tokenizer, add_eos: bool = False, add_bos: bool = False)[source]

基类：kauldron.data.transforms.base.ElementWiseTransform

将字符串分词为 ID。

tokenizer

要使用的分词器。

类型:: gemma.gm.text._tokenizer.Tokenizer

add_eos

是否在序列末尾添加 EOS 标记 (1)。

类型:: bool

add_bos

是否在序列开头添加 BOS 标记 (2)。

类型:: bool

tokenizer: _tokenizer.Tokenizer

add_eos: bool = False

add_bos: bool = False

map_element(element: str)[source]