gm.data

目录

gm.data#

[[源代码]]

数据管道操作。

符号#

#

gm.data.AddSeq2SeqFields

添加模型 inputtargetloss_mask

gm.data.ContrastiveTask

为 DPO 类型的损失创建对比模型输入。

gm.data.DecodeBytes

bytes 解码为 str

gm.data.FormatText

相当于 template.format(text=my_string)

gm.data.MapInts

将每个整数替换为一个新值。

gm.data.Pad

在序列末尾添加零以达到最大长度。

gm.data.Parquet

Parquet(*, _fake_refs: ‘type[_FakeRefsUnset]

gm.data.Seq2SeqTask

序列到序列任务。

gm.data.Tokenize

将字符串标记化为 ID。

函数#

gm.data.make_seq2seq_fields

创建模型 inputtargetloss_mask

gm.data.pad

在序列末尾添加零以达到最大长度。