gm.evals.SamplerEvaluator#

class gemma.gm.evals.SamplerEvaluator(**kwargs)[source]

基类： kauldron.evals.evaluators.EvaluatorBase

采样评估器。

该评估器期望数据集包含 Seq2SeqTask 转换。

max_new_tokens

生成的最大新 token 数量。总共，模型将处理 input_length + max_new_tokens。

num_examples

采样多少个示例。

ds

要评估的数据集。请注意，数据集必须是未批处理的，并且包含原始 str 字段。

model

要使用的模型。

losses

要计算的损失。损失和指标可以通过键 preds.text 访问预测文本。

metrics

要计算的指标。损失和指标可以通过键 preds.text 访问预测文本。

summaries

可选的要写入的摘要。

evaluate( state: kauldron.train.train_step.TrainState, step: int, ) → Any[source]: 运行此评估器，然后写入并可选地返回结果。