gm.data.Parquet#

class gemma.gm.data.Parquet(*, _fake_refs: 'type[_FakeRefsUnset] | dict[str, _FakeRootCfg]' = <class 'kauldron.utils.config_util._FakeRefsUnset'>, batch_size: int | None = None, seed: Union[int, Sequence[int], numpy.ndarray, jaxtyping.UInt32[Array, '2'], jaxtyping.UInt32[ndarray, '2'], jax.Array, NoneType] = _FakeRootCfg('cfg.seed'), transforms: 'tr_normalize.Transformations' = <factory>, num_epochs: 'Optional[int]' = None, batch_drop_remainder: 'bool' = True, num_workers: 'int' = 16, read_options: 'grain.ReadOptions | None' = None, enable_profiling: 'bool' = False, shuffle: 'bool', path: 'epath.PathLike | list[epath.PathLike]')[source]

基类: kauldron.data.py.base.DataSourceBase

path: epath.PathLike | list[epath.PathLike]

property data_source: grain._src.python.data_sources.RandomAccessDataSource