如何在 Hugging Face 中按需加载数据集子集以节省磁盘空间

聖光之護

发布时间：2026-01-31 21:02:03

591人浏览过

来源于php中文网

原创

如何在 Hugging Face 中按需加载数据集子集以节省磁盘空间

hugging face 的 `datasets` 库默认会完整下载整个数据集，即使使用切片语法（如 `"train[:20%]"`）也无法避免；要真正实现轻量级加载，必须启用流式（streaming）模式，它支持边迭代边读取、无需本地存储全量数据。

在微调如 facebook/wav2vec2 等大型语音模型时，常需使用 Common Voice 等超大规模数据集（例如 common_voice_16_0 达 256GB），但本地磁盘空间有限。此时若误用常规切片方式：

from datasets import load_dataset
# ❌ 错误：仍会完整下载并解压全部数据（约256GB）
ds = load_dataset("mozilla-foundation/common_voice_16_0", "en", split="train[:20%]")

该写法不会跳过下载——split="train[:20%]" 仅在数据已全部加载进内存/磁盘后才执行逻辑切片，因此无法缓解磁盘压力。

✅ 正确方案是启用 streaming=True：
它绕过本地缓存与完整下载，直接通过网络流式拉取样本，配合 .take()、.skip() 或 .shard() 等方法实现真正的“按需获取”：

from datasets import load_dataset

# ✅ 启用 streaming：不下载任何文件到磁盘
dataset_name = "mozilla-foundation/common_voice_16_0"
ds = load_dataset(dataset_name, "en", split="train", streaming=True)

# 取前 100 条样本（适用于快速验证或小规模实验）
ds_subset = ds.take(100)

# 转为可迭代对象（注意：streaming 数据集不支持索引 ds[0]）
for example in ds_subset:
    print(example["sentence"])  # 示例字段
    break

? 关键注意事项：

FaceSwapper

FaceSwapper是一款AI在线换脸工具，可以让用户在照片和视频中无缝交换面孔。

下载

流式数据集返回的是 IterableDataset，不支持随机访问（如 ds[42] 会报错），仅支持顺序遍历；
若需打乱（shuffle），须显式调用 .shuffle(buffer_size=2000)，其中 buffer_size 决定内存中缓存样本数（不宜过大）；
训练时建议搭配 torch.utils.data.IterableDataset 或 datasets.IterableDataset.to_torch_dataset() 使用；
部分数据集（尤其是含大音频/视频文件的）可能因服务器限速或网络波动影响流式稳定性，建议添加重试逻辑或预缓存关键子集。

? 进阶技巧：
若需固定比例采样（如 20%），可用 .shard() + .skip() 组合模拟，或借助 itertools.islice：

import itertools
ds = load_dataset("mozilla-foundation/common_voice_16_0", "en", split="train", streaming=True)
ds_20_percent = itertools.islice(ds, 0, None, 5)  # 每5条取1条 ≈ 20%，适合均匀采样

总之，streaming=True 是应对海量数据集磁盘瓶颈的核心机制——它将“下载→加载→切片”三步简化为“按需流式拉取”，兼顾效率与资源可控性。

如何使用Django Prophet进行时序数据可视化和分析？

Django Prophet与机器学习的集成：如何利用时间序列算法提升预测准确性？

Python服务器编程：使用Tornado做Web框架

全面比较编程语言Julia和Python，让您更容易做出抉择！

Python居然被用来开发游戏了？盘点你想不到的Python开发场景

相关标签:

facebook ai 解压 stream 可迭代对象切片

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用正则表达式确保井号（#）前不出现特定单词（如 abc、def、ghi）下一篇：如何正确从 OpenAI ChatCompletion 响应中提取消息内容

作者最新文章

如何在 Go 中运行测试并跳过指定子包