0

0

使用 Python 计算文件在磁盘上的实际占用空间(Size on Disk)

聖光之護

聖光之護

发布时间:2025-11-09 13:10:13

|

956人浏览过

|

来源于php中文网

原创

使用 python 计算文件在磁盘上的实际占用空间(size on disk)

本文详细介绍了如何使用 Python 准确计算文件在磁盘上的实际占用空间(Size on Disk),而非其逻辑大小。通过利用 `os.lstat` 和 `os.statvfs` 获取文件系统块大小,并结合文件大小进行向上取整计算,确保在创建固定大小镜像等场景中避免空间不足问题。文章还提供了性能优化方案和重要注意事项。

理解文件大小与磁盘占用

在文件系统中,我们通常会遇到两种大小概念:

  • 逻辑大小 (Size):这是文件实际包含的数据量,例如通过 os.path.getsize() 获取的值。
  • 磁盘占用大小 (Size on Disk):这是文件在磁盘上实际占用的物理空间。文件系统以固定大小的“块”(Block)来分配存储空间。即使一个文件只包含少量数据,不足一个块的大小,它也至少会占用一个完整的块。因此,文件的实际磁盘占用通常是其逻辑大小向上取整到最近的块大小倍数。

对于需要精确控制存储空间的场景,例如使用 dd 命令创建固定大小的磁盘镜像,或者评估存储介质的实际利用率时,了解文件的“磁盘占用大小”至关重要。如果仅依据逻辑大小进行预分配,可能会因实际占用空间超出预期而导致“空间不足”错误。

使用 Python 计算文件在磁盘上的实际占用

Python 标准库提供了获取文件和文件系统元数据的方法,我们可以利用这些信息来计算文件的实际磁盘占用。核心思路是:

立即学习Python免费学习笔记(深入)”;

  1. 获取文件的逻辑大小。
  2. 获取文件所在文件系统的分配块大小。
  3. 根据逻辑大小和块大小计算实际占用的块数,并乘以块大小。

核心函数实现

以下是一个用于计算常规文件在磁盘上实际占用空间的 Python 函数:

Favird No-Code Tools
Favird No-Code Tools

无代码工具的聚合器

下载
import os
import stat

def size_on_disk(path: str) -> int:
    """
    计算常规文件在磁盘上的实际占用空间(Size on Disk)。

    Args:
        path (str): 文件的路径。

    Returns:
        int: 文件在磁盘上的实际占用字节数。

    Raises:
        NotImplementedError: 如果路径不是常规文件(例如目录、符号链接)。
    """
    # 1. 获取文件状态信息
    st = os.lstat(path)

    # 2. 检查文件类型:仅支持常规文件
    if not stat.S_ISREG(st.st_mode):
        raise NotImplementedError(f"路径 '{path}' 不是常规文件,此函数仅支持常规文件。")

    # 3. 获取文件系统状态信息,以获取块大小
    # f_frsize 是文件系统分配单元(fragment size),通常等同于块大小
    st_vfs = os.statvfs(path)
    block_size = st_vfs.f_frsize

    # 4. 计算文件占用的块数
    # divmod(a, b) 返回 (a // b, a % b)
    n_blocks, rem_bytes = divmod(st.st_size, block_size)

    # 如果有余数,说明文件内容需要额外一个块来存储
    # bool(rem_bytes) 在 rem_bytes > 0 时为 True (转换为 1),否则为 False (转换为 0)
    total_blocks = n_blocks + bool(rem_bytes)

    # 5. 计算实际磁盘占用大小
    return total_blocks * block_size

代码解析:

  • os.lstat(path):获取文件的状态信息。st.st_size 提供了文件的逻辑大小(字节数)。
  • stat.S_ISREG(st.st_mode):判断文件是否为常规文件。此函数设计上只处理常规文件。
  • os.statvfs(path):获取文件所在文件系统的状态信息。st_vfs.f_frsize 返回文件系统分配单元的大小,这通常就是我们所说的块大小(Block Size)。
  • divmod(st.st_size, block_size):计算文件逻辑大小能完整包含多少个块 (n_blocks),以及剩余的字节数 (rem_bytes)。
  • n_blocks + bool(rem_bytes):如果 rem_bytes 大于 0,表示文件内容需要额外的半个或一个块来存储,因此总块数需要加 1(bool(rem_bytes) 会将非零值转换为 True,再转换为整数 1)。
  • 最终结果是 total_blocks * block_size,即文件在磁盘上实际占用的字节数。

重要的限制与注意事项

在使用上述函数时,请务必注意以下限制和行为:

  • 文件类型限制:此函数仅适用于常规文件。它不能直接计算目录、符号链接、管道文件或设备文件等在磁盘上的占用。要计算目录的实际占用,您需要递归遍历目录下的所有常规文件,并累加它们的 size_on_disk。
  • 操作系统兼容性:此实现主要针对 Linux、Unix 或 macOS 等类 Unix 系统。os.statvfs 在 Windows 上不可用。
  • 计算范围:此函数计算的是文件内容数据在磁盘上占用的空间。它不包括文件名、目录条目、inode本身或其他文件系统元数据所占用的空间。
  • 空文件处理:当文件逻辑大小 (st.st_size) 为 0 时,上述函数会返回 0。然而,大多数文件系统即使对于空文件也会分配一个完整的块来存储其元数据。这意味着,此函数对于空文件的计算结果可能与文件系统的实际行为存在差异。在需要极其精确的场景下,这一点需要特别注意。

性能优化:缓存文件系统信息

os.statvfs() 调用会查询文件系统,这可能是一个相对耗时的操作。如果您的程序需要对同一卷(磁盘分区)上的大量文件重复调用 size_on_disk 函数,可以考虑缓存 os.statvfs 的结果,以避免重复查询。

文件系统设备 ID (st.st_dev) 可以作为缓存键,因为同一设备上的所有文件共享相同的 statvfs 信息。

import os
import stat

# 全局缓存字典,用于存储文件系统设备ID到statvfs对象的映射
STATVFS_CACHE = {}

def size_on_disk_cached(path: str) -> int:
    """
    计算常规文件在磁盘上的实际占用空间(Size on Disk),并缓存文件系统信息以提高性能。

    Args:
        path (str): 文件的路径。

    Returns:
        int: 文件在磁盘上的实际占用字节数。

    Raises:
        NotImplementedError: 如果路径不是常规文件。
    """
    st = os.lstat(path)

    if not stat.S_ISREG(st.st_mode):
        raise NotImplementedError(f"路径 '{path}' 不是常规文件,此函数仅支持常规文件。")

    # 使用文件的设备ID作为缓存键
    # 如果缓存中不存在,则调用 os.statvfs 并存储结果
    if not (st_vfs := STATVFS_CACHE.get(st.st_dev)):
        STATVFS_CACHE[st.st_dev] = (st_vfs := os.statvfs(path))

    block_size = st_vfs.f_frsize
    n_blocks, rem_bytes = divmod(st.st_size, block_size)
    return (n_blocks + bool(rem_bytes)) * block_size

通过使用 STATVFS_CACHE 字典,当函数被多次调用处理位于同一文件系统(即具有相同 st.st_dev)的文件时,os.statvfs 将只被调用一次,显著提高了性能。

总结

本文提供了一种使用 Python 准确计算常规文件在类 Unix 系统上“磁盘占用大小”的方法。通过理解文件系统块分配机制,并结合 os.lstat 和 os.statvfs,我们可以得到比文件逻辑大小更真实的磁盘占用估算。虽然该方法存在特定限制(如仅限于常规文件、类 Unix 系统、不包含所有元数据),但对于需要精确空间预估的场景(如创建磁盘镜像)而言,它提供了一个实用且高效的解决方案。在实际应用中,尤其是在处理大量文件时,利用缓存机制可以进一步优化性能。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1496

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1170

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

835

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

463

2023.08.02

windows无法访问共享电脑
windows无法访问共享电脑

在现代社会中,共享电脑是办公室和家庭的重要组成部分。然而,有时我们可能会遇到Windows无法访问共享电脑的问题。这个问题可能会导致数据无法共享,影响工作和生活的正常进行。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

2361

2023.08.08

windows自动更新
windows自动更新

Windows操作系统的自动更新功能可以确保系统及时获取最新的补丁和安全更新,以提高系统的稳定性和安全性。然而,有时候我们可能希望暂时或永久地关闭Windows的自动更新功能。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

874

2023.08.10

windows boot manager
windows boot manager

windows boot manager无法开机的解决方法:1、系统文件损坏,使用Windows安装光盘或USB启动盘进入恢复环境,选择修复计算机,然后选择自动修复;2、引导顺序错误,进入恢复环境,选择命令提示符,输入命令"bootrec /fixboot"和"bootrec /fixmbr",然后重新启动计算机;3、硬件问题,使用硬盘检测工具进行扫描和修复;4、重装操作系统。本专题还提供其他解决

1976

2023.08.28

windows锁屏快捷键
windows锁屏快捷键

windows锁屏快捷键是Windows键+L、Ctrl+Alt+Del、Windows键+D、Windows键+P和Windows键+R。本专题为大家提供windows相关的文章、下载、课程内容,供大家免费下载体验。

1670

2023.08.30

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.5万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号