0

0

如何在 Java 中压缩 MultipartFile 并准确获取压缩后字节大小

聖光之護

聖光之護

发布时间:2026-02-03 18:20:03

|

566人浏览过

|

来源于php中文网

原创

如何在 Java 中压缩 MultipartFile 并准确获取压缩后字节大小

本文介绍如何将 spring 的 `multipartfile` 流式压缩为 gzip 格式,并**可靠获取压缩后的精确字节数**,避免依赖未明确文档化的 api 行为(如 `ioutils.copylarge` 返回值语义模糊),推荐使用临时文件或内存缓冲的健壮方案。

在实际开发中(例如微服务间传输大文件、日志归档、API 响应压缩等场景),我们常需对 MultipartFile 进行 GZIP 压缩后再发送,同时必须提前知道压缩后的数据长度——这通常用于设置 HTTP Content-Length 头、校验完整性,或对接要求预知 payload 大小的第三方系统。

但直接使用 OutputStream.nullOutputStream()(如问题中所示)无法回溯数据,因为该流会丢弃所有写入内容;而 IOUtils.copyLarge() 的返回值虽常被误认为“压缩后字节数”,但其 Javadoc 仅说明 “returns the number of bytes copied”,并未明确是“读取字节数”还是“写入字节数”。实测发现:它返回的是输入流读取的原始字节数(即未压缩大小),而非 GZIP 压缩后的实际输出字节数。因此该方法不可靠,不应作为压缩尺寸依据。

✅ 推荐方案:使用 ByteArrayOutputStream 缓存压缩结果(适用于中小文件,内存可控)

import org.springframework.web.multipart.MultipartFile;
import java.io.*;
import java.util.zip.GZIPOutputStream;

public byte[] compressToGzipBytes(MultipartFile file) throws IOException {
    try (InputStream is = file.getInputStream();
         ByteArrayOutputStream baos = new ByteArrayOutputStream();
         GZIPOutputStream gzos = new GZIPOutputStream(baos)) {

        IOUtils.copyLarge(is, gzos); // 此处 copyLarge 写入的是压缩数据到 baos
        gzos.finish(); // 必须调用 finish() 确保 gzip trailer 写入
        return baos.toByteArray();
    }
}

// 使用示例
byte[] compressedBytes = compressToGzipBytes(file);
int compressedSize = compressedBytes.length; // ✅ 精确、可靠
InputStream compressedInputStream = new ByteArrayInputStream(compressedBytes);

sendCompressed(compressedInputStream, compressedSize);

⚠️ 注意事项:

立即学习Java免费学习笔记(深入)”;

Musico
Musico

Musico 是一个AI驱动的软件引擎,可以生成音乐。 它可以对手势、动作、代码或其他声音做出反应。

下载
  • GZIPOutputStream 必须显式调用 .finish()(而非仅 close()),否则可能遗漏 gzip 尾部校验信息(如 CRC32、ISIZE),导致解压失败;
  • ByteArrayOutputStream 将全部压缩数据暂存于堆内存,若文件原始体积过大(如 >50MB),需评估 JVM 内存压力,此时应改用临时文件方案
  • 若必须流式处理(如超大文件 + 限内存),可借助 PipedInputStream/PipedOutputStream,但需额外线程协调,复杂度显著上升,一般不推荐。

? 替代方案:使用临时文件(适用于大文件、内存敏感场景)

import java.nio.file.*;

Path tempFile = Files.createTempFile("gzip_", ".tmp");
try (InputStream is = file.getInputStream();
     OutputStream os = Files.newOutputStream(tempFile);
     GZIPOutputStream gzos = new GZIPOutputStream(os)) {

    IOUtils.copyLarge(is, gzos);
    gzos.finish();
}

long compressedSize = Files.size(tempFile); // ✅ 文件系统级精确大小
InputStream compressedInputStream = Files.newInputStream(tempFile);

// 记得在 sendCompressed 完成后清理:Files.deleteIfExists(tempFile);

? 总结:

  • ❌ 避免 nullOutputStream() + copyLarge() 返回值推断压缩大小(行为未保证,易出错);
  • ✅ 优先选用 ByteArrayOutputStream + toByteArray().length(简洁、高效、适合多数场景);
  • ✅ 超大文件时切换至 Files.createTempFile(),通过 Files.size() 获取磁盘上真实压缩体积;
  • ⚠️ 始终调用 GZIPOutputStream.finish(),确保 gzip 数据结构完整。

这样即可在保证正确性的同时,灵活适配不同规模的文件压缩与尺寸感知需求。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
spring框架介绍
spring框架介绍

本专题整合了spring框架相关内容,想了解更多详细内容,请阅读专题下面的文章。

117

2025.08.06

Java Spring Security 与认证授权
Java Spring Security 与认证授权

本专题系统讲解 Java Spring Security 框架在认证与授权中的应用,涵盖用户身份验证、权限控制、JWT与OAuth2实现、跨站请求伪造(CSRF)防护、会话管理与安全漏洞防范。通过实际项目案例,帮助学习者掌握如何 使用 Spring Security 实现高安全性认证与授权机制,提升 Web 应用的安全性与用户数据保护。

69

2026.01.26

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

539

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

21

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

32

2026.01.06

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

399

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

578

2023.08.10

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

929

2023.09.19

全国统一发票查询平台入口合集
全国统一发票查询平台入口合集

本专题整合了全国统一发票查询入口地址合集,阅读专题下面的文章了解更多详细入口。

12

2026.02.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 3.2万人学习

C# 教程
C# 教程

共94课时 | 8.4万人学习

Java 教程
Java 教程

共578课时 | 56.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号