0

0

Java常用压缩类库与ZipInputStream

P粉602998670

P粉602998670

发布时间:2026-01-11 12:36:09

|

992人浏览过

|

来源于php中文网

原创

应使用apache commons compress的ziparchiveinputstream并显式指定gbk等编码,或升级jdk至8u20+以支持zip64;避免用available()判断流结束,注意目录创建与路径穿越风险。

java常用压缩类库与zipinputstream

ZipInputStream读取中文文件名乱码怎么办

Java原生ZipInputStream不支持GBK、GB2312等中文编码,默认按UTF-8解码文件名,遇到老系统打包的ZIP(尤其是Windows下用WinRAR/7-Zip默认GBK)会返回?????.txt或抛IllegalArgumentException

解决思路不是“修复ZipInputStream”,而是绕过它——改用支持编码指定的第三方库,或在读取前预处理字节数组。JDK 7+ 的java.util.zip.ZipFile配合Charset参数仍不可用,真正可用的是:

  • org.apache.commons:commons-compress(推荐),其ZipArchiveInputStream允许传入Charset
  • net.sf.sevenzipjbinding(复杂,适合需要7z/LZMA场景)
  • 手动对ZipEntry.getName().getBytes(StandardCharsets.UTF_8)做编码转换(高风险,仅限已知原始编码且无特殊字符)

示例:用commons-compress读GBK编码ZIP

ZipArchiveInputStream zis = new ZipArchiveInputStream(
    new FileInputStream("test_gbk.zip"), 
    "GBK", // 显式指定编码
    true   // skipBytesForExtraField
);
ZipArchiveEntry entry;
while ((entry = zis.getNextZipEntry()) != null) {
    System.out.println(entry.getName()); // 正确输出中文名
    IOUtils.copy(zis, new FileOutputStream(entry.getName()));
}

ZipInputStream无法正确识别ZIP64扩展项

当ZIP文件中单个文件 > 4GB 或总条目数 > 65535,必须启用ZIP64格式。但JDK 6/7的ZipInputStream默认不识别ZIP64的central directory locator,会抛ZipException: invalid CEN header (invalid zip64 extra data)或直接跳过后续条目。

立即学习Java免费学习笔记(深入)”;

Dbsite企业网站管理系统1.5.0
Dbsite企业网站管理系统1.5.0

Dbsite企业网站管理系统V1.5.0 秉承"大道至简 邦达天下"的设计理念,以灵巧、简单的架构模式构建本管理系统。可根据需求可配置多种类型数据库(当前压缩包支持Access).系统是对多年企业网站设计经验的总结。特别适合于中小型企业网站建设使用。压缩包内包含通用企业网站模板一套,可以用来了解系统标签和设计网站使用。QQ技术交流群:115197646 系统特点:1.数据与页

下载

该问题在JDK 8u20+已修复,但仍有遗留环境运行旧JRE。验证方式:unzip -l broken.zip若提示zip64 end of central directory locator即为ZIP64。

  • JDK 8u20及以上:原生ZipInputStream可安全使用
  • JDK 7或更早:必须升级JRE,或改用commons-compress(从1.13起完整支持ZIP64)
  • 避免用ZipInputStream.available()判断流是否结束——它在ZIP64下始终返回0,应依赖getNextEntry() == null

ZipInputStream与ZipFile性能和资源管理差异

很多人误以为ZipInputStreamZipFile“更轻量”,其实相反:ZipInputStream是纯顺序读,无法随机访问;而ZipFile会将central directory加载进内存,支持getEntry("a/b.txt")直接定位,适合需多次查找特定文件的场景。

  • ZipInputStream:适合单次遍历、流式解压(如HTTP响应体直解)、内存受限环境
  • ZipFile:适合需随机读取、校验某几个文件、或提前获取所有条目元数据(size、time)的场景
  • ZipFile必须显式调用close(),否则底层RandomAccessFile句柄泄露;ZipInputStream也需关闭,但漏关只影响当前流
  • 二者都不支持边写边读ZIP——要生成ZIP请用ZipOutputStream

用ZipInputStream解压时跳过目录条目还是保留?

ZipInputStream读到的ZipEntry可能代表目录(entry.isDirectory() == true),也可能只是普通文件。是否创建对应目录,取决于你的业务逻辑。

  • 大多数解压工具(如unzip命令)默认创建目录结构,所以代码中应检查entry.isDirectory()mkdirs()
  • 若目标路径已存在同名文件,new File(entry.getName()).mkdirs()会静默失败,需提前delete()或跳过
  • 注意路径穿越风险:entry.getName()可能是../../etc/passwd,务必用FilenameUtils.normalize()(commons-io)或手动校验路径是否以"../"开头
  • 不要依赖entry.getSize() == 0判断目录——有些ZIP工具打空目录时会设非零size

真正的难点不在代码怎么写,而在你是否清楚这个ZIP是谁打的、用什么工具、在什么系统上、有没有隐藏属性——这些信息缺失时,光靠ZipInputStream本身无法还原原始意图。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

253

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

数据库Delete用法
数据库Delete用法

数据库Delete用法:1、删除单条记录;2、删除多条记录;3、删除所有记录;4、删除特定条件的记录。更多关于数据库Delete的内容,大家可以访问下面的文章。

287

2023.11.13

drop和delete的区别
drop和delete的区别

drop和delete的区别:1、功能与用途;2、操作对象;3、可逆性;4、空间释放;5、执行速度与效率;6、与其他命令的交互;7、影响的持久性;8、语法和执行;9、触发器与约束;10、事务处理。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

222

2023.12.29

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1473

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1167

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

834

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

461

2023.08.02

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

24

2026.03.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11万人学习

Java 教程
Java 教程

共578课时 | 79.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号