0

0

如何高效下载并保存大型 JSON 文件(约 300 MB)到本地

霞舞

霞舞

发布时间:2026-02-22 10:22:17

|

948人浏览过

|

来源于php中文网

原创

如何高效下载并保存大型 JSON 文件(约 300 MB)到本地

本文详解在 Java 8 环境下,安全、稳定地下载并持久化超大 JSON 文件(如 MTGJSON 的 AllPrintings.json)的两种主流方案:纯 Java NIO 流式直写与 curl 进程调用,重点解决 403 错误、内存溢出、进程挂起及不完整写入等常见问题。

本文详解在 java 8 环境下,安全、稳定地下载并持久化超大 json 文件(如 mtgjson 的 allprintings.json)的两种主流方案:纯 java nio 流式直写与 `curl` 进程调用,重点解决 403 错误、内存溢出、进程挂起及不完整写入等常见问题。

在处理像 https://www.php.cn/link/d281706a315b6f8c5854acc72059b2d0 这类体积达 ~300 MB 的单体 JSON 文件时,常见的 BufferedReader.readLine() 方式不仅低效,还会因内存压力和换行符缺失导致崩溃;而直接使用 InputStreamReader 强制字符解码更会引入编码歧义与性能损耗。核心原则是:避免将整个响应体加载进内存,也不做无意义的字符流转换,而是以字节流方式直接落盘。

✅ 推荐方案一:Java NIO Files.copy()(简洁、健壮、零依赖)

这是最符合 Java 8 最佳实践的原生方案。它绕过所有字符编码层,直接以二进制流将 HTTP 响应写入文件,既高效又可靠:

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public class MtgJsonDownloader {
    public static void main(String[] args) throws IOException, InterruptedException {
        String urlString = "https://www.php.cn/link/d281706a315b6f8c5854acc72059b2d0";
        URL url = new URL(urlString);
        HttpURLConnection conn = (HttpURLConnection) url.openConnection();

        // 关键:添加 User-Agent,规避 403 Forbidden(服务器拒绝无标识请求)
        conn.setRequestProperty("User-Agent", "Java-MtgJson-Downloader/1.0");

        // 可选:设置超时(防止无限等待)
        conn.setConnectTimeout(30_000);
        conn.setReadTimeout(300_000); // 5 分钟读取超时,适应大文件

        int responseCode = conn.getResponseCode();
        if (responseCode != HttpURLConnection.HTTP_OK) {
            throw new IOException("HTTP error: " + responseCode + " for " + urlString);
        }

        Path outputFile = Paths.get("AllPrintings.json");
        Files.copy(conn.getInputStream(), outputFile);
        System.out.printf("✅ Download completed: %,d bytes saved to %s%n", 
                          Files.size(outputFile), outputFile.toAbsolutePath());
    }
}

⚠️ 关键注意事项

  • 必须设置 User-Agent:MTGJSON API 明确要求客户端提供有效 UA,否则返回 403 Forbidden —— 这正是你原始报错的根本原因;
  • 禁用 BufferedReader / InputStreamReader:该文件为纯 UTF-8 二进制 JSON,无需逐行解析或字符解码,Files.copy() 是最轻量、最安全的字节级复制;
  • 显式检查响应码:避免静默失败(如重定向未处理、服务端错误等);
  • 合理设置超时:大文件下载耗时长,setReadTimeout() 应设为数分钟级别。

✅ 推荐方案二:ProcessBuilder 调用 curl(兼容性强,适合复杂网络环境)

当 Java 内置 HTTP 客户端受限于代理、TLS 版本或证书策略时,复用系统 curl 是成熟可靠的备选。但需严格遵循进程控制规范:

Calliper 文档对比神器
Calliper 文档对比神器

文档内容对比神器

下载
import java.io.File;
import java.io.IOException;
import java.util.concurrent.TimeUnit;

public class CurlDownloader {
    public static void main(String[] args) throws IOException, InterruptedException {
        String url = "https://www.php.cn/link/d281706a315b6f8c5854acc72059b2d0";
        String[] command = {"curl", "-L", "--fail", "--show-error", url}; // -L 支持重定向,--fail 非2xx返回非零码

        ProcessBuilder pb = new ProcessBuilder(command);
        pb.redirectOutput(new File("AllPrintings.json"));
        pb.inheritIO(); // ✅ 关键!将 curl 的 stdout/stderr 继承到 JVM 控制台,避免子进程阻塞

        Process process = pb.start();
        boolean finished = process.waitFor(10, TimeUnit.MINUTES); // 设置最大等待时间
        if (!finished) {
            process.destroyForcibly();
            throw new RuntimeException("curl timeout after 10 minutes");
        }
        if (process.exitValue() != 0) {
            throw new RuntimeException("curl failed with exit code: " + process.exitValue());
        }
        System.out.println("✅ curl download completed successfully.");
    }
}

⚠️ 关键改进点

  • 使用 pb.inheritIO() 替代手动重定向 stdout/stderr,确保 curl 输出不被缓冲挂起;
  • 添加 -L(跟随重定向)、--fail(非成功状态码触发异常)、--show-error(错误时输出详情)提升健壮性;
  • 使用 waitFor(timeout) 防止无限阻塞,并配合 destroyForcibly() 实现超时熔断;
  • 切勿使用 process.isAlive() + Thread.sleep() 轮询 —— 这是资源浪费且易出竞态的反模式。

? 总结与选型建议

方案 优势 适用场景
Java NIO Files.copy() 零外部依赖、可控性强、内存占用恒定( 默认首选,尤其在受控服务器或 CI 环境中
curl + ProcessBuilder 复用成熟 HTTP 栈、自动处理 TLS/Proxy/Redirect、调试信息丰富 企业内网、复杂代理环境、或需与 shell 脚本集成时

无论采用哪种方式,请始终:

  • 将下载目标明确指定为 文件路径而非内存字符串
  • 对网络 I/O 操作添加超时与异常兜底;
  • 在生产代码中加入日志与文件校验(如 SHA-256)以保障数据完整性。

完成下载后,可使用 Jackson 或 Gson 的流式 API(JsonParser / JsonReader)进行增量解析,彻底规避 OOM 风险——这才是处理 300 MB JSON 的正确打开方式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

443

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

322

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

182

2023.10.30

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

371

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

340

2023.10.25

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1030

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 9.5万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号