JNI DirectByteBuffer 数据免复制上传 S3 的高效策略

DDD

发布时间：2025-09-21 20:36:00

948人浏览过

来源于php中文网

原创

JNI DirectByteBuffer 数据免复制上传 S3 的高效策略

本教程旨在解决Java应用中，通过JNI从共享内存获取的DirectByteBuffer数据上传至S3时，避免不必要的JVM堆内存复制问题。我们将介绍如何通过实现自定义的ByteSource和ByteBufferInputStream，直接将DirectByteBuffer中的数据流式传输至S3，从而提升性能并减少内存开销。此方法特别适用于处理大容量非堆内存数据，实现高效的数据传输。

1. JNI DirectByteBuffer 与 S3 上传的挑战

在高性能java应用中，尤其是在与c++等原生代码进行数据交互时，directbytebuffer（直接缓冲区）是管理非堆内存的常用机制。通过jni（java native interface），java程序可以获取并操作直接映射到共享内存的directbytebuffer，从而实现java与c++进程间的高效数据共享，避免数据在jvm堆与非堆之间的来回复制。

例如，一个典型的JNI函数可能如下所示，它将一个C++共享内存地址映射为一个Java DirectByteBuffer：

JNIEXPORT jobject JNICALL Java_service_SharedMemoryJNIService_getDirectByteBuffer
  (JNIEnv *env, jclass jobject, jlong buf_addr, jint buf_len){
        return env->NewDirectByteBuffer((void *)buf_addr, buf_len);
  }

当我们需要将这个DirectByteBuffer中的数据上传到Amazon S3等云存储服务时，传统的做法往往会引入不必要的内存复制。

2. 传统上传方案的局限性

许多云存储客户端库（例如jclouds的早期版本或某些简化API）在处理数据上传时，倾向于接收一个字节数组（byte[]）作为数据源。这意味着，如果我们的数据存储在DirectByteBuffer中，就必须先将其内容复制到JVM堆上的一个byte[]数组中，然后再进行上传。

以下是一个典型的传统上传代码示例，它展示了这种内存复制：

import org.jclouds.blobstore.BlobStore;
import org.jclouds.blobstore.BlobStoreContext;
import org.jclouds.blobstore.domain.Blob;
import org.jclouds.io.payloads.ByteArrayPayload;

import java.nio.ByteBuffer;

public class S3Uploader {

    // 假设 getBlobStoreContext() 方法已存在并返回 BlobStoreContext 实例
    private BlobStoreContext getBlobStoreContext() {
        // ... 返回 BlobStoreContext 实例
        return null;
    }

    public String uploadByteBuffer(String container, String objectKey, ByteBuffer bb) {
        BlobStoreContext context = getBlobStoreContext();
        BlobStore blobStore = context.getBlobStore();

        // 问题所在：将 DirectByteBuffer 的内容复制到 JVM 堆内存中的 byte[]
        byte[] buf = new byte[bb.capacity()];
        bb.get(buf); // 这一步产生了不必要的内存复制

        ByteArrayPayload payload = new ByteArrayPayload(buf);
        Blob blob = blobStore.blobBuilder(objectKey)
                .payload(payload)
                .contentLength(bb.capacity())
                .build();
        blobStore.putBlob(container, blob);
        return objectKey;
    }
}

对于小文件而言，这种复制的开销可能不明显。然而，当处理大容量数据（如50MB甚至更大）时，将DirectByteBuffer中的数据完整复制到JVM堆内存中，会带来显著的性能下降和内存压力：

内存消耗翻倍： 数据在非堆内存和JVM堆内存中各存在一份，增加了总内存占用。
垃圾回收负担： 堆内存中的byte[]会成为GC（Garbage Collection）的负担，尤其是在高并发或连续上传场景下。
CPU开销： 复制操作本身需要CPU时间，降低了数据处理效率。

3. 优化方案：基于 ByteSource 的免复制上传

为了避免上述问题，我们可以利用jclouds等库提供的更灵活的数据源抽象——com.google.common.io.ByteSource。ByteSource是一个Guava库提供的接口，它代表一个可以提供字节流的数据源。通过实现自定义的ByteSource，我们可以直接从DirectByteBuffer中读取数据，并将其封装成InputStream，从而实现数据的流式传输，避免一次性加载到堆内存。

CodeBuddy

腾讯云AI代码助手

下载

核心思想是创建一个ByteSource的实现类，其中openStream()方法返回一个能够直接从DirectByteBuffer读取数据的InputStream。

4. 实现 ByteBufferByteSource

我们需要创建两个类：一个继承自ByteSource的ByteBufferByteSource，以及一个作为其内部类的InputStream实现ByteBufferInputStream。

import com.google.common.base.Preconditions; // 用于参数检查，如果Guava未引入，可替换为普通null检查
import com.google.common.io.ByteSource;

import java.io.IOException;
import java.io.InputStream;
import java.nio.BufferUnderflowException;
import java.nio.ByteBuffer;

/**
 * 一个 ByteSource 实现，用于直接从 ByteBuffer 读取数据。
 * 这避免了在上传 DirectByteBuffer 数据时将其复制到堆内存字节数组。
 */
public class ByteBufferByteSource extends ByteSource {
    private final ByteBuffer buffer; // 原始缓冲区，通常是一个 DirectByteBuffer

    /**
     * 构造一个 ByteBufferByteSource 实例。
     * 提供的 ByteBuffer 应该处于可读状态（例如，数据写入后可能已执行 flip() 操作）。
     *
     * @param buffer 要读取的 ByteBuffer。不能为 null。
     */
    public ByteBufferByteSource(ByteBuffer buffer) {
        this.buffer = Preconditions.checkNotNull(buffer, "ByteBuffer 不能为空");
    }

    @Override
    public InputStream openStream() {
        // 创建缓冲区的副本，以确保对原始缓冲区的后续操作或对 openStream() 的多次调用
        // 不会干扰此流的当前位置。副本与原始缓冲区共享底层数据，但拥有独立的 position、limit 和 mark。
        return new ByteBufferInputStream(buffer.duplicate());
    }

    /**
     * 一个 InputStream 实现，用于直接从 ByteBuffer 读取数据。
     */
    private static final class ByteBufferInputStream extends InputStream {
        private final ByteBuffer buffer;
        private boolean closed = false;

        ByteBufferInputStream(ByteBuffer buffer) {
            this.buffer = buffer;
        }

        @Override
        public synchronized int read() throws IOException {
            if (closed) {
                throw new IOException("流已关闭");
            }
            if (!buffer.hasRemaining()) {
                return -1; // 流结束
            }
            try {
                // 读取单个字节并将其作为整数返回 (0-255)。
                // & 0xFF 确保字节被视为无符号整数。
                return buffer.get() & 0xFF;
            } catch (BufferUnderflowException bue) {
                // 理论上在检查 hasRemaining() 后不应发生，但作为安全措施。
                return -1;
            }
        }

        @Override
        public synchronized int read(byte[] b, int off, int len) throws IOException {
            if (closed) {
                throw new IOException("流已关闭");
            }
            if (b == null) {
                throw new NullPointerException("缓冲区 'b' 不能为 null");
            }
            if (off < 0 || len < 0 || len > b.length - off) {
                throw new IndexOutOfBoundsException(
                        String.format("无效的读取参数: b.length=%d, off=%d, len=%d", b.length, off, len));
            }
            if (len == 0) {
                return 0; // 没有字节需要读取
            }

            int bytesToRead = Math.min(len, buffer.remaining());
            if (bytesToRead == 0) {
                return -1; // 流结束
            }

            // 直接将数据读取到提供的字节数组中。
            buffer.get(b, off, bytesToRead);
            return bytesToRead;
        }

        @Override
        public void close() throws IOException {
            super.close();
            closed = true;
            // 底层 ByteBuffer 不在此处关闭，因为其生命周期由外部管理。
            // 它是共享内存的一个视图，因此关闭它是不合适的。
        }
    }
}

代码说明：

ByteBufferByteSource 构造函数接收一个 ByteBuffer 实例。openStream() 方法返回一个 ByteBufferInputStream 实例，它内部持有一个 ByteBuffer 的副本。使用副本是为了保护原始 ByteBuffer 的状态，允许在不同流操作中独立管理读取位置。
ByteBufferInputStream 实现了 InputStream 接口。
read() 方法每次读取一个字节，并返回其无符号整数值。
read(byte[] b, int off, int len) 方法是效率的关键。它允许批量读取数据到目标字节数组，避免了单字节读取的开销，显著提升了IO性能。
close() 方法仅标记流为已关闭，但不会关闭底层的 ByteBuffer，因为 DirectByteBuffer 通常管理的是共享内存，其生命周期独立于Java流。

5. 如何使用自定义 ByteSource 上传 S3

有了 ByteBufferByteSource 类，我们就可以修改上传逻辑，直接使用它来创建 Blob，从而避免中间的堆内存复制。

import org.jclouds.blobstore.BlobStore;
import org.jclouds.blobstore.BlobStoreContext;
import org.jclouds.blobstore.domain.Blob;

import java.nio.ByteBuffer;

public class OptimizedS3Uploader {

    // 假设 getBlobStoreContext() 方法已存在并返回 BlobStoreContext 实例
    private BlobStoreContext getBlobStoreContext() {
        // ... 返回 BlobStoreContext 实例
        return null;
    }

    /**
     * 将 DirectByteBuffer 中的数据直接上传到 S3，避免中间的堆内存复制。
     *
     * @param container      S3 存储桶名称
     * @param objectKey      S3 对象键
     * @param directByteBuffer 包含待上传数据的 DirectByteBuffer
     * @return 上传的 S3 对象键
     */
    public String uploadDirectByteBufferToS3(String container, String objectKey, ByteBuffer directByteBuffer) {
        BlobStoreContext context = getBlobStoreContext();
        BlobStore blobStore = context.getBlobStore();

        // 从 DirectByteBuffer 创建自定义的 ByteSource
        ByteBufferByteSource byteSource = new ByteBufferByteSource(directByteBuffer);

        // 使用 ByteSource 作为 payload，避免数据复制
        Blob blob

JSON 无法正确反序列化为 Java POJO 对象的常见原因及解决方案

如何在函数中动态创建并管理多个类实例以实现跨调用数据比较

如何在 macOS 上正确运行 Java TCP 服务器/客户端通信程序

Java中调用自定义栈底插入方法的正确方式

JSON 数据无法正确反序列化为 Java POJO 对象