需手动解析http multipart流:先提取boundary,再用datainputstream逐行定位分段,结合bytearrayoutputstream提取字段/文件内容,检测跳过utf-8 bom,并用自定义linereader防阻塞。

如果您在使用 Apache Commons FileUpload 时希望绕过其高层 API,直接手动解析 HTTP multipart 请求流,则需要深入理解 RFC 7578 规范与原始字节边界处理逻辑。以下是实现该目标的具体步骤:
一、理解 multipart/form-data 的原始结构
multipart/form-data 请求体由定界符(boundary)分隔多个部分,每个部分包含头部(如 Content-Disposition、Content-Type)和原始内容体,末尾以特定 boundary 结束。手动解析需准确识别 boundary、跳过头部、提取字段名与文件名、区分文本字段与二进制文件数据。
1、从 HttpServletRequest 获取原始输入流:调用 request.getInputStream() 而非 getParameter() 或 getPart()。
2、读取 Content-Type 头部,提取 boundary 参数值:使用正则表达式匹配 boundary="(.*?)" 或按分号分割后解析。
3、将 boundary 构造为完整分隔行:例如 boundary 值为 "AaB03x",则起始边界为 --AaB03x,结束边界为 --AaB03x--。
二、基于 DataInputStream 实现边界定位与段落切分
使用 DataInputStream 包装原始 ServletInputStream,逐行读取并比对边界行,从而划分出各个 part 区域。该方式避免将整个请求体加载至内存,适用于大文件场景下的流式处理。
1、创建 BufferedInputStream 并包装为 DataInputStream:确保支持 mark/reset 和 readLine() 操作。
2、调用 readLine() 读取首行,验证是否为起始 boundary 行:若不匹配则抛出 IllegalArgumentException("Invalid multipart start boundary")。
3、循环读取每一行,检测到空行(CRLF CRLF)后停止读取头部,后续字节即为该 part 的内容体。
4、在内容体中持续读取直到下一个 boundary 行或结束 boundary 行出现,将中间字节缓冲为当前 part 的有效载荷。
三、使用 ByteArrayOutputStream 手动提取字段与文件内容
针对每个解析出的 part,需进一步解析其头部字段(如 name、filename、Content-Type),再将剩余字节写入 ByteArrayOutputStream,以便后续转换为字符串或字节数组进行业务处理。
1、遍历 part 头部行,查找 Content-Disposition 头部:提取 name="xxx" 与可选的 filename="yyy" 属性值。
2、若存在 filename 属性且非空,则判定为文件字段;否则为普通文本字段。
3、创建新的 ByteArrayOutputStream 实例,将当前 part 的内容体字节逐块写入其中。
4、调用 toByteArray() 获取原始数据:文本字段可进一步用指定字符集(如 UTF-8)解码为 String;文件字段则保留为 byte[] 供存储或校验。
四、利用 Apache Commons IO 的 ByteOrderMark 检测并跳过 BOM
当 multipart 中文本字段含 UTF-8 BOM(0xEF 0xBB 0xBF)时,直接解码可能导致乱码。需在写入 ByteArrayOutputStream 前检测并跳过该标记,确保文本内容准确性。
1、在读取 content body 字节前,预读三个字节到临时缓冲区。
2、判断是否等于 new byte[]{(byte)0xEF, (byte)0xBB, (byte)0xBF}:若是,则丢弃这三个字节,后续字节作为正文起点。
3、将剩余字节(包括可能存在的换行符)统一写入 ByteArrayOutputStream。
4、对最终得到的 byte[] 调用 new String(bytes, StandardCharsets.UTF_8) 完成安全解码。
五、通过自定义 LineReader 实现无阻塞边界扫描
标准 readLine() 在超长行或畸形请求下易导致阻塞或 OOM。改用基于 ByteBuffer 与 CharsetDecoder 的自定义 LineReader,可设定最大行长度限制,并在检测到非法字符序列时立即中断解析。
1、分配固定大小的 ByteBuffer(如 8192 字节),设置为 direct 或 heap 类型。
2、循环调用 channel.read(buffer) 将输入流数据填充至 buffer,每次读取后 flip 并扫描 \r\n 或 \n 位置。
3、若扫描到 boundary 行且长度未超限,则记录 position 并 compact;若超过预设阈值(如 1024 字节),抛出 IOException("Boundary line too long")。
4、将非边界行数据解码为字符串并缓存,供后续 Content-Disposition 解析使用。










