XML文件上传需绕过body-parser拦截,用skipper的.stream()获取原始流,配合sax-js事件驱动解析,避免内存溢出;同时注意Content-Type、文件名编码及错误处理。

XML文件上传时body-parser会拦截并报错
Sails.js默认使用body-parser中间件,它会自动解析application/json、application/x-www-form-urlencoded和text/*类型的请求体,但遇到application/xml或text/xml时——尤其是文件上传场景下——常抛出UnsupportedMediaTypeError或直接截断原始流。这不是Sails的bug,而是body-parser主动拒绝未声明支持的类型。
解决方法是禁用对XML内容类型的自动解析:
- 在
config/http.js中,将bodyParser配置为跳过application/xml和text/xml - 或者更稳妥地:完全移除
bodyParser中间件,改由控制器手动处理原始req流 - 注意:禁用
bodyParser后,所有req.body将为空对象,JSON/form数据也需自行解析(除非你只处理XML上传)
用skipper直接接收XML文件流
Sails内置的文件上传中间件skipper(通过req.file())默认只接受multipart/form-data,且会把整个文件读入内存再触发回调。这对大XML文件很危险——容易OOM。必须启用流式处理。
关键点:
-
req.file('xml')返回的是SkipperDisk或SkipperS3流,不是普通fs.ReadStream,但它实现了Readable接口 - 务必设置
maxBytes防止恶意超大上传 - 不要调用
.upload(),改用.stream()获取原始流
module.exports = {
uploadXml: async function (req, res) {
try {
const file = req.file('xml');
// 直接获取流,不落地磁盘
const stream = await file.stream();
// 接入XML流式解析器,如 sax-js 或 xml2js.Parser({ stream: true })
const parser = new require('sax').Parser(true);
stream.pipe(parser);
parser.on('opentag', (node) => {
console.log('tag:', node.name);
});
parser.on('error', (err) => {
return res.serverError(err.message);
});
parser.on('end', () => {
return res.ok({ status: 'parsed' });
});
} catch (err) {
res.badRequest(err.message);
}
}
};
sax-js比xml2js更适合流式XML处理
xml2js的parseString是全量解析,即使设stream: true也只是“伪流式”——它仍需收集全部文本再触发回调。sax-js才是真正的事件驱动流解析器,内存占用恒定,适合GB级XML。
注意事项:
-
sax不校验XML格式完整性,遇到损坏标签会触发error事件而非静默忽略 - 若需XPath查询或DOM操作,不能依赖
sax,得先用流写入临时文件再用libxmljs等解析 - 确保
Content-Type是application/xml或text/xml,否则skipper可能无法识别字段
上传路径中的filename乱码与编码问题
浏览器上传XML时,Content-Disposition里的filename可能含中文,而skipper默认按latin1解码,导致乱码为?????.xml。这不是XML内容问题,是HTTP头解析缺陷。
修复方式:
-
前端用
encodeURIComponent对文件名编码,并在Content-Disposition中显式声明filename*=UTF-8''... -
后端在
req.file()前,用require('iconv-lite').decode()手动重解码req.headers['content-disposition'] - 更简单方案:忽略原始文件名,用
uuid()生成唯一ID,从XML内容里提取业务标识(如)
流式处理XML的核心就两条:绕过body-parser拿到原始流,用sax边读边解析。其余都是围绕这两点打补丁——比如乱码、超大、错误恢复。别试图把XML当字符串load进内存再parse,那是最慢也最容易崩的方式。










