SQL Hudi 的 MOR vs COW 表类型与 upsert / delete 性能对比

冰川箭仙

发布时间：2026-02-23 21:14:56

908人浏览过

来源于php中文网

原创

mor表适合写入频繁、更新/删除量大且能接受查询稍慢的场景；它通过追加日志实现快速upsert/delete，但查询需实时合并base与log，导致io和cpu压力大、延迟抖动明显。

sql hudi 的 mor vs cow 表类型与 upsert / delete 性能对比

什么时候该选 MOR 表而不是 COW

MOR（Merge-On-Read）表适合写入频繁、更新/删除量大、且能接受查询稍慢的场景。它把新数据先写进 log 文件，不立刻合并，所以 upsert 和 delete 操作非常快——基本就是追加写日志，没重写开销。

但代价是：每次 SELECT 都得实时合并 base（Parquet）和最新 log，IO 和 CPU 压力明显上升，尤其当 log 文件多或大时，查询延迟抖动明显。

适用：实时数仓中高频小批量更新（比如用户行为状态变更、订单状态流转）
不适用：对查询延迟敏感、且更新不密集的报表类场景
注意：hoodie.compact.inline 默认关闭，不手动触发压缩的话，log 会越积越多，SELECT 越来越慢

COW 表的 upsert / delete 实际开销在哪

COW（Copy-On-Write）表每次 upsert 或 delete 都会重写整个受影响的文件组（file group），也就是读旧 Parquet + 应用变更 + 写新 Parquet。这意味着：

写放大严重：1 行更新可能触发 MB 级 Parquet 重写
并发写容易冲突：HoodieWriteConfig.UPSERT_OPERATION_OPT_KEY 下多个任务同时改同一文件组会失败回退
delete 不是逻辑标记，而是物理移除 —— 所以必须走完整重写流程，无法跳过
好处是：查得快、稳定，因为数据永远是“干净”的 Parquet，无运行时合并

典型错误现象：HoodieIOException: Failed to commit ... because file group X is locked，本质就是 COW 并发写争抢太猛。

Dreamina

字节跳动推出的AI绘画工具，用简单的文案创作精美的图片

下载

MOR 的 delete 为什么比 COW 更“轻”，但又更难预测

MOR 的 delete 只是往对应 log 文件里追加一条 DELETE 标记记录，不碰 base 文件，所以瞬时完成。但它的真实效果要等下一次压缩（compaction）或查询时合并才体现。

未压缩前，SELECT 仍可能返回被删行（取决于查询是否启用 hoodie.datasource.query.type=realtime）
如果长期不 compact，log 中 delete 标记堆积，反而拖慢后续所有查询
hoodie.cleaner.policy=KEEP_LATEST_FILE_VERSIONS 不会清理带 delete 标记的 log，必须靠 compaction 合并后 clean 才真正释放空间

换句话说：MOR 的 delete 是“懒删除”，快是快，但不 compact 就等于没删干净。

实测性能差异的关键变量其实是这些

别只看文档说“MOR 写快查慢”，真实差距取决于三个硬参数：

hoodie.parquet.max.file.size：设得太小 → COW 小文件爆炸，写更慢；MOR log 文件变多 → 查询更卡
hoodie.compact.inline.max.delta.commits：MOR 不设这个，compact 就不会自动触发，log 无限膨胀
集群 shuffle 资源：MOR 查询合并阶段大量依赖 Spark shuffle，spark.sql.adaptive.enabled=true 对它帮助有限，反而是 spark.sql.adaptive.coalescePartitions.enabled 更关键

最常被忽略的一点：MOR 表在 Flink SQL 下默认用 read_optimized 模式查，根本看不到最新 log —— 得显式指定 read_mode = 'realtime'，否则你测的压根不是 MOR 的真实查询延迟。

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

sql select 堆 copy delete 并发 spark flink

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 数据库基础查询实战指南下一篇：SQL 触发器日志与审计实现技巧

作者最新文章

Windows蓝屏图片 Windows蓝屏界面说明与解析

2026-02-22 11:28

GitHub 项目怎么部署？GitHub 项目上线流程教程

2026-02-22 11:40

mc.js网页版mc最佳中文版_MCJS网页版MC最佳中文优化版秒玩入口

2026-02-22 12:20

Linux Samba 文件共享权限控制

2026-02-22 12:54

SQL 唯一约束 vs 唯一索引的错误消息与性能差异实践

2026-02-22 13:16

GitHub 文件有镜像吗？GitHub 文件镜像站使用说明

2026-02-22 13:30

微信电脑版手机扫描后登录不了微信电脑版扫码无法确认

2026-02-22 13:45

Linux AppArmor 配置与应用

2026-02-22 13:54

腾讯会议视频隐藏了怎么调出来

2026-02-22 14:02

GitHub 上有哪些大模型项目？GitHub 大模型项目推荐与学习指南

2026-02-22 14:21

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1026

2023.10.12