SQL Presto 查询优化实践

舞姬之光

发布时间：2026-02-14 20:16:02

270人浏览过

来源于php中文网

原创

presto中join条件应优先放on子句（尤其外连接），where条件用于最终过滤；小表过滤宜用显式join而非in子查询；group by高基数字段置前可防数据倾斜；cte默认不物化，需结合数据量与内存谨慎使用。

sql presto 查询优化实践

WHERE 条件写在 JOIN 里还是外面？ Presto 的执行计划对 JOIN 和 WHERE 的位置极其敏感。把过滤条件放在 `ON` 子句里（尤其是外连接）可能让结果变错，而放在 `WHERE` 里又可能拖慢速度——因为 Presto 会先完成 JOIN 再过滤。

外连接（`LEFT JOIN`）时，`ON` 中的条件只影响右表匹配逻辑；`WHERE` 中的条件会对整个结果行过滤，可能把左表本该保留的 NULL 行干掉

内连接（`INNER JOIN`）下，`ON` 和 `WHERE` 效果等价，但 Presto 更倾向把 `WHERE` 下推到扫描阶段，实际更快

如果右表有高基数字段（比如 `user_id`），在 `ON` 里加额外条件（如 `status = 'active'`）能显著减少中间数据量

示例：

SELECT a.id, b.name  
FROM orders a  
LEFT JOIN users b ON a.user_id = b.id AND b.status = 'active'  -- ✅ 减少右表参与 JOIN 的行数  
WHERE a.dt = '2024-06-01'

用 IN 还是 JOIN 做维度表过滤？当你要用一张小表（比如几十行的 `region_map`）去筛大表（比如上亿行的 `events`），别急着写 `WHERE country_code IN (SELECT code FROM region_map)`。

Presto 对子查询 `IN` 支持有限，尤其嵌套深或子查询含聚合时，容易触发 `Query exceeded distributed memory limit`

更稳的方式是显式 `JOIN` + `DISTINCT`，让 Presto 能走 broadcast join（小表自动分发到所有 worker）

如果小表超过 1MB 或行数超 10 万，Presto 可能放弃 broadcast，转为 shuffle join——这时得手动加 `/<em>+ BROADCAST(t) </em>/` 提示

要点：

小表必须真正“小”：单条记录别太宽，总大小控制在几百 KB 内
确保小表没重复键，否则 JOIN 会放大结果行数
避免 IN (VALUES (...)) 超过 1000 项，Presto 解析会变慢

GROUP BY 字段顺序影响性能吗？不影响正确性，但影响 shuffle 和内存使用。Presto 的 GROUP BY 实际依赖底层的 hash 分组机制，字段顺序决定 hash key 的构成方式。

把高基数字段（如 `user_id`）放前面，低基数字段（如 `country`）放后面，能让数据更均匀地分散到各 worker，避免 skew

反过来，如果先把 `country` 放第一位，所有中国用户全挤在一个 reducer 上，就容易触发 `Query exceeded per-node memory limit`

如果用了 `GROUPING SETS`，字段顺序还会影响最终结果集的排序稳定性（虽然 Presto 不保证默认顺序，但物理 layout 会变）

常见错误现象：

HiShop网店代理分销系统

Hishop.5.2.BETA2版主要更新： [修改] 进一步优化了首页打开速度 [修改] 美化了默认模板 [修改] 优化系统架构,程序标签及SQL查询效率,访问系统页面的速度大大提高 [修改] 采用了HTML模板机制,实现了前台模板可视化编辑,降低模板制作与修改的难度. [修改] 全新更换前后台AJAX技术框架,提升了用户操作体验. 店铺管理 [新增] 整合TQ在线客服 [修改] 后台广告位增加

下载

查询跑一半报 Exceeded memory limit，但看 profile 发现某个 worker 的 peak memory 是其他 worker 的 5 倍以上
加了 EXPLAIN (FORMAT JSON) 后发现 HashAggregationNode 的 groupingKeys 顺序和直觉相反

CTE（WITH 子句）真能提升可读性？小心物化陷阱 Presto 默认不物化 CTE，也就是每个引用都会重新执行一遍。你以为写一次 `WITH base AS (SELECT ...) SELECT * FROM base JOIN ... UNION ALL SELECT * FROM base JOIN ...` 是省事，其实是翻倍扫描。

没有 hint 的 CTE 就是个语法糖，不是临时表

如果 CTE 结果不大（/+ WITH_DATA / 强制物化（Presto 350+ 版本支持）

但物化后会占用 worker 内存，多个并发查同一个 CTE 可能互相挤占资源

使用场景判断：

CTE 里含昂贵计算（如 json_parse()、正则匹配）且被多次引用 → 值得物化
CTE 只是简单 SELECT ... FROM large_table WHERE dt = 'xxx' → 别物化，让 Presto 自己下推过滤更高效
用 EXPLAIN 看执行计划，如果同一个 TableScanNode 出现两次，说明没复用

复杂点在于：物化与否不能只看代码写法，得结合数据量、集群内存配置、并发压力一起权衡。很多人调完 CTE 发现查询变慢，回头一看是物化吃光了内存，又没开 spill。

SQL 索引选择性对查询性能影响

SQL ORDER BY 排序优化策略

SQL 索引选择性与查询优化关系

SQL 分布式数据库查询优化方法

SQL pt-online-schema-change 的 chunk-size 与 throttle 调优实践

相关标签:

优化实践 sql json NULL select format union 并发

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 动态 SQL 的 PREPARE 与参数绑定防注入实践下一篇：SQL PostgreSQL parallel_workers 设置与 CPU 核数匹配经验公式

作者最新文章

发票抽奖要满足什么条件才能抽发票抽奖是真的吗怎么参与

2026-02-13 11:09

发票抽奖没有发票代码怎么办发票抽奖怎么参加

2026-02-13 11:43

发票抽奖在哪查询发票抽奖查询官网入口网页

2026-02-13 11:45

两新补贴政策怎么领取？两新补贴攻略指南【教程】

2026-02-13 11:46

住房个税退税不同城可以退吗换购住房个税退税全指南(2026最新版

2026-02-13 11:49

IQOO手机各个型号参数一览表 IQOO全系列型号参数汇总

2026-02-13 12:04

崩坏:星穹铁道4.0最新兑换码星铁4.0免费兑换码活动入口

2026-02-13 12:05

终末地影拓丰碑攻略平民影拓丰碑全满星教程

2026-02-13 12:13

崩坏:星穹铁道4.0卡池抽取建议星铁4.0角色强度榜

2026-02-13 12:13

《明日方舟终末地》影拓丰碑第一期配队打法攻略【平民】

2026-02-13 12:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

943

2023.10.12