0

0

SQL Citus 的分布式表 vs 参考表 vs 本地表类型与 co-location 优化

舞姬之光

舞姬之光

发布时间:2026-02-25 18:31:30

|

337人浏览过

|

来源于php中文网

原创

该用 citus_table_type = 'distributed' 当主业务表数据量大(>百万行)、有高基数分布列(如 user_id)、读写频繁;用 'reference' 仅当表小(

sql citus 的分布式表 vs 参考表 vs 本地表类型与 co-location 优化

什么时候该用 citus_table_type = 'distributed' 而不是 'reference'

分布式表是 Citus 水平拆分数据的默认方式,适用于写多、读多、数据量大且能按某列(distribution_column)合理切分的场景。参考表则把全量副本存到每个 worker 节点,适合小而稳、频繁 JOIN 的维表(比如 countriescurrency_codes)。

常见错误现象:ERROR: cannot execute INSERT on distributed table "orders" because distribution column "user_id" is null —— 这说明你设了分布键但插入时没提供值,或者用了 NULL;而参考表不会报这个错,但它会在每个节点复制整张表,插入 1 行 = 写 N 个节点。

  • 选分布式表:主业务表(如 ordersevents),行数 > 百万,有明确高基数分布列(如 tenant_iduser_id
  • 选参考表:小于 10MB、更新极少、被多个分布式表高频 JOIN 的表(如 product_categories
  • 别误用参考表替代分区逻辑:它不解决单表膨胀,只解决广播 JOIN 开销;一旦表变大或更新频繁,会拖慢所有 DML

citus_create_reference_table()citus_create_distributed_table() 的参数差异

两个函数看着像兄弟,但行为完全不同:citus_create_reference_table() 只接受表名,不支持分布键或分片数;citus_create_distributed_table() 必须指定 distribution_column,还能选 colocate_withshard_count

容易踩的坑:citus_create_reference_table('users') 成功后,再对 users 执行 citus_create_distributed_table() 会报错 ERROR: relation "users" is already a citus table —— Citus 不允许二次转换类型,得先 SELECT citus_drop_all_shards('users') 清理元数据(注意:这不删数据,但需手动 DROP TABLE)。

  • citus_create_reference_table():无参数可选,隐式使用 replication_factor = number_of_workers
  • citus_create_distributed_table()distribution_column 必填;colocate_with 建议显式指定,否则可能触发默认 co-location group 创建,导致后续 JOIN 无法下推
  • 如果漏写 colocate_with,Citus 会建新 group,哪怕你两表都按 tenant_id 分布,JOIN 仍走 coordinator 汇总,性能断崖下跌

co-location group 不匹配导致 JOIN 变慢的真实表现

当你看到 EXPLAIN 输出里出现 Remote Subquery Scan on worker_1, worker_2 + 大量 Hash Join 在 coordinator 上执行,基本就是 co-location 失效了。Citus 只有在两表分布键相同、分片数一致、且属于同一 co-location group 时,才把 JOIN 下推到 worker 节点本地执行。

AI Background Remover
AI Background Remover

AI背景移除工具,免费使用

下载

典型场景:先建了 orders(按 tenant_id 分布),再建 order_items 却没指定 colocate_with => 'orders',即使你也用 tenant_id 作分布键,Citus 也会新建 group,JOIN 就回退成 coordinator 收集+合并模式。

  • 检查 co-location:SELECT table_name, colocation_id FROM citus_tables WHERE table_name IN ('orders', 'order_items'); —— ID 不同即未共置
  • 修复方法不是 ALTER,而是重建:DROP TABLE order_items; CREATE TABLE ...; SELECT citus_create_distributed_table('order_items', 'tenant_id', colocate_with => 'orders');
  • 分片数差异也会破坏 co-location:比如 orders 用默认 shard_count = 32,而 order_items 显式设为 shard_count = 16,即使 colocate_with 正确,group ID 也不同

本地表(non-Citus 表)在 Citus 集群里的实际定位

本地表就是普通 PostgreSQL 表,Citus 完全不管理它:不分片、不复制、不参与任何分布式查询优化。它只存在于 coordinator 节点,worker 上没有数据也没有元数据记录。

使用场景很窄:临时中间结果(CREATE TEMP TABLE)、纯 coordinator 侧配置表(如 app_settings)、或尚未迁移的老系统表。一旦你在 JOIN 中混用本地表和分布式表,整个查询会强制上推到 coordinator 执行,哪怕只查 1 行。

  • 不能被 citus_add_local_table_to_metadata() “骗”进分布式体系——它只是让 Citus 认出这张表存在,但依然不参与分片或 co-location
  • 想让它参与 JOIN 下推?不行。唯一办法是转成参考表(如果够小)或分布式表(如果可分片)
  • 备份恢复时容易漏掉:pg_dump 默认不导出本地表,除非显式加 --include-foreign-tables 或单独 dump coordinator 数据库

co-location 不是开关,是依赖关系网;一个表的分布策略选错,可能让周边五张表的 JOIN 全部降级。最常被忽略的是分片数隐式继承和参考表的写放大问题——它们不会立刻报错,但会在数据增长到几十 GB 后突然拖垮集群。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1027

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

337

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

379

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1842

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

377

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1415

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

437

2024.04.29

batoto漫画官网入口与网页版访问指南
batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口,涵盖最新官网地址、网页版登录页面及防走失访问方式说明,帮助用户快速找到batoto漫画官方平台,稳定在线阅读各类漫画内容。

127

2026.02.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号