大字段应按访问模式合理拆分:常查询且需结构化检索的用子表,读多写少且结构松散的用JSON字段,复杂场景采用混合策略。

大字段(如长文本、JSON数据、富文本内容)直接存在主表里,容易拖慢查询、影响索引效率、增加备份与迁移成本。拆分存储不是“要不要做”,而是“怎么拆更合理”。核心看三点:字段是否常被查询、是否需要按内部结构检索、业务变更频率高不高。JSON字段适合轻量、结构松散、读多写少的场景;子表更适合需高频关联、条件过滤、事务强一致的场景。
JSON字段:简单灵活,但别滥用
把非核心、不参与WHERE或JOIN的字段打包成JSON存为TEXT或JSON类型(MySQL 5.7+ / PostgreSQL原生支持),能减少表宽度、避免频繁ALTER TABLE。比如用户配置项、日志元数据、前端表单快照。
- 用数据库原生JSON函数查嵌套字段(如MySQL的JSON_EXTRACT、PostgreSQL的->>),但性能弱于普通列,且无法直接建索引(除非生成列+索引)
- 避免在JSON里存关键业务字段(如订单状态、金额),否则无法利用约束、触发器,也难做行级权限控制
- 更新整条JSON较方便,但局部更新需先读再改再写,有并发风险;建议配合应用层乐观锁或版本号
子表设计:结构清晰,适合复杂关系
把大字段或可扩展属性独立成子表(如article_content、user_preferences),主键外键关联。适合内容需单独检索、分页、全文搜索,或字段本身有生命周期(如审核中/已发布)。
- 子表可加针对性索引(如对content字段建全文索引,或对status+created_at建联合索引)
- 支持事务一致性——例如插入主记录同时写入子表内容,失败则全部回滚
- 注意JOIN开销:高频查询主表+子表内容时,考虑是否加冗余字段(如摘要、标题)到主表,或用物化视图/缓存预热
混合策略:按访问模式分级处理
真实业务中,往往不是非此即彼。比如一篇博客:标题、作者、发布时间放主表;正文HTML存子表;而标签、阅读数、点赞状态等维度可转为JSON存在主表或独立统计表。
- 高频读取+低更新字段(如阅读数)→ 主表冗余列,配合原子更新(UPDATE SET views = views + 1)
- 结构化但变动频繁的配置 → 子表+版本号,保留历史快照
- 纯描述性、无业务逻辑的附加信息(如编辑器导出的样式JSON)→ JSON字段,降低耦合
选型判断速查表
遇到新字段,快速决策可参考:
- 要按字段值查(如WHERE json->>'$.type' = 'video')?→ 优先子表,或JSON+生成列索引
- 90%以上请求只读主表,极少访问该字段?→ JSON更轻量
- 字段可能被多个主表引用(如通用附件、模板配置)?→ 独立子表+通用外键设计(如resource_id + resource_type)
- 团队ORM或中间件对JSON支持差?→ 子表兼容性更好,迁移成本更低










