0

0

SQL JSON 在大数据场景下应用实践

冷炫風刃

冷炫風刃

发布时间:2026-02-14 19:23:02

|

508人浏览过

|

来源于php中文网

原创

应先用json_valid()或try_json()校验json合法性,再用->>提取去引号值,hive用get_json_object()需注意嵌套限制,避免explode()导致笛卡尔积,跨引擎需统一类型和格式,索引需匹配虚拟列路径。

sql json 在大数据场景下应用实践

SQL 查询里怎么安全地解析 JSON 字段

直接用 JSON_EXTRACT-> 操作符读取 JSON 字段,但字段为空或格式错乱时会静默返回 NULL,查不到数据还难定位。尤其在 Hive、Spark SQL 或 MySQL 5.7+ 中,JSON 字段常来自日志埋点或上游 ETL,结构松散是常态。

  • 先用 JSON_VALID()(MySQL)或 try_json()(Trino/Spark)兜底过滤非法 JSON,避免整个任务因单条脏数据失败
  • 路径表达式别硬写 $.user.id,优先用 ->>(去引号)而非 ->(带引号),否则字符串值会多一层双引号,后续 WHERE 匹配容易失效
  • Hive 不支持原生 JSON 函数,得靠 get_json_object(),它对嵌套数组支持弱,遇到 $.items[0].name 这种要拆成两层 UDTF 才行

JSON 膨胀导致 JOIN 性能断崖下跌

把 JSON 数组展开成行(比如用户标签列表、订单商品明细)再 JOIN,很容易触发笛卡尔爆炸。Spark 中 explode() 后数据量翻几倍,Shuffle 压力陡增,任务卡在 Stage 2 是典型信号。

  • 能不下推就不下推:优先在应用层或预处理作业里把 JSON 展开并物化成宽表,别每次查询都 LATERAL VIEW explode()
  • 必须实时展开时,给 explode()size() 限制,比如只取前 5 个标签:explode(slice(json_array, 1, 5))
  • MySQL 8.0 的 JSON_TABLE() 看似优雅,但执行计划里常转成临时表,大表关联时比手写 JOIN + 子查询还慢,实测 100 万行以上慎用

跨引擎 JSON 兼容性陷阱:从 Spark 写入到 Presto 查询

Spark 用 to_json() 写出的字段,Presto 有时读出来是字符串而非 JSON 类型,json_extract_scalar() 直接报错 Cannot cast varchar to json —— 根本不是语法问题,是类型没对齐。

工资查查移动工资条
工资查查移动工资条

大部分的工资还是以打印工资条的形式进行,偶有公司使用邮件发放工资条,而工资条的现代形式应该是移动工资条,以实现信息的备忘、到达、管理、对帐、环保、高效等需求……,用户已经习惯使用手机(或以其它移动方式)实现一切需求,应用的移动化是大势所趋。工资查查就在这样的背景下诞生,北京亦卓科技于2017的开发并推出了微信小程序工资查查。由于对有用户对数据隐私与安全性的考虑,北京亦卓科技在推出了云端应用--工资

下载
  • 写入时显式指定列类型:Spark SQL 中用 CAST(to_json(struct(...)) AS STRING) 写入,但 Presto 侧建表要用 JSON 类型,不能是 VARCHAR
  • ORC/Parquet 文件里 JSON 列实际存的是二进制字节流,不同引擎对 json 类型的元数据标记不一致,推荐统一用 Parquet + 显式 schema 定义
  • Trino(旧 PrestoSQL)对 JSON 函数支持更全,json_format()json_parse() 可双向转换,但老 PrestoDB 只支持 json_extract 系列,升级前先验算函数兼容性

JSON 字段索引失效的隐蔽原因

MySQL 给 JSON 字段加了虚拟列和二级索引,但 WHERE JSON_CONTAINS(json_col, '"ios"', '$.os') 还是走全表扫描——不是没建索引,是函数用法绕过了索引下推。

  • 虚拟列必须严格匹配 JSON 路径提取值,比如建了 os_type VARCHAR(20) GENERATED ALWAYS AS (json_unquote(json_extract(json_col, '$.os'))),查询就得写 WHERE os_type = 'ios'
  • PostgreSQL 的 jsonb_path_ops 索引只加速 @>(包含)操作,->> 提取后比较不会走这个索引,得配合 jsonb_path_query_array() 配合 GIN 索引
  • ES 里把 JSON 当 text 字段映射,搜索 user.device.os: "ios" 会分词,结果搜不到;必须设为 keyword 类型,且注意嵌套对象需开启 enabled: true

JSON 在大数据链路里从来不是“拿来就能用”的数据类型,它像一扇虚掩的门——看着通,推一下才发现后面连着三道需要手动校准的锁:结构不确定性、计算路径不可控、引擎语义不一致。最常被跳过的一步,是写入前对原始 JSON 做 json_valid() + json_length() 双校验,而不是等下游任务报错再回溯。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

943

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

334

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

375

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1636

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

369

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1211

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

583

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

434

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 9.2万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号