Python spark 的 pyspark 3.5+ 新特性

舞夢輝影

发布时间：2026-02-20 10:06:11

928人浏览过

来源于php中文网

原创

aqe 默认开启后join变慢，因小数据量或非均匀分区下，运行时统计缺失导致误判重分区与策略优化，反而增加调度开销和延迟。

python spark 的 pyspark 3.5+ 新特性

PySpark 3.5+ 的 `spark.sql.adaptive.enabled` 默认开启后，为什么 JOIN 变慢了？

因为自适应查询执行（AQE）在小数据量或非均匀分区场景下反而引入调度开销和重分区判断延迟。它默认启用后，会自动合并小任务、动态优化 Join 策略、调整 shuffle 分区数——但这些决策依赖运行时统计，首次执行无历史信息，容易误判。

若你的作业多为 df1.join(df2, "id").filter(...) 且 df2 很小（hint("broadcast")
检查是否触发了 CoalescePartitions：用 explain(mode="extended") 看物理计划里有没有 AdaptiveSparkPlan 块；若有，再看子节点是否出现意外的 Exchange
临时关闭：设 spark.conf.set("spark.sql.adaptive.enabled", "false") 对比耗时；长期建议保留，但配合 spark.sql.adaptive.coalescePartitions.enabled 等细粒度开关控制

PySpark 3.5+ 中 `pandas_udf` 被弃用，该用 `scalar Pandas function` 还是 `vectorized UDF`？

两者本质相同，都是基于 Arrow 的向量化函数，但 API 和语义有关键区别：前者是推荐路径，后者是旧名残留；真正要换的是调用方式和类型声明。

必须改写 @pandas_udf(returnType=StringType()) → @pandas_function(returnType=StringType())，否则运行时报 AttributeError: module 'pyspark.sql.functions' has no attribute 'pandas_udf'
输入不再是单列 pd.Series，而是整个批次的 pd.DataFrame（即使只有一列），需用 df.iloc[:, 0] 显式取列，否则易出 KeyError
性能上无差异，但新 API 强制要求显式声明 returnType，且不支持 GROUPED_AGG 模式——聚合场景得用 groupby().applyInPandas()

PySpark 3.5+ 读 Parquet 时 `mergeSchema` 行为变了，字段缺失直接报错？

是的。3.5+ 默认启用 spark.sql.parquet.mergeSchema，但底层改用更严格的 schema 合并逻辑：当某文件缺失非 nullable 字段时，不再静默补 null，而是抛 org.apache.spark.sql.AnalysisException: Cannot resolve column name。

Python快速入门

快速学习python书第二版是一本简洁清晰介绍python3的书籍，目标是新学习python 的程序员。这本更新版本囊括了所有python3版本的变化，即python从早期版本到新版本的特性变化本书一开始用基础但是很有用的程序来传授给读者关于python的核心特性，包括语法，控制流程和数据结构。然后本书使用大型的应用程序包括代码管理，面向对象编程，web开发和转换老版本的python程序到新的版本等等。忠实于作者的经验十足的开发者的观众，作者仔细检查普通程序特点，同时增加了更多细节关于这些python

下载

常见于增量写入：上游用不同 schema 写了多个目录，比如一批含 user_id，另一批没写，3.5+ 读父目录就会失败
兼容做法：显式关掉合并，用 spark.read.option("mergeSchema", "false").parquet(...)，再手动 union 或用 schema 参数指定统一 schema
更健壮的做法是提前用 spark.read.parquet(...).schema 扫描所有子目录推断一次，存为 JSON，后续读取时传入 schema=StructType.fromJson(...)

`spark.sql.files.maxPartitionBytes` 在 3.5+ 影响比以前更大，为什么？

因为 3.5+ 把这个参数从“仅影响 text/CSV”扩展到所有文件源（包括 Parquet、ORC），且与新的 FileSourceScanExec 执行器深度耦合，直接影响 task 划分粒度和内存压力。

立即学习“Python免费学习笔记（深入）”；

默认值从 128MB 降到 64MB，导致小文件多的作业 task 数暴增，shuffle 压力上升；若集群 executor 内存不足，容易 OOM
调大前先确认：用 df.explain("formatted") 查看 InputPartitions 数量和平均大小；若大量 InputPartition 小于 10MB，说明切太碎
安全调整范围：64MB ~ 256MB；超过 512MB 需同步调高 spark.sql.files.openCostInBytes，否则 Spark 会误判“打开文件代价高”，继续切小

最常被忽略的是：这个参数和 spark.sql.adaptive.coalescePartitions.enabled 是联动的——关了 AQE 的分区合并，又没调 maxPartitionBytes，就等于把小文件问题硬扛在 stage 里了。

Python 服务自愈机制的实现思路

Python 异步锁 asyncio.Lock 的设计思路

Python 图像生成 Stable Diffusion 的 ControlNet 微调

Python 负载均衡器的健康检查

Python PKCE 在公开客户端中的必要性

相关标签:

python sql Filter spark

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高效停止多余线程：基于动态终止信号的分批并发请求优化策略下一篇：暂无

作者最新文章

Linux kubeadm join 的 token / certificate-key 有效期与续期策略

2026-02-19 12:17

GitHub 上的文件如何下载？单个文件与整包下载方法

2026-02-19 12:30

edge浏览器同步密码 Edge密码管理器与加密同步机制解析

2026-02-19 12:43

Python GIL 对多线程性能的影响

2026-02-19 12:52

Python 使用 slots 控制对象内存占用

2026-02-19 13:32

Python Parca 的持续性能剖析

2026-02-19 13:49

GitHub 怎么稳定打开？GitHub 加速访问与网络设置教程

2026-02-19 13:54

Python asyncio.wait 的返回结果分析

2026-02-19 14:16

Linux Harbor 的镜像仓库安全扫描与 RBAC 配置模板

2026-02-19 14:21

拼多多直播怎么上秒拍链接？拼多多秒拍怎么抢

2026-02-19 14:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

986

2023.10.12