如何在 PySpark 中从数组列中提取首个匹配子串的元素

碧海醫心

发布时间：2026-02-23 10:14:09

944人浏览过

来源于php中文网

原创

如何在 PySpark 中从数组列中提取首个匹配子串的元素

本文介绍在 PySpark 中高效实现“根据另一列的子串，在数组列中查找首个匹配元素并提取”的完整方案，涵盖 UDF 实现、性能注意事项及替代原生函数写法（如 filter + element_at）。

本文介绍在 pyspark 中高效实现“根据另一列的子串，在数组列中查找首个匹配元素并提取”的完整方案，涵盖 udf 实现、性能注意事项及替代原生函数写法（如 `filter` + `element_at`）。

在 PySpark 数据处理中，常需基于动态条件（如某列的子串）从数组类型列中筛选元素。例如：给定数组列 col_a 和字符串列 col_b，要求对每行找出 col_a 中首个包含 col_b 值作为子串的元素，并将其赋值给新列 col_c。该需求无法通过简单索引（如 getItem(0)）完成，因为匹配位置是动态的；而直接使用高阶函数组合可避免 UDF 的序列化开销，兼顾可读性与性能。

✅ 推荐方案：使用原生高阶函数（PySpark 3.4+）

自 PySpark 3.4 起，filter 和 element_at 可无缝协作完成此任务，无需 UDF，性能更优且支持 Catalyst 优化：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, filter, element_at, lit, size

spark = SparkSession.builder.appName("ArraySubstringMatch").getOrCreate()

# 构造示例数据
data = [
    (["AB1 2Z", "CD3 4Y", "AB5 6X"], "AB"),
    (["GH7 8W", "EF9 0V", "EF1 2U"], "EF"),
    (["IJ3 4T", "KL5 6S"], "KL")
]
df = spark.createDataFrame(data, ["col_a", "col_b"])

# 核心逻辑：filter 筛出含子串的元素 → element_at 取第一个（索引 -1 表示首元素）
df_result = df.withColumn(
    "col_c",
    element_at(
        filter(col("col_a"), lambda x: x.contains(col("col_b"))),
        -1  # 取第一个匹配项（等价于索引 1，但 -1 更安全，空数组时返回 null）
    )
)

df_result.select("col_a", "col_b", "col_c").show(truncate=False)

输出：

+--------------------+-----+------+
|col_a               |col_b|col_c |
+--------------------+-----+------+
|[AB1 2Z, CD3 4Y, ...|AB   |AB1 2Z|
|[GH7 8W, EF9 0V, ...|EF   |EF9 0V|
|[IJ3 4T, KL5 6S]    |KL   |KL5 6S|
+--------------------+-----+------+

? 关键说明：

filter(col("col_a"), lambda x: x.contains(col("col_b"))) 返回所有满足 x 包含 col_b 子串的元素组成的子数组；

element_at(..., -1) 安全取首元素（若结果为空数组则返回 null），比 getItem(0) 更健壮（后者在空数组时报错）；

此写法完全基于 Catalyst 优化器，避免 JVM-Python 序列化瓶颈，适合大规模数据。

⚠️ 注意事项与备选方案

UDF 方案（兼容旧版本）：若使用 PySpark

智标领航

专注招投标业务流程的AI助手，智能、高效、精准、易用！

下载

使用 pandas_udf（向量化）替代普通 udf 以提升性能；
显式处理 None 或空数组，防止运行时异常；

示例（简洁版）：

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

@udf(returnType=StringType())
def find_first_match(arr, substr):
    if not arr:
        return None
    for item in arr:
        if substr in str(item):  # 防止 item 为 None
            return item
    return None

df = df.withColumn("col_c", find_first_match(col("col_a"), col("col_b")))

性能对比建议：
- 优先选用原生高阶函数（filter + element_at），执行速度通常快 3–5 倍；
- UDF 仅在逻辑不可表达为 SQL 函数时使用，并配合 broadcast 变量减少重复传输。

✅ 总结

提取数组中首个匹配子串的元素，本质是「条件过滤 + 首元素提取」。PySpark 提供了两种主流路径：
✅ 首选：filter(...).contains(...) + element_at(..., -1) —— 高效、安全、可优化；
⚠️ 次选：自定义 UDF —— 灵活但有性能损耗，需谨慎处理边界情况。
无论哪种方式，都应通过 df.explain("formatted") 验证执行计划是否被 Catalyst 正确优化。

相关标签:

sql jvm NULL Filter 字符串 Lambda

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 数据结构演进的向后兼容设计下一篇：暂无

作者最新文章

如何解决 CSRF Token 在生产环境因会话启动失败导致的 403 错误

2026-02-20 08:57

Django 登录后重定向失败的常见原因与解决方案

2026-02-20 09:04

EJS 单页应用中路由视图切换时 DOM 丢失的根源与修复方案

2026-02-20 09:12

如何高效计算二维数组中每个位置周围地雷数量（Go 实现）

2026-02-20 09:38

如何在 Go 单元测试中正确 Mock http.Head() 函数

2026-02-20 09:38

如何在 Unity WebGL 中强制保持游戏画面宽高比（不拉伸变形）

2026-02-20 09:51

为按钮动态切换文本时保持图标始终可见的 JavaScript 实现方案

2026-02-20 10:09

如何彻底禁用 iOS Safari 下拉刷新与弹性回弹效果

2026-02-20 10:18

Go 中未初始化通道导致的阻塞问题详解

2026-02-20 10:18

如何在 WooCommerce 后台订单页动态预填配送地址字段

2026-02-20 10:21

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1026

2023.10.12