0

0

PySpark 中实现双表左连接并动态标注数据来源的完整教程

聖光之護

聖光之護

发布时间:2026-02-04 09:23:20

|

285人浏览过

|

来源于php中文网

原创

PySpark 中实现双表左连接并动态标注数据来源的完整教程

本文详解如何在 pyspark 中对两个 dataframe 执行左连接,基于邮箱或员工号匹配填充缺失字段,并新增 `src` 列标识数据来源(原始表或补充表),最终统一输出为标准格式。

在实际数据处理中,常需将主表(如用户邮件表)与辅助表(如员工信息表)关联,以补全关键字段(如 emp_no),同时明确每条记录的数据归属。本例中,df1 包含 mail_id 和 e_no,df2 包含 email 和 emp_no,目标是:以 df1 为主表执行左连接,优先使用 df2 的 emp_no 填充;若 df2 中无匹配项,则回退使用 df1 的 e_no;并新增 src 列标记来源(tbl2 表示来自 df2,tbl1 表示回退使用 df1 的原始值)

关键点在于:

  • 连接条件需语义正确:原问题中误用 df1['e_no'] == df2['emp_no'],但两表逻辑关系实为 mail_id ↔ email(邮箱地址匹配),e_no 与 emp_no 是待对齐的业务字段,不应作为连接键;
  • src 判定逻辑需基于连接结果状态:应检查 emp_no 是否为 null(即 df2 未匹配),而非错误地判断 mail_id 字段;
  • 字段合并需显式控制:使用 when().otherwise() 统一生成 emp_no 列,避免列名冲突或空值遗漏。

以下是推荐的完整实现:

from pyspark.sql import functions as F
from pyspark.sql.functions import col, when

# 步骤1:基于邮箱字段执行左连接(df1为主表)
result = df1.join(df2, df1.mail_id == df2.email, "left")

# 步骤2:添加数据来源标识列 'src'
# 若 emp_no 为 null → 来自 df1(回退使用 e_no),标记为 "tbl1"
# 否则 → 来自 df2,标记为 "tbl2"
result = result.withColumn(
    "src", 
    when(col("emp_no").isNull(), "tbl1").otherwise("tbl2")
)

# 步骤3:构造最终结果:重命名 mail_id → email,合并 emp_no 字段,保留 src
final_result = result.select(
    col("mail_id").alias("email"),
    when(col("emp_no").isNull(), col("e_no")).otherwise(col("emp_no")).alias("emp_no"),
    "src"
)

final_result.show()

✅ 输出效果(与预期一致):

Flowstep
Flowstep

AI界面设计工具,通过对话几秒内创建UI设计图、线框图和流程图

下载
+------------------+------+----+
|             email|emp_no| src|
+------------------+------+----+
||   111|tbl1|
||   222|tbl2|
||   333|tbl2|
+------------------+------+----+

⚠️ 注意事项:

  • 确保 mail_id 与 email 字段类型一致(建议均为 string),必要时用 .cast("string") 显式转换;
  • 若存在大小写或空格差异,可提前标准化:df1 = df1.withColumn("mail_id", F.trim(F.lower(col("mail_id"))));
  • when().otherwise() 是惰性求值,无需担心性能;但避免嵌套过深,保持逻辑可读性;
  • 生产环境中建议添加 result.count() 和 result.where(col("emp_no").isNull()).count() 进行连接质量校验。

该方案结构清晰、语义准确,兼顾健壮性与可维护性,适用于各类类似的数据补全与溯源场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

564

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

238

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

560

2024.03.01

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

抖音网页版入口与视频观看指南 抖音官网视频在线访问
抖音网页版入口与视频观看指南 抖音官网视频在线访问

本专题汇总了抖音网页版的入口链接、官方登录页面以及视频观看入口,帮助用户快速访问抖音网页版,提供免登录访问方式和直接进入视频播放页面的方法,确保顺利浏览和观看抖音视频。

61

2026.02.04

学习通网页版入口与在线学习指南 学习通官网登录与使用方法
学习通网页版入口与在线学习指南 学习通官网登录与使用方法

本专题详细汇总了学习通网页版入口与登录方法,提供学习通官方网页端入口、学生登录平台、网页版使用指南等内容,帮助用户快速稳定地登录学习通官网,顺利进入学习平台,提升学习效率和体验。

7

2026.02.04

Python Web 框架 Django 深度开发
Python Web 框架 Django 深度开发

本专题系统讲解 Python Django 框架的核心功能与进阶开发技巧,包括 Django 项目结构、数据库模型与迁移、视图与模板渲染、表单与认证管理、RESTful API 开发、Django 中间件与缓存优化、部署与性能调优。通过实战案例,帮助学习者掌握 使用 Django 快速构建功能全面的 Web 应用与全栈开发能力。

9

2026.02.04

Java 流式处理与 Apache Kafka 实战
Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用,系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控,结合实际业务场景,帮助开发者构建 高吞吐量、低延迟的实时数据流管道,实现高效的数据流转与处理。

3

2026.02.04

Golang 容器化与 Docker 实战
Golang 容器化与 Docker 实战

本专题深入讲解 Golang 应用的容器化与 Docker 部署,涵盖 Docker 基础概念、容器构建与镜像管理、Go 应用的 Dockerfile 编写、跨平台容器部署与优化、Docker Compose 和 Kubernetes 部署工具。通过实际案例,帮助学习者掌握 如何将 Golang 应用容器化并实现高效部署与管理,提升系统的可扩展性与运维效率。

3

2026.02.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号