0

0

Pandas 多列分组比对行数据并标记不一致性

聖光之護

聖光之護

发布时间:2026-01-16 16:30:20

|

696人浏览过

|

来源于php中文网

原创

Pandas 多列分组比对行数据并标记不一致性

本文介绍如何使用 pandas 对 dataframe 中具有相同关键列(如 country 和 reference year)的行进行分组比对,自动识别并标记 value 值不一致的记录为“invalid”,一致则为“valid”。核心方法是 groupby + transform('nunique')。

在实际数据清洗与质量校验中,常需检测同一业务主键(如国家+年份)下指标值是否唯一。若存在多个不同 value,则说明数据存在逻辑冲突或录入错误,需标记为异常。

以下是一个典型示例:我们有包含 Country、Reference Year 和 value 三列的数据,目标是——对 Country 与 Reference Year 完全相同的行进行分组,若该组内 value 存在多个不同非空/有效值(或含空值与非空混存),则整组标记为 "Invalid";否则为 "Valid"

import pandas as pd
import numpy as np

df1 = pd.DataFrame(
    data=[['Afghanistan','2015','5.1'],
          ['Afghanistan','2015','6.1'],
          ['Bahrain','2020',''],
          ['Bahrain','2020','32'],
          ['Bahrain','2021','32'],
          ['Bahrain','2022','32']],
    columns=['Country', 'Reference Year', 'value']
)

关键思路是:
✅ 按 ['Country', 'Reference Year'] 分组;
✅ 对每组的 'value' 列统计其去重后数量(nunique)
✅ 若某组 nunique > 1,说明该组 value 不一致 → 全部标记为 "Invalid";
✅ 否则标记为 "Valid"。

实现代码简洁高效:

df1['Validity'] = np.where(
    df1.groupby(['Country', 'Reference Year'])['value'].transform('nunique').gt(1),
    'Invalid',
    'Valid'
)
✅ transform('nunique') 会将每组的去重计数广播回原 DataFrame 的对应行,保持索引对齐; ✅ .gt(1) 等价于 > 1,返回布尔 Series; ✅ np.where 根据条件批量赋值,避免循环或 apply,性能优异。

运行后结果如下:

阿里妈妈·创意中心
阿里妈妈·创意中心

阿里妈妈营销创意中心

下载
Country Reference Year value Validity
Afghanistan 2015 5.1 Invalid
Afghanistan 2015 6.1 Invalid
Bahrain 2020 Invalid
Bahrain 2020 32 Invalid
Bahrain 2021 32 Valid
Bahrain 2022 32 Valid

⚠️ 注意事项:

  • nunique() 默认忽略 NaN,但本例中空字符串 '' 被视为有效值(非 NaN),因此 ['', '32'] 被计为 2 个不同值;如需将空字符串视作缺失,建议预处理:df1['value'] = df1['value'].replace('', np.nan);
  • 若 value 列含混合类型(如数字与字符串),nunique 仍能正确识别差异,但建议统一数据类型以提升鲁棒性;
  • 此方法天然支持任意数量的关键列(只需扩展 groupby([...]) 列表),扩展性强。

该方案兼具可读性、性能与工程实用性,是 Pandas 数据一致性校验的标准实践之一。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

338

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 82.5万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号