0

0

使用 Pandas 在 Excel 中添加基于列比较的状态列

心靈之曲

心靈之曲

发布时间:2025-08-20 16:10:24

|

668人浏览过

|

来源于php中文网

原创

使用 pandas 在 excel 中添加基于列比较的状态列

本文档旨在指导您如何使用 Pandas 库在 Excel 文件中添加一个 "Status" 列,该列的值基于对不同 Excel 文件中特定列的比较结果。我们将详细介绍如何读取 Excel 数据,比较指定列,并根据比较结果生成 "Pass" 或 "Fail" 状态,最后将结果写入新的 Excel 文件。同时,还将展示如何使用样式突出显示比较结果,以便更直观地查看数据差异。

1. 准备工作

在开始之前,请确保您已经安装了 Pandas 库。如果没有安装,可以使用以下命令进行安装:

pip install pandas

此外,您需要准备两个 Excel 文件,例如 source.xlsx 和 target.xlsx,它们分别包含需要比较的数据。确保这两个文件包含一个共同的键列,用于合并数据。

2. 代码实现

以下代码展示了如何使用 Pandas 实现上述功能:

e网企业2.0
e网企业2.0

一款适用于中小企业自助建站程序,是c#与xml技术相结合的产物,支持动态设定二级栏目,采用了开放式架构,建站模版自由添加。程序整合了(单一文本,新闻列表,图片列表 ,在线订单, 文件下载 , 留言板)六类插件,以所见即所得的方式,将烦锁的建站过程简化到三步,使用户可以轻松上手。 管理后台:manage.aspx 初始密码均为admin

下载
import pandas as pd

class ExcelComparator:
    def __init__(self, src_file_name, src_sheet_name, src_pk, src_cols_to_compare, tgt_cols_to_compare, tgt_file_name,
                 tgt_sheet_name, tgt_pk, target_excel):
        """
        初始化 ExcelComparator 类。

        Args:
            src_file_name (str): 源 Excel 文件名。
            src_sheet_name (str): 源 Excel 工作表名。
            src_pk (str): 源 Excel 主键列名。
            src_cols_to_compare (list): 源 Excel 需要比较的列名列表。
            tgt_cols_to_compare (list): 目标 Excel 需要比较的列名列表。
            tgt_file_name (str): 目标 Excel 文件名。
            tgt_sheet_name (str): 目标 Excel 工作表名。
            tgt_pk (str): 目标 Excel 主键列名。
            target_excel (str): 目标 Excel 文件名。
        """
        self.src_file_name = src_file_name
        self.src_sheet_name = src_sheet_name
        self.src_pk = src_pk
        self.src_cols_to_compare = src_cols_to_compare
        self.tgt_cols_to_compare = tgt_cols_to_compare
        self.tgt_file_name = tgt_file_name
        self.tgt_sheet_name = tgt_sheet_name
        self.tgt_pk = tgt_pk
        self.target_excel = target_excel

    def highlight_cells(self, row):
        """
        根据比较结果突出显示单元格。

        Args:
            row (pd.Series): DataFrame 的一行数据。

        Returns:
            list: 包含单元格样式的列表。
        """
        styles = [''] * len(row)
        pk_cols = [col for col in row.index if col in [self.src_pk, self.tgt_pk]]

        for i, col in enumerate(row.index):
            if i % 2 == 0 and col not in pk_cols:
                src_col = col
                tgt_col = row.index[i - 1]  # Adjusted to get the previous column

                if row[src_col] == row[tgt_col]:
                    styles[i], styles[i - 1] = 'background-color:lightgreen', 'background-color:lightgreen'
                elif pd.isnull(row[src_col]) or pd.isnull(row[tgt_col]):
                    styles[i], styles[i - 1] = 'background-color:yellow', 'background-color:yellow'
                else:
                    styles[i], styles[i - 1] = 'background-color:lightcoral', 'background-color:lightcoral'

        return styles

    def calculate_status(self, row):
        """
        计算状态列的值,如果所有比较的列都匹配,则为 'Pass',否则为 'Fail'。

        Args:
            row (pd.Series): DataFrame 的一行数据。

        Returns:
            str: 'Pass' 或 'Fail'。
        """
        for i in range(len(row.index) - 1, 0, -2):
            src_col = row.index[i]
            tgt_col = row.index[i - 1]

            if row[src_col] != row[tgt_col]:
                return 'Fail'

        return 'Pass'

    def read_and_compare(self):
        """
        读取 Excel 数据,比较指定列,并添加状态列。
        """
        src_df = pd.read_excel(self.src_file_name, sheet_name=self.src_sheet_name)
        tgt_df = pd.read_excel(self.tgt_file_name, sheet_name=self.tgt_sheet_name)

        result = src_df.merge(tgt_df, how='inner', left_on=self.src_pk, right_on=self.tgt_pk)
        result_columns = [self.src_pk] + [col for pair in zip(self.src_cols_to_compare, self.tgt_cols_to_compare) for col
                                         in pair]

        result = result[result_columns]
        result['Status'] = result.apply(self.calculate_status, axis=1)

        result.style.apply(self.highlight_cells, axis=1).to_excel(self.target_excel)


# Example usage
comparator = ExcelComparator(
    src_file_name='source.xlsx',
    src_sheet_name='Sheet1',
    src_pk='ID',
    src_cols_to_compare=['Name', 'Salary'],
    tgt_cols_to_compare=['FirstName', 'Sal'],
    tgt_file_name='target.xlsx',
    tgt_sheet_name='Sheet1',
    tgt_pk='EMP_ID',
    target_excel='result.xlsx'
)

comparator.read_and_compare()

3. 代码详解

  1. ExcelComparator 类:

    • __init__ 方法:初始化类的各种参数,包括源文件和目标文件的文件名、工作表名、主键列名以及需要比较的列名。
    • highlight_cells 方法:根据比较结果,为单元格添加背景颜色。绿色表示匹配,黄色表示空值,红色表示不匹配。
    • calculate_status 方法:计算每一行的状态,如果所有比较的列都匹配,则状态为 "Pass",否则为 "Fail"。
    • read_and_compare 方法:读取源文件和目标文件的数据,使用主键列进行合并,选择需要的列,计算状态列,并使用样式突出显示单元格,最后将结果写入新的 Excel 文件。
  2. 示例用法:

    • 创建 ExcelComparator 类的实例,并传入相应的参数。
    • 调用 read_and_compare 方法,执行比较操作并生成结果文件。

4. 注意事项

  • 确保源文件和目标文件存在,并且包含指定的工作表。
  • 确保主键列在两个文件中都存在,并且数据类型一致。
  • 确保需要比较的列在两个文件中都存在,并且数据类型可以进行比较。
  • 可以根据实际需求修改代码,例如修改比较的列名、修改状态的判断逻辑、修改单元格的样式等。
  • 代码中的 highlight_cells 方法使用了 style.apply 函数,可以根据需要自定义样式。

5. 总结

本文档详细介绍了如何使用 Pandas 库在 Excel 文件中添加基于列比较的状态列。通过定义 ExcelComparator 类,我们可以方便地读取 Excel 数据,比较指定列,并根据比较结果生成 "Pass" 或 "Fail" 状态。此外,我们还展示了如何使用样式突出显示比较结果,以便更直观地查看数据差异。希望本文档能够帮助您更好地使用 Pandas 处理 Excel 数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

56

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

excel对比两列数据异同
excel对比两列数据异同

Excel作为数据的小型载体,在日常工作中经常会遇到需要核对两列数据的情况,本专题为大家提供excel对比两列数据异同相关的文章,大家可以免费体验。

1397

2023.07.25

excel重复项筛选标色
excel重复项筛选标色

excel的重复项筛选标色功能使我们能够快速找到和处理数据中的重复值。本专题为大家提供excel重复项筛选标色的相关的文章、下载、课程内容,供大家免费下载体验。

407

2023.07.31

excel复制表格怎么复制出来和原来一样大
excel复制表格怎么复制出来和原来一样大

本专题为大家带来excel复制表格怎么复制出来和原来一样大相关文章,帮助大家解决问题。

562

2023.08.02

excel表格斜线一分为二
excel表格斜线一分为二

在Excel表格中,我们可以使用斜线将单元格一分为二。本专题为大家带来excel表格斜线一分为二怎么弄的相关文章,希望可以帮到大家。

1243

2023.08.02

excel斜线表头一分为二
excel斜线表头一分为二

excel斜线表头一分为二的方法有使用合并单元格功能方法、使用文本框功能方法、使用自定义格式方法。本专题为大家提供excel斜线表头一分为二相关的各种文章、以及下载和课程。

368

2023.08.02

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号