0

0

使用Pandas处理Excel数据:合并跨行单元格以优化表格结构

碧海醫心

碧海醫心

发布时间:2025-11-15 12:29:23

|

290人浏览过

|

来源于php中文网

原创

使用Pandas处理Excel数据:合并跨行单元格以优化表格结构

本教程旨在指导如何使用python pandas库处理非标准格式的excel数据。当数据逻辑上属于同一记录但物理上分散在两行时,我们将学习一种迭代方法,将特定列的跨行数据合并到单个单元格(列表形式)中。此过程有助于将原始的非规范化数据转换为更适合分析和表格展示的结构,提高数据可用性。

在日常数据处理工作中,我们经常会遇到从各种系统导出的Excel文件,其数据格式可能并不总是符合标准的表格结构。一个常见的情况是,一个逻辑上的数据记录被拆分到两行中,例如,某个属性的值在第一行,而其补充信息在紧邻的第二行。这种格式使得直接将数据转换为标准表格或进行进一步分析变得困难。

例如,原始数据可能呈现如下结构:

Column A Column B Column C Column D Column E
Data A1 Data B1 Data C1 Data D1 Data E1
Data B1' Data D1'
Data A2 Data B2 Data C2 Data D2 Data E2
Data B2' Data D2'

而我们期望将其转换为更规整的单行记录,其中Column B和Column D的值能够合并:

Column A Column B Column C Column D Column E
Data A1 [Data B1, Data B1'] Data C1 [Data D1, Data D1'] Data E1
Data A2 [Data B2, Data B2'] Data C2 [Data D2, Data D2'] Data E2

本文将详细介绍如何使用Python的Pandas库自动化这一数据重构过程。

核心思路:逐行合并策略

由于我们需要合并的是相邻两行的数据,传统的基于列或单行操作的Pandas方法(如apply)可能难以直接实现这种跨行逻辑。因此,一种有效的方法是采用迭代策略:

NatAgent
NatAgent

AI数据情报监测与分析平台

下载
  1. 逐对读取行: 以步长为2的方式遍历DataFrame的行,每次获取一对相邻的行。
  2. 构建新行: 为这对行构建一个新的字典,代表合并后的单行数据。
  3. 条件合并: 对于需要合并的特定列(如示例中的Column B和Column D),将两行中的值组合成一个列表。
  4. 直接复制: 对于不需要合并的列,直接取第一行的值。
  5. 追加到结果DataFrame: 将构建好的新行追加到一个新的DataFrame中。

示例代码与详细解析

以下是实现上述逻辑的Python代码:

import pandas as pd

# 定义Excel文件路径和工作表名称
excel_file = 'data.xlsx'
sheet_name = 'Sheet1'

# 1. 读取Excel文件到Pandas DataFrame
try:
    df = pd.read_excel(excel_file, sheet_name=sheet_name)
except FileNotFoundError:
    print(f"错误:文件 '{excel_file}' 或工作表 '{sheet_name}' 不存在。请检查路径和名称。")
    # 创建一个示例DataFrame用于演示,如果文件不存在
    data = {
        'Data A': ['Data A1', '', 'Data A2', ''],
        'Data B': ['Data B1', 'Data B1\'', 'Data B2', 'Data B2\''],
        'Data C': ['Data C1', '', 'Data C2', ''],
        'Data D': ['Data D1', 'Data D1\'', 'Data D2', 'Data D2\''],
        'Data E': ['Data E1', '', 'Data E2', '']
    }
    df = pd.DataFrame(data)
    print("已使用示例数据继续。")

print("原始数据:")
print(df)

# 2. 初始化一个空的DataFrame用于存储格式化后的数据
# 确保新DataFrame的列与原始DataFrame一致
formatted_df = pd.DataFrame(columns=df.columns)

# 3. 遍历DataFrame,每次处理两行
# range(0, len(df), 2) 表示从索引0开始,每次跳过2个索引,即每次处理 i 和 i+1
for i in range(0, len(df), 2):
    # 获取当前行的第一行数据
    row1 = df.iloc[i]

    # 尝试获取下一行数据,如果已是最后一行,则row2为None
    row2 = df.iloc[i + 1] if i + 1 < len(df) else None

    combined_row = {} # 用于存储合并后新行的数据

    # 遍历所有列
    for col in df.columns:
        # 指定需要合并的列名列表。请根据您的实际情况修改此列表!
        # 例如,如果您的列名是 'Col B' 和 'Col D',则改为 ['Col B', 'Col D']
        columns_to_combine = ['Data B', 'Data D'] 

        if col in columns_to_combine:
            # 如果是需要合并的列,则将row1和row2的值放入列表中
            # 注意处理row2可能为None的情况
            combined_row[col] = [row1[col], row2[col] if row2 is not None else None]
        else:
            # 对于不需要合并的列,直接取row1的值
            combined_row[col] = row1[col]

    # 将构建好的combined_row追加到formatted_df
    # ignore_index=True 确保新行有独立的索引
    formatted_df = formatted_df.append(combined_row, ignore_index=True)

print("\n格式化后的数据:")
print(formatted_df)

# 4. 将格式化后的DataFrame保存到新的Excel文件
output_excel_file = 'formatted_output.xlsx'
formatted_df.to_excel(output_excel_file, index=False)
print(f"\n格式化后的数据已保存到 '{output_excel_file}'")

代码解析:

  1. 导入Pandas并读取数据:
    • import pandas as pd:导入Pandas库。
    • pd.read_excel(excel_file, sheet_name=sheet_name):从指定的Excel文件和工作表读取数据,并将其存储在一个Pandas DataFrame df 中。代码中加入了try-except块,以便在文件不存在时提供一个示例DataFrame,方便测试。
  2. 初始化结果DataFrame:
    • formatted_df = pd.DataFrame(columns=df.columns):创建一个空的DataFrame formatted_df,它的列结构与原始DataFrame df 相同。这将用于存储合并后的数据。
  3. 循环处理行:
    • for i in range(0, len(df), 2)::这是核心循环。range(start, stop, step) 函数生成一个序列。在这里,它会从0开始,以2为步长,直到DataFrame的长度。这意味着i将依次为0, 2, 4, ...,每次迭代都代表一对行的起始索引。
    • row1 = df.iloc[i]:使用iloc按位置获取当前迭代的第一行数据。
    • row2 = df.iloc[i + 1] if i + 1
    • combined_row = {}:在每次循环开始时,创建一个空字典,用于构建当前合并后的新行。
    • for col in df.columns::遍历原始DataFrame的所有列。
    • columns_to_combine = ['Data B', 'Data D']:这是您需要根据实际数据进行修改的关键部分! 将需要合并的列名添加到此列表中。
    • if col in columns_to_combine::如果当前列在需要合并的列表中,则执行合并逻辑。
      • combined_row[col] = [row1[col], row2[col] if row2 is not None else None]:将row1和row2中该列的值放入一个列表中。如果row2为None,则第二部分的值也为None。
    • else::如果当前列不需要合并,则直接取row1的值。
      • combined_row[col] = row1[col]:将row1中该列的值赋给combined_row。
    • formatted_df = formatted_df.append(combined_row, ignore_index=True):将构建好的combined_row(字典形式)作为新行追加到formatted_df中。ignore_index=True 确保新行获得一个新的、连续的索引,而不是尝试使用combined_row的字典键作为索引。
  4. 保存结果:
    • formatted_df.to_excel(output_excel_file, index=False):将最终格式化好的DataFrame保存到一个新的Excel文件。index=False 防止Pandas将DataFrame的索引也写入Excel文件。

注意事项

  1. 自定义合并列: 代码中的columns_to_combine列表是您需要根据实际数据进行调整的核心。请确保将其替换为您的Excel文件中实际需要合并的列名。
  2. 数据类型: 合并后的单元格内容将是一个Python列表(例如 ['Data B1', 'Data B1\''])。这可能会影响后续的数据分析操作,您可能需要进一步处理这些列表(例如,将它们连接成字符串,或提取特定元素)。
  3. 数据完整性与对齐: 此方法假设数据是严格按对(两行一组)排列的。如果原始数据中存在不规则的跨行(例如,有些记录只占一行,有些占三行),则此代码需要进行更复杂的修改以适应这些情况。在执行前,最好对原始数据进行初步检查。
  4. 性能考虑: 对于非常庞大的数据集(例如,数十万行甚至更多),在循环中反复使用DataFrame.append()可能会导致性能问题,因为它每次都会创建一个新的DataFrame。对于这类场景,更高效的做法是先将所有combined_row收集到一个列表中,最后使用pd.concat()一次性创建formatted_df。然而,对于大多数中等规模的数据集,当前方法足够清晰和高效。
  5. 空值处理: 如果原始数据中存在空值(NaN),它们也会被包含在合并后的列表中。您可能需要在合并前或合并后对这些空值进行清理或替换。

总结

通过上述Pandas迭代方法,我们可以有效地解决Excel数据中逻辑记录跨越物理行的问题。这种方法提供了一个灵活的框架,允许我们根据特定列的需求进行数据合并,从而将非规范化的原始数据转换为更易于管理和分析的标准表格格式。掌握这种数据清洗技巧对于任何需要处理复杂Excel数据的数据分析师或开发者来说都至关重要。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

67

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

778

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

299

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

0

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14.2万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号