0

0

Python Pandas:高效重塑Excel宽表数据为规范长表格式

DDD

DDD

发布时间:2025-07-08 19:06:14

|

426人浏览过

|

来源于php中文网

原创

Python Pandas:高效重塑Excel宽表数据为规范长表格式

本文详细介绍了如何利用Pandas库中的lreshape函数,将包含重复列模式(如id_mXX和mprice对)的宽格式Excel表格高效地重塑为规范的长格式数据。教程通过具体代码示例,演示了如何处理列名重复以及如何利用filter方法简化列选择,从而避免使用melt函数可能导致的额外列和空值问题,极大地提升数据处理的效率和规范性。

1. 数据重塑需求概述

在数据分析工作中,我们经常会遇到宽格式(wide format)的数据表,其中包含大量重复模式的列组。例如,一个excel表格可能包含多组产品id和价格信息,如id_m00, mprice, id_m01, mprice, ..., 直到id_m46, mprice。这种格式虽然在某些情况下便于录入,但在进行数据分析和建模时,通常需要将其转换为长格式(long format),即每行代表一个独立的观测值,将所有重复的id和价格信息归并到两列:id和mprice。

传统的pandas.melt函数在处理这类复杂重塑时,可能会因为其设计逻辑而产生额外的variable列或大量的空值,导致后续清理工作量大。针对这种具有明确“成对”或“分组”列的重塑需求,pandas.lreshape提供了一种更为高效和简洁的解决方案。

2. pandas.lreshape函数简介

pandas.lreshape函数专门用于处理那些具有列表状(list-like)分组列的数据重塑。它的核心思想是将一组列(例如id_m00, id_m01)映射到一个新的列名(id),同时将另一组对应的列(例如mprice, mprice.1)映射到另一个新的列名(mprice),从而实现数据的垂直堆叠。

主要参数:

  • data: 需要重塑的DataFrame。
  • reshape_map: 一个字典,键是重塑后新的列名,值是一个列表,包含需要合并到该新列的原始列名。

3. 数据重塑实战示例

假设我们有如下的宽格式Excel数据(data.xlsx):

立即学习Python免费学习笔记(深入)”;

Date id_m00 mprice id_m01 mprice
01.01.2023 aa-bb-cc 12,05 dd-ee-fr 8,80
02.01.2023 aa-dd-ee 09,55 ff-gg-gg 7,50

我们的目标是将其转换为:

倍塔塞司
倍塔塞司

AI职业规划、AI职业测评、定制测评、AI工具等多样化职业类AI服务。

下载
Date id mprice
01.01.2023 aa-bb-cc 12,05
02.01.2023 aa-dd-ee 09,55
01.01.2023 dd-ee-fr 8,80
02.01.2023 ff-gg-gg 7,50

准备模拟数据:

import pandas as pd
import io

# 模拟原始Excel数据,实际应用中替换为 pd.read_excel("file.xlsx")
data = """Date,id_m00,mprice,id_m01,mprice
01.01.2023,aa-bb-cc,12.05,dd-ee-fr,8.80
02.01.2023,aa-dd-ee,9.55,ff-gg-gg,7.50
"""
# 注意:当Pandas读取Excel时,如果存在重复列名,会自动重命名为 mprice, mprice.1, mprice.2 等
# 这里为了模拟,我们手动创建DataFrame,并模拟Pandas的列名处理
df_raw = pd.read_csv(io.StringIO(data), sep=',')

# 模拟pandas读取Excel后,重复列名被自动重命名的情况
# 手动调整列名以匹配 lreshape 示例中的 mprice, mprice.1
df_raw.columns = ['Date', 'id_m00', 'mprice', 'id_m01', 'mprice.1']

print("原始DataFrame:")
print(df_raw)

使用lreshape进行重塑:

lreshape的关键在于构建reshape_map。我们需要识别出所有属于“id”组的列和所有属于“mprice”组的列。由于Pandas在读取Excel时会自动处理重复列名(如将第二个mprice重命名为mprice.1),我们可以利用这一特性来简化列的选择。

# 方案一:直接使用filter选择列(推荐)
# 假设df是通过pd.read_excel("file.xlsx")读取的,Pandas会自动处理重复列名
# 此时,mprice列会变为 'mprice', 'mprice.1', 'mprice.2' ...
# df = pd.read_excel("file.xlsx") # 实际应用中取消注释

# 识别所有id_mXX开头的列
id_cols = df_raw.filter(like="id_m").columns
# 识别所有包含'price'的列(这里会包含mprice和mprice.1等)
price_cols = df_raw.filter(like="price").columns

# 构建lreshape的映射字典
reshape_map = {
    "id": id_cols.tolist(),
    "mprice": price_cols.tolist()
}

out_df = pd.lreshape(df_raw, reshape_map)

print("\n重塑后的DataFrame (方案一):")
print(out_df)

# 确保mprice列为数值类型
out_df['mprice'] = out_df['mprice'].astype(float)
print("\n重塑后并转换mprice类型:")
print(out_df)

代码解析:

  1. df_raw.filter(like="id_m").columns: 这行代码使用filter方法筛选出所有列名中包含“id_m”的列,并获取它们的名称列表。这非常适合处理id_m00, id_m01, ..., id_m46这类有规律的列名。
  2. df_raw.filter(like="price").columns: 同样地,筛选出所有列名中包含“price”的列。由于Pandas读取Excel时会处理重复列名(例如mprice和mprice.1),这个模式可以有效地捕获所有价格列。
  3. reshape_map: 这个字典是lreshape的核心。它告诉Pandas:
    • 将id_cols列表中的所有列合并到新的id列下。
    • 将price_cols列表中的所有列合并到新的mprice列下。
    • lreshape会根据原始列的顺序进行配对,例如id_m00会与mprice(第一个)配对,id_m01会与mprice.1配对,以此类推。
  4. pd.lreshape(df_raw, reshape_map): 执行重塑操作,返回一个新的DataFrame。

4. 注意事项与总结

  • 列名处理: pandas.read_excel在遇到重复列名时,会自动为后续的重复列添加数字后缀(如mprice.1, mprice.2)。lreshape正是利用了这一特性,通过filter(like='...')可以方便地选择所有相关的列。如果你的数据来源不是Excel,或者列名没有自动重命名,你可能需要手动调整列名,或者在reshape_map中明确列出所有原始列名。
  • lreshape vs. melt:
    • melt更通用,可以将一个或多个标识符列(id_vars)之外的所有或指定列(value_vars)转换为长格式,通常会生成variable和value列。它适用于将多个值列堆叠成一个值列的场景。
    • lreshape则更专注于处理具有固定分组的列,它允许你同时重塑多个相关的列组(例如id和price),并将它们分别映射到新的目标列中,而不会引入额外的variable列,从而得到更干净、更直接的长格式数据。
  • 数据类型: 重塑后,新的列(如mprice)的数据类型可能需要手动转换为数值类型,如果原始数据中包含逗号作为小数分隔符,还需要在读取时或转换时进行处理(例如使用str.replace(',', '.')和astype(float))。

通过pandas.lreshape,我们可以高效、准确地将复杂的宽格式数据转换为规范的长格式,这对于后续的数据清洗、分析和可视化至关重要,能够显著提升数据处理的效率和质量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

580

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

103

2025.10.23

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

824

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

436

2024.06.27

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号