Pandas DataFrame：将列转换为多级索引并调整层级-Python教程-PHP中文网

Pandas DataFrame：将列转换为多级索引并调整层级

DDD

发布： 2025-12-05 09:45:11

原创

132人浏览过

Pandas DataFrame：将列转换为多级索引并调整层级

本文详细介绍了如何在 pandas dataframe 中将现有列提升为新的主索引，同时保留原始索引作为次级索引，从而创建多级索引。教程通过 `set_index` 和 `swaplevel` 方法的组合应用，演示了如何灵活地重构 dataframe 的索引结构，以满足复杂的数据分析和查询需求。

在数据分析和处理中，Pandas DataFrame 提供了强大的索引功能。有时，我们可能需要将 DataFrame 中的某一列提升为索引，甚至将其作为多级索引的一部分，并调整索引的层级顺序。这种操作对于优化数据访问、分组和聚合至关重要。本文将详细讲解如何通过 set_index 和 swaplevel 这两个核心方法来实现这一目标。

理解 set_index 创建多级索引

set_index 方法是 Pandas 中用于将 DataFrame 的一个或多个列设置为索引的主要工具。当需要创建多级索引时，它的 append 参数变得尤为重要。

考虑一个初始 DataFrame，它已经有一个时间戳索引：

import pandas as pd

# 创建一个示例DataFrame
idx = pd.Index(['2022-01-03 09:00:00'], name='timestamp')
df = pd.DataFrame([[12, 3, 31]], index=idx, columns=['data', 'day_of_month', 'days_in_month'])

print("原始 DataFrame:")
print(df)

登录后复制

输出:

原始 DataFrame:
                     data  day_of_month  days_in_month
timestamp                                             
2022-01-03 09:00:00    12             3             31

登录后复制

我们的目标是将 days_in_month 列作为主索引，而 timestamp 索引作为次级索引。

首先，使用 set_index 将 days_in_month 列添加到现有索引中。为了不覆盖现有索引，而是将其作为多级索引的一部分，我们需要设置 append=True。

# 将 'days_in_month' 列添加到现有索引，创建多级索引
# append=True 确保现有索引不会被覆盖
df_multi_index = df.set_index('days_in_month', append=True)

print("\n添加 'days_in_month' 到索引后的 DataFrame:")
print(df_multi_index)

登录后复制

输出:

添加 'days_in_month' 到索引后的 DataFrame:
                                   data  day_of_month
timestamp           days_in_month                    
2022-01-03 09:00:00 31                 12             3

登录后复制

此时，我们已经成功创建了一个多级索引，其中 timestamp 是第一级索引，days_in_month 是第二级索引。然而，这与我们的最终目标（days_in_month 作为主索引，timestamp 作为次级索引）的顺序相反。

AiTxt 文案助手

AiTxt 利用 Ai 帮助你生成您想要的一切文案，提升你的工作效率。

查看详情

使用 swaplevel 调整索引层级

为了调整多级索引的层级顺序，Pandas 提供了 swaplevel 方法。该方法允许我们交换指定层级的索引位置。

在上面的 df_multi_index 中，timestamp 是第 0 级索引，days_in_month 是第 1 级索引。要将 days_in_month 提升为第 0 级，将 timestamp 降为第 1 级，我们可以交换第 0 级和第 1 级。

# 使用 swaplevel 交换索引层级
# 0 代表原始的第一级索引 (timestamp)
# 1 代表原始的第二级索引 (days_in_month)
df_final = df_multi_index.swaplevel(0, 1)

print("\n交换索引层级后的最终 DataFrame:")
print(df_final)

登录后复制

输出:

交换索引层级后的最终 DataFrame:
                                   data  day_of_month
days_in_month timestamp                                       
31            2022-01-03 09:00:00    12             3

登录后复制

现在，days_in_month 已经成功地成为了主索引（第 0 级），而 timestamp 则成为了次级索引（第 1 级），这正是我们所期望的结果。

综合应用与注意事项

将上述两个步骤结合起来，可以一行代码实现：

out = df.set_index('days_in_month', append=True).swaplevel(0, 1)
print("\n一行代码实现最终结果:")
print(out)

登录后复制

注意事项：

append=True 的重要性： 如果在 set_index 中不设置 append=True，则 days_in_month 将直接替换掉原有的 timestamp 索引，而不是创建多级索引。
inplace 参数： set_index 方法支持 inplace=True 参数，可以直接修改原 DataFrame 而不返回新 DataFrame。然而，swaplevel 方法不直接支持 inplace 参数，通常需要将其结果赋值给一个新的 DataFrame 变量或覆盖原变量。
多级索引的命名： 在本例中，timestamp 和 days_in_month 都是有名字的索引层级。如果索引没有名字，Pandas 会自动为其分配默认名称或不命名。
数据访问： 创建多级索引后，可以使用 df.loc 进行更灵活的数据选择。例如，要选择 days_in_month 为 31 的所有数据，可以写 df_final.loc[31]。

总结

通过 set_index 结合 append=True 参数，我们可以将 DataFrame 的列添加到现有索引中，从而构建多级索引。随后，利用 swaplevel 方法，我们能够轻松地调整这些索引层级的顺序，以满足特定的数据组织和查询需求。掌握这两个方法，将极大地提升您在 Pandas 中处理复杂数据结构的能力，使数据分析工作更加高效和灵活。

以上就是Pandas DataFrame：将列转换为多级索引并调整层级的详细内容，更多请关注php中文网其它相关文章！