使用 Pandas 根据多列和时间分配唯一 ID

心靈之曲

发布时间：2025-07-10 18:38:13

594人浏览过

来源于php中文网

原创

使用 pandas 根据多列和时间分配唯一 id

本文旨在帮助你解决 Pandas DataFrame 中基于多列（日期、名称、产品）以及时间（经过时间）分配唯一 ID 的问题。在某些场景下，例如分析用户行为日志，需要对特定用户在特定日期对特定产品的操作进行分组，并根据操作时间间隔进行进一步的细分。如果同一用户在同一日期对同一产品的操作时间间隔超过一定阈值，则应将其视为不同的会话，并分配不同的 ID。本文将提供两种解决方案，分别针对数据是否已排序的情况。

解决方案一：数据已排序

如果你的 DataFrame 已经按照日期、名称和产品进行了排序，那么可以使用 groupby() 和 ngroup() 方法结合 cumsum() 方法来快速生成 ID。

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}
df = pd.DataFrame(data)

# 根据日期、名称和产品进行分组，并计算组ID
df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup()
              .add(1+df['Elapsed_time'].ge(100).cumsum())
           )

print(df)

代码解释：

df.groupby(['Date', 'Name', 'Product']): 这部分代码按照指定的列（'Date', 'Name', 'Product'）对 DataFrame 进行分组。
.ngroup(): 这部分代码为每个不同的组分配一个唯一的整数 ID，从 0 开始。
df['Elapsed_time'].ge(100): 这部分代码创建一个布尔 Series，指示 'Elapsed_time' 列中的值是否大于或等于 100。
.cumsum(): 这部分代码计算布尔 Series 的累积和。由于 True 被视为 1，False 被视为 0，因此累积和会随着每个大于或等于 100 的 'Elapsed_time' 值递增。
add(1 + ...): 将分组 ID 加上 1 和经过时间大于等于 100 的累积和，从而生成最终的 ID。加 1 是为了使 ID 从 1 开始，而不是从 0 开始。

注意事项：

此方法依赖于数据已经按照日期、名称和产品排序。如果数据未排序，结果将不正确。
ngroup() 方法从 0 开始分配组 ID，因此需要加 1 以使 ID 从 1 开始。

解决方案二：数据未排序

如果你的 DataFrame 没有按照日期、名称和产品排序，那么你需要一种更通用的方法来处理。以下代码使用 ne()、shift()、any() 和 cumsum() 方法来实现此目的。

Otter.ai

一个自动的会议记录和笔记工具，会议内容生成和实时转录

下载

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)

# 定义需要比较的列
cols = ['Date', 'Name', 'Product']

# 计算 ID
df['id'] = (df[cols].ne(df[cols].shift())
     .assign(x=df['Elapsed_time'].ge(100))
     .any(axis=1).cumsum()
    )

print(df)

代码解释：

cols = ['Date', 'Name', 'Product']: 定义需要进行比较的列的列表。
df[cols].ne(df[cols].shift()): 将 DataFrame 中指定列的值与上一行进行比较，返回一个布尔 DataFrame，指示哪些值与上一行不同。shift() 函数将 DataFrame 的行向下移动一位。
.assign(x=df['Elapsed_time'].ge(100)): 向布尔 DataFrame 添加一个新列 'x'，该列指示 'Elapsed_time' 列中的值是否大于或等于 100。
.any(axis=1): 对每一行应用 any() 函数，如果该行中至少有一个 True 值（即，日期、名称或产品与上一行不同，或者经过时间大于等于 100），则返回 True。
.cumsum(): 计算布尔 Series 的累积和，从而生成最终的 ID。

注意事项：

此方法不依赖于数据是否排序，因此更加通用。
此方法使用了链式操作，使代码更加简洁易读。

总结

本文提供了两种使用 Pandas 为 DataFrame 分配唯一 ID 的解决方案，分别适用于数据已排序和未排序的情况。选择哪种方法取决于你的数据特点和性能要求。如果数据已经排序，可以使用 groupby() 和 ngroup() 方法来提高性能。如果数据未排序，则需要使用更通用的 ne()、shift()、any() 和 cumsum() 方法。希望本文能够帮助你解决实际问题。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板