Python DataFrame 去重：基于时间戳保留每篇文章的最新操作记录

碧海醫心

发布时间：2026-03-14 22:08:03

126人浏览过

来源于php中文网

原创

Python DataFrame 去重：基于时间戳保留每篇文章的最新操作记录

本文详解如何在 Pandas 中对含时间戳的日志数据进行智能去重——按 article_id 分组，严格保留每个文章的最新一条记录（即 created_at 最大的行），避免因未排序导致 drop_duplicates 行为异常。

本文详解如何在 pandas 中对含时间戳的日志数据进行智能去重——按 `article_id` 分组，严格保留每个文章的最新一条记录（即 `created_at` 最大的行），避免因未排序导致 `drop_duplicates` 行为异常。

在处理用户行为日志（如文章审核、状态变更等）时，常遇到同一 article_id 被多次操作的情况——例如某篇文章被先后标记为 -1（排除）、1（包含）、再 -1（重新排除）。此时若仅用 df.drop_duplicates(subset=['article_id'], keep='last')，Pandas 会按原始行序取最后出现的行，而非按业务逻辑中的“最新时间”；而原始数据往往未按时间排序，导致结果随机、不可控（如提问中从 17349 行骤减至 8035 行却丢失大量有效用户信息），这正是问题根源。

✅ 正确做法是：先按时间升序排序，再按 article_id 去重并保留 last。因为 drop_duplicates(..., keep='last') 在已排序数据中，会自然选取该 article_id 组内时间最晚的一条记录（即排序后该组的最后一个元素）。

以下是完整、健壮的实现步骤：

import pandas as pd

# 1. 读取数据（注意：created_at 列需解析为 datetime）
df = pd.read_csv("log.csv", parse_dates=["created_at"])

# 2. 关键步骤：按 created_at 升序排序（确保最新记录排在每组末尾）
df = df.sort_values("created_at", ascending=True).reset_index(drop=True)

# 3. 去重：对每个 article_id，只保留排序后最后一行（即时间最晚的记录）
df_latest = df.drop_duplicates(subset=["article_id"], keep="last")

# 4. （可选）格式化时间列，如仅保留日期部分
df_latest["created_at"] = df_latest["created_at"].dt.strftime("%Y-%m-%d")

? 重要说明与注意事项：

MusicAI

AI音乐生成工具

下载

立即学习“Python免费学习笔记（深入）”；

✅ sort_values(..., ascending=True) 是必需前置步骤。若误用 ascending=False（降序），则 keep='last' 将取到最早的记录，完全违背业务目标。
⚠️ parse_dates=["created_at"] 必须启用，否则字符串类型的时间无法正确排序（如 "2023-12-05T20:06:36.387Z" 会按字典序比较，导致 2023-12-05 > 2023-12-06 错误）。
? 若需保留原始索引或调试中间过程，可在 sort_values 后添加 ignore_index=False，但通常建议 reset_index(drop=True) 保证索引连续整洁。
? 对于超大数据集（如提问中 17k+ 行），该流程性能优异，sort_values 和 drop_duplicates 均为 Pandas 高度优化的向量化操作，无需循环。

执行后，示例数据中 article_id == 3 的 5 条记录将仅保留 created_at 为 2023-12-05T20:06:56.200Z 的最后一行，其他 article_id 同理——最终输出精确反映每篇文章的终态决策，为后续分析（如统计通过率、用户活跃度）提供可信数据基础。

如何优雅处理用户输入中的空格与错误？

如何健壮处理用户输入中的空白字符与错误输入

如何将 Python 脚本打包为独立可执行文件（.exe）并构建用户友好的界面

Python 用户输入处理：安全去除空格与健壮错误控制的完整实践

Python 动态创建实例方法：正确访问 self 与方法名的完整教程

相关标签:

python pandas 字符串循环字符串类型

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：OpenVINO GPU 推理支持详解：为何无法在 NVIDIA 显卡上运行下一篇：暂无

作者最新文章

《宝可梦 Pokopia》简评：温暖人心的慢生活

2026-03-12 13:57

JTable 显示 CSV 数据时仅显示首列的完整解决方案

2026-03-12 13:57

如何在 Spring 中正确注入和使用抽象类的子类 Bean

2026-03-12 14:07

高德地图路线规划耗时过长怎么办

2026-03-12 14:07

阿里旺旺网页版登录入口在哪

2026-03-12 14:18

高效求解轮盘弹跳路径：基于循环检测的 O(n) 时间复杂度优化方案

2026-03-12 14:19

破次元恋人app如何注销

2026-03-12 14:25

App Engine Datastore 中基于游标的分页查询最佳实践

2026-03-12 14:37

如何高效地对字典列表进行排序（Python 教程）

2026-03-12 14:49

怪物乐土巨魔在哪里抓怪物乐土巨魔位置

2026-03-12 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22