如何基于多列数据生成结构化文本新列

花韻仙語

发布时间：2026-01-13 17:48:09

665人浏览过

来源于php中文网

原创

如何基于多列数据生成结构化文本新列

本文介绍如何在pandas中按逻辑分组并组合多列信息，动态生成符合业务语义的文本新列（如个性化邀请消息），重点解决重复`head`值需分段聚合、排除同名成员、保留原始顺序等关键问题。

在数据分析与报表生成中，常需将结构化数据（如姓名、分组标识）转化为自然语言文本。本例中，目标是为每个连续的 head 分组生成一条定制化邀请消息，格式为：
“Hi [头名], we invite you, [其他成员列表]. Please use "[完整head]" when arriving.”

难点在于：

head 列存在重复值（如 "Abba As" 出现两次），但需视为两个独立邀请批次（因数据已按业务逻辑排序，相同 head 的连续块代表不同场景）；
每组内需提取 head 的首名（空格分割取第一部分）；
members 中若存在与该 head 首名相同的成员（如 "Abba" 与 "Abba As"），应排除自身，仅列出其他受邀人；
成员间用 " and " 连接（非逗号），且需保持原始顺序。

✅ 正确实现步骤

首先，通过比较相邻行识别 head 的连续变化点，构造唯一分组标识：

group = df['head'].ne(df['head'].shift()).cumsum()

此操作为每个连续的 head 块分配一个递增整数标签（如 [0,0,0,1,1,1,2,2,2]），确保 "Abba As" 的两段被分别处理。

Peppertype.ai

高质量AI内容生成软件，它通过使用机器学习来理解用户的需求。

下载

接着，使用 groupby(['head', group], sort=False) 进行双重分组（sort=False 保留原始顺序），并应用自定义函数：

def message(g):
    head_full = g.name[0]  # 当前组的 head 值（如 "Abba As"）
    head_first = head_full.split()[0]  # 提取首名："Abba"
    # 过滤出非首名的 members，并用 " and " 连接
    others = ' and '.join([m for m in g['members'] if m != head_first])
    return f'Hi {head_first}, we invite you, {others}. Please use "{head_full}" when arriving.'

out = (df.groupby(['head', group], sort=False)
         .apply(message)
         .droplevel(1)  # 移除辅助分组 level（即 group 标签）
         .reset_index(name='message')
      )

? 关键细节说明： g.name[0] 获取 groupby 的元组键中第一个元素（head 值）；列表推导式 [m for m in g['members'] if m != head_first] 精准排除同名成员，避免 "Abba" 被误邀自己； droplevel(1) 是必需的——因为分组键含两个维度，apply 返回的 Series 默认以双层索引存储，需降维才能 reset_index。

⚠️ 常见误区提醒

❌ 直接 groupby('head') 会合并所有 "Abba As" 行，导致 Ally, Apo, Abba, Arra, Alya 全部混入一条消息，违背业务要求；
❌ 使用 str.contains() 或模糊匹配判断同名易出错（如 "Abba" 与 "Abbas" 冲突），应严格用 == 比较首名；
❌ 忽略 sort=False 可能触发 Pandas 默认重排序，打乱原始分组逻辑。

最终输出严格匹配预期：三行独立消息，每行对应一个连续 head 块，成员列表准确、语法规范、引用完整 head 字符串。此模式可扩展至邮件模板、通知文案、报告摘要等场景，核心在于用 cumsum() 捕捉连续性 + groupby.apply 实现上下文感知的文本合成。

Python Django自定义命令怎么写_management/commands脚本编写实现按周期自动清理数据

Dash App 多下拉框联动失效的典型原因与解决方案

Python手机自动化怎么做_Appium客户端配置与安卓苹果手机APP全量自动化

Dash App 多下拉框联动失效的常见原因与修复方案

Python怎么抓包_mitmproxy实现手机PC中间人网络请求拦截篡改与数据截获

相关标签:

vite ai pandas if sort for 字符串

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：标题：Pandas 数据对比分析：按区域层级统计客户变动并汇总明细名单下一篇：Peewee 会覆盖 MySQL 的全局 SQL 模式，导致严格模式失效

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

409

2023.09.04