0

0

标题:Pandas对比两个客户数据表并按区域分组统计变动明细(含姓名列表)

心靈之曲

心靈之曲

发布时间:2026-01-13 14:27:09

|

195人浏览过

|

来源于php中文网

原创

标题:Pandas对比两个客户数据表并按区域分组统计变动明细(含姓名列表)

本文详解如何使用pandas对比两个时间点的客户数据表,按zone/region/district三级分组,完整统计客户数量变化(转入、转出、新增、流失),并精准聚合对应客户姓名列表。

在客户运营分析中,常需追踪跨周期的客户地理分布变动——例如某月初(df1)与月末(df2)客户所属的 Zone→Region→District 层级是否发生变化。仅统计数量变化远远不够,业务方更关注“谁转走了”“谁新来了”“谁转入本区”,因此必须将客户姓名以列表形式聚合到对应分组下。

核心思路分为三步:识别变动类型 → 按目标维度分组聚合姓名 → 合并所有维度结果。关键在于正确区分四类客户行为:

  • Transfer In(转入):客户在 df2 中出现在某区,但 df1 中不在该区(可能来自其他区或为新客);
  • Transfer Out(转出):客户在 df1 中位于某区,但 df2 中已不在该区(去往他区或流失);
  • New Customer(新增):客户仅存在于 df2,df1 中无记录;
  • Leaver(流失):客户仅存在于 df1,df2 中已消失。

⚠️ 注意:df1.merge(df2, on='cust_name') 是识别同名客户的基础,但必须配合 suffixes 区分来源字段,并用 apply 判断 District_df1 != District_df2 才能准确捕获“区内转出/转入”(而非单纯增删)。对于纯新增/流失客户,需用 ~isin() 独立筛选,避免被 merge 过滤掉。

以下为可直接运行的完整实现(已适配问题中的数据结构):

Linfo.ai
Linfo.ai

Linfo AI 是一款AI驱动的 Chrome 扩展程序,可以将网页文章、行业报告、YouTube 视频和 PDF 文档转换为结构化摘要。

下载
import pandas as pd

# 构建示例数据
df1 = pd.DataFrame({
    'cust_name': ['cxa', 'cxb', 'cxc', 'cxd', 'cxe', 'cxf'],
    'cust_id': ['c1001', 'c1002', 'c1003', 'c1004', 'c1006', 'c1007'],
    'town_id': ['t001', 't002', 't001', 't003', 't002', 't002'],
    'Zone': ['A', 'A', 'A', 'B', 'A', 'A'],
    'Region': ['A1', 'A2', 'A1', 'B1', 'A2', 'A2'],
    'District': ['A1a', 'A2a', 'A1a', 'B1a', 'A2b', 'A2b']
})

df2 = pd.DataFrame({
    'cust_name': ['cxb', 'cxc', 'cxd', 'cxe', 'cxf'],
    'cust_id': ['c1002', 'c1003', 'c1004', 'c1006', 'c1007'],
    'town_id': ['t002', 't001', 't003', 't002', 't002'],
    'Zone': ['A', 'A', 'A', 'A', 'C'],
    'Region': ['A2', 'A1', 'A1', 'A2', 'C1'],
    'District': ['A2a', 'A1a', 'A1a', 'A2a', 'C1a']
})

# 步骤1:识别转入与转出客户(仅针对共同客户)
merged = df1.merge(df2, on='cust_name', suffixes=('_df1', '_df2'))
# 标记:District变化即为转移(非新增/流失)
transfers = merged[merged['District_df1'] != merged['District_df2']].copy()
transfers['TransferIn_Zone'] = transfers['Zone_df2']
transfers['TransferIn_Region'] = transfers['Region_df2']
transfers['TransferIn_District'] = transfers['District_df2']
transfers['TransferOut_Zone'] = transfers['Zone_df1']
transfers['TransferOut_Region'] = transfers['Region_df1']
transfers['TransferOut_District'] = transfers['District_df1']

# 提取转入客户(按df2位置分组)
transfer_in = transfers[['TransferIn_Zone', 'TransferIn_Region', 'TransferIn_District', 'cust_name']]
transfer_in.columns = ['Zone', 'Region', 'District', 'NamesTransferIn']
transfer_in_grouped = transfer_in.groupby(['Zone', 'Region', 'District'])['NamesTransferIn'].apply(list).reset_index()

# 提取转出客户(按df1位置分组)
transfer_out = transfers[['TransferOut_Zone', 'TransferOut_Region', 'TransferOut_District', 'cust_name']]
transfer_out.columns = ['Zone', 'Region', 'District', 'NamTransferOut']
transfer_out_grouped = transfer_out.groupby(['Zone', 'Region', 'District'])['NamTransferOut'].apply(list).reset_index()

# 步骤2:识别纯新增与纯流失客户
leavers = df1[~df1['cust_name'].isin(df2['cust_name'])][['cust_name', 'Zone', 'Region', 'District']]
leavers_grouped = leavers.groupby(['Zone', 'Region', 'District'])['cust_name'].apply(list).reset_index().rename(columns={'cust_name': 'NamLeaver'})

new_customers = df2[~df2['cust_name'].isin(df1['cust_name'])][['cust_name', 'Zone', 'Region', 'District']]
new_customers_grouped = new_customers.groupby(['Zone', 'Region', 'District'])['cust_name'].apply(list).reset_index().rename(columns={'cust_name': 'NamNewCustomer'})

# 步骤3:合并全部结果(outer join确保不遗漏任何地理单元)
result = pd.merge(transfer_in_grouped, transfer_out_grouped, on=['Zone','Region','District'], how='outer')
result = pd.merge(result, leavers_grouped, on=['Zone','Region','District'], how='outer')
result = pd.merge(result, new_customers_grouped, on=['Zone','Region','District'], how='outer')

# 填充空值为清晰空字符串(非NaN)
result = result.fillna('').replace({'': []})

print(result)

✅ 输出说明:

  • 每行代表一个 (Zone, Region, District) 组合;
  • 各 Names* 列均为 list 类型(如 ['cxd']),便于后续展开或导出;
  • 若某类变动不存在,则对应列为 [](空列表),语义明确且利于程序判断。

? 进阶提示:

  • 如需生成 Initial Count/Final Count 等数值列,可在各分组后添加 .size().reset_index(name='count') 并合并;
  • 对于超大数据集,建议用 pd.concat([df1, df2], keys=['df1','df2']) 替代多次 merge,提升性能;
  • 姓名列表若需转为逗号分隔字符串,可追加 .apply(lambda x: ', '.join(x) if x else '')。

此方案兼顾逻辑严谨性与工程可维护性,是客户地理流动分析的典型范式。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

735

2023.08.22

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

254

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

206

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1463

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

617

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

548

2024.03.22

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

Django 教程
Django 教程

共28课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号