0

0

Dunn's Post Hoc检验P值对称性解析:理解秩次计算原理

碧海醫心

碧海醫心

发布时间:2025-09-05 11:02:01

|

338人浏览过

|

来源于php中文网

原创

Dunn's Post Hoc检验P值对称性解析:理解秩次计算原理

本文深入探讨了Python中Dunn's Post Hoc检验在特定情况下出现p值对称性的现象。我们将揭示Dunn检验的核心机制——基于数据秩次而非原始数值进行计算。通过具体代码示例,文章解释了当数据秩次模式一致时,不同组间比较可能产生相同p值的原因,并演示了如何通过改变秩次分布来观察p值的变化,强调了理解非参数检验底层原理的重要性。

1. 引言:非参数多重比较与Dunn's Test

在统计分析中,当我们比较三个或更多独立组的均值时,如果数据不满足参数检验(如anova)的假设(例如,数据不服从正态分布或方差不齐),我们通常会选择非参数方法。kruskal-wallis h检验就是这样一种用于比较多组中位数是否存在显著差异的非参数检验。

然而,Kruskal-Wallis检验只能告诉我们至少有一组与其他组存在显著差异,但不能指出具体是哪几组之间存在差异。为了进一步探究组间的具体差异,我们需要进行事后(Post Hoc)多重比较。Dunn's Post Hoc检验是Kruskal-Wallis检验后常用的一种非参数事后检验,它通过比较各组的平均秩次来评估它们之间的差异,并通常会进行多重比较校正以控制第一类错误率(Type I error rate)。

2. Dunn's Test中P值对称性的观察

在使用Python的scikit_posthocs库进行Dunn's Post Hoc检验时,有时会观察到一种有趣的现象:不同组对之间的p值可能完全相同。考虑以下示例代码,它使用了一个简单的数据集来演示Kruskal-Wallis检验和Dunn's检验:

import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn

# 原始数据集
data = {
    'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'Values': [10, 15, 12, 18, 20, 22, 25, 28, 30]
}

df = pd.DataFrame(data)

# 执行Kruskal-Wallis检验
statistic, p_value_kruskal = kruskal(df[df['Group'] == 'A']['Values'],
                                     df[df['Group'] == 'B']['Values'],
                                     df[df['Group'] == 'C']['Values'])

print(f"Kruskal-Wallis p-value: {p_value_kruskal:.6f}")

# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results = posthoc_dunn(df, val_col='Values', group_col='Group', p_adjust='holm')

print("\nDunn's Test Results:")
print(posthoc_results)

运行上述代码,我们可能会得到如下Dunn's Test结果:

Kruskal-Wallis p-value: 0.038990

Dunn's Test Results:
          A         B         C
A  1.000000  0.359425  0.021871
B  0.359425  1.000000  0.359425
C  0.021871  0.359425  1.000000

在这个结果中,我们注意到比较A与B的p值(0.359425)与比较B与C的p值(0.359425)是完全相同的。这可能会让初学者感到困惑,误以为是计算错误。

3. 核心原理:Dunn's Test的秩次计算

实际上,这种p值对称性并非错误,而是Dunn's Test计算机制的直接体现。Dunn's Test是一种非参数检验,它不直接使用原始数据值进行计算,而是基于数据的秩次(ranks)。其核心原理如下:

  1. 数据排序与秩次分配: 首先,将所有组的数据合并,并对合并后的所有数据点进行排序(从小到大或从大到小),然后为每个数据点分配一个秩次。如果存在并列值,则分配平均秩次。
  2. 秩次和的比较: 接着,Dunn's Test会计算每个组内数据点的秩次和(或平均秩次)。
  3. 计算检验统计量: 最后,它通过比较不同组的秩次和(或平均秩次)来构建检验统计量,进而计算p值。

当数据集中的秩次模式具有某种对称性时,就会出现p值对称的现象。在上面的例子中,原始数据是[10, 15, 12] for A, [18, 20, 22] for B, [25, 28, 30] for C。如果我们将所有数据合并并排序,你会发现组A、B、C的数值是连续递增的,且每组内部的相对大小关系也保持一致。这种“秩次距离”的模式(例如,从A到B的秩次变化模式与从B到C的秩次变化模式相似)导致了计算出的p值相同。

Removal.AI
Removal.AI

AI移出图片背景工具

下载

简单来说,Dunn's Test关心的是数据点的相对位置(秩次),而不是它们的绝对数值大小。如果两个不同的组对(如A vs B和B vs C)在秩次上的“距离”或差异模式是相同的,那么它们将产生相同的p值。

4. 通过改变秩次验证原理

为了进一步证明Dunn's Test是基于秩次而非原始值,我们可以修改数据集,使其原始值发生变化,但关键在于改变其秩次模式

import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn

# 修改后的数据集:交换了A组和B组的一个值,改变了秩次模式
data_modified = {
    'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'Values': [10, 18, 12, 15, 20, 22, 25, 28, 30] # 原始A组的15与B组的18互换
}

df_modified = pd.DataFrame(data_modified)

# 执行Kruskal-Wallis检验
statistic, p_value_kruskal_modified = kruskal(df_modified[df_modified['Group'] == 'A']['Values'],
                                              df_modified[df_modified['Group'] == 'B']['Values'],
                                              df_modified[df_modified['Group'] == 'C']['Values'])

print(f"Modified Kruskal-Wallis p-value: {p_value_kruskal_modified:.6f}")

# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results_modified = posthoc_dunn(df_modified, val_col='Values', group_col='Group', p_adjust='holm')

print("\nModified Dunn's Test Results:")
print(posthoc_results_modified)

运行上述修改后的代码,我们将得到不同的Dunn's Test结果:

Modified Kruskal-Wallis p-value: 0.038990

Modified Dunn's Test Results:
          A         B         C
A  1.000000  0.296718  0.033810
B  0.296718  1.000000  0.272074
C  0.033810  0.272074  1.000000

可以看到,在修改后的数据集中,A与B的p值(0.296718)与B与C的p值(0.272074)不再相同。这是因为我们通过交换两个值,改变了整体数据的秩次排列,进而改变了组间秩次模式的“距离”,导致了不同的p值。

进一步的例子: 即使原始数值的绝对差异非常大,只要它们的秩次模式与原始示例相同,Dunn's Test的结果也会与原始示例相同。例如,使用数据[0, 1, 2, 15, 20, 22, 250, 280, 300](分别属于A, B, C组),其秩次模式与初始示例完全一致,因此Dunn's Test也会返回与初始示例相同的p值对称结果。

5. 注意事项与总结

  • 非错误现象: Dunn's Test中出现的p值对称性并非软件错误或计算错误,而是其基于秩次计算的固有特性。
  • 理解秩次: 深入理解非参数检验(如Dunn's Test)是基于数据秩次而非原始数值进行计算,对于正确解释结果至关重要。
  • 数据模式的影响: 数据的排列顺序和秩次模式直接影响非参数检验的结果。当不同组对之间的秩次“距离”相似时,可能导致p值相同。
  • 适用场景: Dunn's Test适用于Kruskal-Wallis检验后,需要进行多重比较以确定具体哪些组之间存在显著差异的场景,尤其当数据不满足参数检验的假设时。

总之,Dunn's Post Hoc检验通过比较各组的秩次来评估差异。当观察到p值对称时,这通常意味着被比较的组对在整体数据中的秩次分布模式具有相似性。理解这一底层原理有助于研究者更准确地解读统计结果,避免不必要的困惑。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

228

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.10.25

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

72

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

72

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号