0

0

使用Polars进行复杂条件排序:优化模型错误分析流程

碧海醫心

碧海醫心

发布时间:2025-11-03 10:23:39

|

532人浏览过

|

来源于php中文网

原创

使用Polars进行复杂条件排序:优化模型错误分析流程

本文详细介绍了如何在polars中实现复杂的条件排序,以优化机器学习模型评估和错误分析流程。通过结合多个排序表达式,可以高效地将模型预测结果(如高置信度错误、低置信度正确)按照特定优先级进行排列,从而帮助用户快速识别并分析模型需要改进的区域,避免了传统的分组、排序和合并操作,提高了数据处理的优雅性和效率。

引言:模型评估中的条件排序需求

在机器学习模型的开发和评估过程中,除了整体性能指标外,深入分析模型的错误类型和置信度至关重要。特别是在二分类问题中,我们常常需要优先审查那些模型预测错误但置信度较高的样本,以及预测正确但置信度较低的样本。这种有针对性的审查有助于发现模型在特定场景下的弱点,指导后续的数据增强或模型改进。然而,在数据处理框架中实现这种复杂的条件排序,往往比简单的升序或降序排序更具挑战性。本文将以Polars为例,演示如何优雅地实现这种多条件、多优先级的排序逻辑。

数据准备与问题描述

假设我们有一个包含模型预测结果的Polars DataFrame,其中包含样本名称、真实标签、模型预测、预测置信度以及一个表示预测是否正确的辅助列。我们的目标是按照以下优先级对数据进行排序:

  1. 最优先: 预测错误的样本。
  2. 其次: 在预测错误的样本中,置信度最高的样本排在前面(即置信度降序)。
  3. 再次: 预测正确的样本。
  4. 最后: 在预测正确的样本中,置信度最低的样本排在前面(即置信度升序)。

以下是用于演示的示例数据:

import polars as pl

df = pl.DataFrame({
    "name": ["Alice", "Bob", "Caroline", "Dutch", "Emily", "Frank", "Gerald", "Henry", "Isabelle", "Jack"],
    "truth": [1, 0, 1, 0, 1, 0, 0, 1, 1, 0],
    "prediction": [1, 1, 1, 0, 0, 1, 0, 1, 1, 0],
    "confidence": [0.343474, 0.298461, 0.420634, 0.125515, 0.772971, 0.646964, 0.833705, 0.837181, 0.790773, 0.144983]
}).with_columns(
    (pl.col("truth") == pl.col("prediction")).alias("correct_prediction")
)

print(df)

输出的DataFrame如下:

shape: (10, 5)
┌──────────┬───────┬────────────┬────────────┬────────────────────┐
│ name     ┆ truth ┆ prediction ┆ confidence ┆ correct_prediction │
│ ---      ┆ ---   ┆ ---        ┆ ---        ┆ ---                │
│ str      ┆ i64   ┆ i64        ┆ f64        ┆ bool               │
╞══════════╪═══════╪════════════╪════════════╪════════════════════╡
│ Alice    ┆ 1     ┆ 1          ┆ 0.343474   ┆ true               │
│ Bob      ┆ 0     ┆ 1          ┆ 0.298461   ┆ false              │
│ Caroline ┆ 1     ┆ 1          ┆ 0.420634   ┆ true               │
│ Dutch    ┆ 0     ┆ 0          ┆ 0.125515   ┆ true               │
│ Emily    ┆ 1     ┆ 0          ┆ 0.772971   ┆ false              │
│ Frank    ┆ 0     ┆ 1          ┆ 0.646964   ┆ false              │
│ Gerald   ┆ 0     ┆ 0          ┆ 0.833705   ┆ true               │
│ Henry    ┆ 1     ┆ 1          ┆ 0.837181   ┆ true               │
│ Isabelle ┆ 1     ┆ 1          ┆ 0.790773   ┆ true               │
│ Jack     ┆ 0     ┆ 0          ┆ 0.144983   ┆ true               │
└──────────┴───────┴────────────┴────────────┴────────────────────┘

Polars中的多表达式条件排序策略

Polars的DataFrame.sort()方法接受一个表达式列表,这使得实现复杂的条件排序变得非常灵活。其核心思想是:排序会按照表达式列表中元素的顺序依次进行。当第一个表达式的值相同时,会使用第二个表达式进行排序,以此类推。

为了实现上述复杂的排序逻辑,我们将构造三个排序表达式:

Grokipedia
Grokipedia

xAI推出的AI在线百科全书

下载
  1. 按预测结果分组: pl.col('correct_prediction')。
    • False (预测错误) 在布尔类型排序中会排在 True (预测正确) 之前。这确保了所有错误预测首先出现。
  2. 按置信度排序(针对错误预测): (pl.col('correct_prediction') - 1) * pl.col('confidence')。
    • 当 correct_prediction 为 False (即 0) 时: 表达式变为 (0 - 1) * confidence = -confidence。对负置信度进行升序排序,等同于对原始置信度进行降序排序。因此,错误预测中置信度最高的样本会排在前面。
    • 当 correct_prediction 为 True (即 1) 时: 表达式变为 (1 - 1) * confidence = 0 * confidence = 0。所有正确预测的样本在此排序键上都得到 0,它们之间保持相对顺序,并将排序控制权传递给下一个表达式。
  3. 按置信度排序(针对正确预测): pl.col('confidence')。
    • 此表达式仅对前两个表达式值相同的组(即所有正确预测的样本)起作用。它将按照置信度升序排列,确保正确预测中置信度最低的样本排在前面。

将这三个表达式组合起来,即可实现所需的复杂条件排序。

sorted_df = df.sort([
    pl.col('correct_prediction'),
    (pl.col('correct_prediction') - 1) * pl.col('confidence'),
    pl.col('confidence')
])

print(sorted_df)

排序结果分析

执行上述代码后,我们将得到如下排序结果:

shape: (10, 5)
┌──────────┬───────┬────────────┬────────────┬────────────────────┐
│ name     ┆ truth ┆ prediction ┆ confidence ┆ correct_prediction │
│ ---      ┆ ---   ┆ ---        ┆ ---        ┆ ---                │
│ str      ┆ i64   ┆ i64        ┆ f64        ┆ bool               │
╞══════════╪═══════╪════════════╪════════════╪════════════════════╡
│ Emily    ┆ 1     ┆ 0          ┆ 0.772971   ┆ false              │
│ Frank    ┆ 0     ┆ 1          ┆ 0.646964   ┆ false              │
│ Bob      ┆ 0     ┆ 1          ┆ 0.298461   ┆ false              │
│ Dutch    ┆ 0     ┆ 0          ┆ 0.125515   ┆ true               │
│ Jack     ┆ 0     ┆ 0          ┆ 0.144983   ┆ true               │
│ Alice    ┆ 1     ┆ 1          ┆ 0.343474   ┆ true               │
│ Caroline ┆ 1     ┆ 1          ┆ 0.420634   ┆ true               │
│ Isabelle ┆ 1     ┆ 1          ┆ 0.790773   ┆ true               │
│ Gerald   ┆ 0     ┆ 0          ┆ 0.833705   ┆ true               │
│ Henry    ┆ 1     ┆ 1          ┆ 0.837181   ┆ true               │
└──────────┴───────┴────────────┴────────────┴────────────────────┘

从结果可以看出:

  1. 错误预测优先: 前三行是 Emily, Frank, Bob,它们的 correct_prediction 都是 false。
  2. 错误预测中置信度降序: 在这三行中,Emily (0.772971) 的置信度最高,其次是 Frank (0.646964),最后是 Bob (0.298461)。这符合我们的要求。
  3. 正确预测随后: 紧接着是所有 correct_prediction 为 true 的样本。
  4. 正确预测中置信度升序: 在正确预测的样本中,Dutch (0.125515) 的置信度最低,随后是 Jack (0.144983),依此类推,直到 Henry (0.837181) 置信度最高。这也符合我们的要求。

注意事项与总结

  • 布尔值到整数的隐式转换 Polars在进行算术运算时,会将布尔值 True 视为 1,False 视为 0。这是上述解决方案中 (pl.col('correct_prediction') - 1) 表达式能够工作的关键。
  • 排序表达式的优先级: 表达式列表中的顺序至关重要。Polars会从左到右依次应用排序逻辑。
  • 代码简洁性: 这种方法避免了将DataFrame拆分、分别排序再合并的繁琐步骤,使得代码更加简洁、高效。
  • 适用场景: 这种多表达式排序技术不仅适用于模型评估,还可以应用于任何需要根据多个条件和优先级进行复杂排序的数据分析场景。

通过掌握Polars的这种高级排序技巧,数据科学家和工程师可以更有效地组织和分析数据,从而更快地从模型结果中获取洞察,并加速模型迭代过程。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

395

2023.09.04

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

7

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

7

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

1

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

1

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

16

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

18

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号