0

0

Polars DataFrame 余弦相似度矩阵的构建方法

碧海醫心

碧海醫心

发布时间:2025-10-09 14:57:01

|

1069人浏览过

|

来源于php中文网

原创

Polars DataFrame 余弦相似度矩阵的构建方法

本教程详细介绍了如何在 Polars DataFrame 中高效计算列表类型列之间的余弦相似度,并将其结果转换为一个类似相关系数矩阵的宽格式 DataFrame。文章将通过 join_where 生成数据组合,利用 Polars 原生表达式计算余弦相似度,并最终通过 pivot 操作构建出完整的对称相似度矩阵。

引言

在数据分析和机器学习领域,我们经常需要计算数据点之间的相似度。当数据以向量(或列表)的形式存储在 dataframe 的列中时,余弦相似度是一种常用的度量标准。polars 作为一种高性能的 dataframe 库,提供了强大的表达式引擎来处理这类计算。然而,直接将自定义的 python 函数应用于 polars 的聚合操作(如 pivot)可能会遇到 attributeerror: 'function' object has no attribute '_pyexpr' 等问题,这通常是因为 polars 期望接收其内部表达式而不是普通的 python 函数。本文将展示如何利用 polars 的原生特性,优雅地解决这一问题,从而生成一个完整的余弦相似度矩阵。

数据准备

首先,我们定义一个包含列表数据的 Polars DataFrame,这是我们进行相似度计算的基础。

import polars as pl
from numpy.linalg import norm # 虽然这里引入了norm,但在Polars原生表达式中我们有更优解

data = {
    "col1": ["a", "b", "c", "d"],
    "col2": [[-0.06066, 0.072485, 0.548874, 0.158507],
             [-0.536674, 0.10478, 0.926022, -0.083722],
             [-0.21311, -0.030623, 0.300583, 0.261814],
             [-0.308025, 0.006694, 0.176335, 0.533835]],
}

df = pl.DataFrame(data)
print("原始 DataFrame:")
print(df)

输出:

原始 DataFrame:
shape: (4, 2)
┌──────┬─────────────────────────────────┐
│ col1 ┆ col2                            │
│ ---  ┆ ---                             │
│ str  ┆ list[f64]                       │
╞══════╪═════════════════════════════════╡
│ a    ┆ [-0.06066, 0.072485, … 0.15850… │
│ b    ┆ [-0.536674, 0.10478, … -0.0837… │
│ c    ┆ [-0.21311, -0.030623, … 0.2618… │
│ d    ┆ [-0.308025, 0.006694, … 0.5338… │
└──────┴─────────────────────────────────┘

我们的目标是计算 col1 中每个唯一值(例如 'a', 'b', 'c', 'd')对应的 col2 列表之间的余弦相似度,并最终生成一个交叉矩阵。

Polars 中的余弦相似度计算原理

余弦相似度的数学公式为: $ \text{cosine_similarity}(A, B) = \frac{A \cdot B}{|A| \cdot |B|} $ 其中,$A \cdot B$ 是向量 $A$ 和 $B$ 的点积,$|A|$ 和 $|B|$ 分别是向量 $A$ 和 $B$ 的欧几里得范数(L2 范数)。

在 Polars 中,我们可以将这个公式转化为表达式。值得注意的是,从 Polars 1.8.0 版本开始,Polars 引入了原生的列表算术操作,使得余弦相似度的计算更加高效和简洁。

# 定义 Polars 表达式形式的余弦相似度函数
def calculate_cosine_similarity_expr(x: pl.Expr, y: pl.Expr) -> pl.Expr:
    """
    计算两个列表列之间的余弦相似度 Polars 表达式。
    要求 Polars 版本 >= 1.8.0 以获得最佳性能。
    """
    dot_product = (x * y).list.sum()
    norm_x = (x * x).list.sum().sqrt()
    norm_y = (y * y).list.sum().sqrt()
    return dot_product / (norm_x * norm_y)

# 示例使用:
# cosine_similarity_expr = calculate_cosine_similarity_expr(pl.col("col2"), pl.col("col2_right"))

这个表达式利用了 Polars 的列表乘法 (x * y) 来实现元素级别的乘积,然后通过 list.sum() 求和得到点积。欧几里得范数通过 (x * x).list.sum().sqrt() 来计算。这种方式完全在 Polars 的表达式引擎中执行,避免了 Python UDF 的性能开销。

生成数据组合

为了计算所有可能的 pairwise 相似度,我们需要将 DataFrame 中的每一行与所有其他行(包括自身)进行组合。with_row_index() 和 join_where() 是实现这一目标的强大工具

  1. 添加行索引: 使用 with_row_index() 为每一行添加一个唯一的索引。
  2. 条件连接: 使用 join_where() 进行自连接,并设置条件 pl.col.index <= pl.col.index_right。这个条件确保我们只生成一次组合(例如,(a, b) 而不是 (a, b) 和 (b, a)),并且包含自相似度 (a, a)。
# 转换为 lazy DataFrame 以优化性能
lazy_df = df.with_row_index().lazy()

# 生成组合
combinations_df = lazy_df.join_where(lazy_df, pl.col.index <= pl.col.index_right).collect()

print("\n生成的所有组合 (部分):")
print(combinations_df.head())

输出:

生成的所有组合 (部分):
shape: (5, 6)
┌───────┬──────┬─────────────────────────────────┬─────────────┬────────────┬─────────────────────────────────┐
│ index ┆ col1 ┆ col2                            ┆ index_right ┆ col1_right ┆ col2_right                      │
│ ---   ┆ ---  ┆ ---                             ┆ ---         ┆ ---        ┆ ---                             │
│ u32   ┆ str  ┆ list[f64]                       ┆ u32         ┆ str        ┆ list[f64]                       │
╞═══════╪══════╪═════════════════════════════════╪═════════════╪════════════╪═════════════════════════════════╡
│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 0           ┆ a          ┆ [-0.06066, 0.072485, … 0.15850… │
│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… │
│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… │
│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… │
│ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… │
└───────┴──────┴─────────────────────────────────┴─────────────┴────────────┴─────────────────────────────────┘

这个 DataFrame 包含了所有需要计算相似度的向量对。col2 和 col2_right 分别代表了组合中的两个向量。

Cliclic AI
Cliclic AI

Cliclic商品背景图编辑器是一款功能强大的AI工具,帮助用户快速生成具有吸引力的商品图背景。

下载

计算所有组合的余弦相似度

现在,我们将上面定义的余弦相似度表达式应用于 combinations_df 中的 col2 和 col2_right 列。

# 计算余弦相似度
similarity_results = (
    lazy_df.join_where(lazy_df, pl.col.index <= pl.col.index_right)
    .select(
        col="col1",
        other="col1_right",
        cosine=calculate_cosine_similarity_expr(
            x=pl.col.col2,
            y=pl.col.col2_right
        )
    )
).collect()

print("\n计算出的余弦相似度 (部分):")
print(similarity_results)

输出:

计算出的余弦相似度 (部分):
shape: (10, 3)
┌─────┬───────┬──────────┐
│ col ┆ other ┆ cosine   │
│ --- ┆ ---   ┆ ---      │
│ str ┆ str   ┆ f64      │
╞═════╪═══════╪══════════╡
│ a   ┆ a     ┆ 1.0      │
│ a   ┆ b     ┆ 0.856754 │
│ a   ┆ c     ┆ 0.827877 │
│ a   ┆ d     ┆ 0.540282 │
│ b   ┆ b     ┆ 1.0      │
│ b   ┆ c     ┆ 0.752199 │
│ b   ┆ d     ┆ 0.411564 │
│ c   ┆ c     ┆ 1.0      │
│ c   ┆ d     ┆ 0.889009 │
│ d   ┆ d     ┆ 1.0      │
└─────┴───────┴──────────┘

similarity_results DataFrame 包含了每对 col1 值的余弦相似度。由于我们使用了 index <= index_right 的条件,所以它只包含了上三角矩阵和对角线上的值。

构建相似度矩阵

为了得到一个完整的对称相似度矩阵,我们需要处理非对角线元素的对称性(即 cosine(A, B) 等于 cosine(B, A))。我们可以通过以下步骤完成:

  1. 复制并反转非对角线元素: 筛选出 col != other 的行,然后交换 col 和 other 列的值,形成反向的组合。
  2. 合并结果: 将原始的 similarity_results 与反转后的结果合并。
  3. 透视: 使用 pivot() 方法将数据从长格式转换为宽格式,形成最终的矩阵。
final_similarity_matrix = (
    pl.concat(
        [
            similarity_results,
            # 筛选非对角线元素,并反转 col 和 other
            similarity_results.filter(pl.col.col != pl.col.other)
                               .select(col="other", other="col", cosine="cosine")
        ]
    )
    .pivot(
        values="cosine",
        index="col",
        columns="other"
    )
)

print("\n最终的余弦相似度矩阵:")
print(final_similarity_matrix)

输出:

最终的余弦相似度矩阵:
shape: (4, 5)
┌─────┬──────────┬──────────┬──────────┬──────────┐
│ col ┆ a        ┆ b        ┆ c        ┆ d        │
│ --- ┆ ---      ┆ ---      ┆ ---      ┆ ---      │
│ str ┆ f64      ┆ f64      ┆ f64      ┆ f64      │
╞═════╪══════════╪══════════╪══════════╪══════════╡
│ a   ┆ 1.0      ┆ 0.856754 ┆ 0.827877 ┆ 0.540282 │
│ b   ┆ 0.856754 ┆ 1.0      ┆ 0.752199 ┆ 0.411564 │
│ c   ┆ 0.827877 ┆ 0.752199 ┆ 1.0      ┆ 0.889009 │
│ d   ┆ 0.540282 ┆ 0.411564 ┆ 0.889009 ┆ 1.0      │
└─────┴──────────┴──────────┴──────────┴──────────┘

现在我们得到了一个与期望输出完全一致的余弦相似度矩阵,其中行和列都由 col1 的唯一值表示,矩阵中的每个元素代表相应两个向量的余弦相似度。

注意事项与性能优化

  1. Polars 版本: 上述余弦相似度表达式利用了 Polars 1.8.0 及更高版本中引入的原生列表算术功能。如果使用较旧的 Polars 版本,可能需要采用不同的方法(例如使用 apply 配合 Python UDF,但这会牺牲性能)。强烈建议升级到最新版本的 Polars 以获得最佳性能和功能。
  2. 避免 Python UDFs: 尽量避免在 Polars 中使用 Python 用户自定义函数(UDFs),尤其是在性能敏感的场景。Polars 的表达式引擎经过高度优化,能够利用多核并行计算,而 UDFs 会强制数据在 Polars 内部和 Python 解释器之间来回移动,导致性能下降。本教程中的方法完全避免了 UDFs。
  3. 惰性计算 (.lazy()): 在处理大型数据集时,将 DataFrame 转换为惰性模式 (.lazy()) 可以让 Polars 优化查询计划,从而提高内存效率和执行速度。在最终 collect() 之前,Polars 不会实际执行计算。
  4. 内存管理: 对于非常大的数据集,生成所有组合可能会消耗大量内存。join_where 配合 lazy() 已经相对高效,但仍需注意数据集大小。

总结

本教程展示了在 Polars 中构建余弦相似度矩阵的完整流程。通过巧妙地结合 with_row_index()、join_where() 生成数据组合,利用 Polars 原生表达式高效计算余弦相似度,并最终通过 pl.concat() 和 pivot() 将结果转换为易于理解的矩阵形式。这种方法不仅解决了直接使用 Python 函数作为聚合器时的错误,而且充分利用了 Polars 的高性能特性,为处理大规模向量相似度计算提供了专业且高效的解决方案。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

499

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

166

2023.10.07

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

114

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

99

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

36

2025.12.30

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

47

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号