Polars 中高效判断字符串列是否包含另一列内容的 scalable 方法

聖光之護

发布时间：2026-03-14 13:35:03

133人浏览过

来源于php中文网

原创

Polars 中高效判断字符串列是否包含另一列内容的 scalable 方法

本文介绍在 Polars 中无需 map_elements 即可高效、向量化地实现“列 B 的每个字符串是否为列 A 对应字符串子串”的判断，推荐使用 str.contains() 表达式，兼顾性能、可读性与扩展性。

本文介绍在 polars 中无需 `map_elements` 即可高效、向量化地实现“列 b 的每个字符串是否为列 a 对应字符串子串”的判断，推荐使用 `str.contains()` 表达式，兼顾性能、可读性与扩展性。

在处理大规模字符串匹配任务时，避免使用 map_elements 是提升 Polars 性能的关键原则之一。该方法虽灵活，但会触发 Python 层逐行迭代，丧失 Polars 底层 Rust 引擎的向量化优势，导致内存占用高、执行慢，且无法利用查询优化器。

正确的 scalable 方案是直接调用字符串表达式 pl.col('A').str.contains(pl.col('B'))。该操作完全在 Polars 表达式引擎中完成，支持零拷贝、并行执行和惰性求值（尤其在 LazyFrame 中效果更显著）：

import polars as pl

df = pl.DataFrame({"A": ["foo", "bar", "foo"], "B": ["f", "b", "s"]})

result = df.with_columns(
    B_in_A = pl.col("A").str.contains(pl.col("B"))
)
print(result)

输出：

shape: (3, 3)
┌─────┬─────┬────────┐
│ A   ┆ B   ┆ B_in_A │
│ --- ┆ --- ┆ ---    │
│ str ┆ str ┆ bool   │
╞═════╪═════╪════════╡
│ foo ┆ f   ┆ true   │
│ bar ┆ b   ┆ true   │
│ foo ┆ s   ┆ false  │
└─────┴─────┴────────┘

✅ 优势说明：

听脑AI

听脑AI语音，一款专注于音视频内容的工作学习助手，为用户提供便捷的音视频内容记录、整理与分析功能。

下载

真正向量化：底层调用高度优化的 UTF-8 字符串搜索算法（如 Boyer-Moore 变体），不涉及 Python 循环；
支持正则与字面量控制：默认 literal=False（启用正则），若 B 列含特殊字符（如 .、*）需精确字面匹配，请显式设 literal=True：
```
pl.col("A").str.contains(pl.col("B"), literal=True)
```
空值安全：当 A 或 B 任一值为 null 时，结果自动为 null（符合 Polars 空值语义）；
可组合性强：可无缝嵌入复杂表达式链，例如结合 when/then/otherwise 做条件标记，或与 filter()、group_by() 联用。

⚠️ 注意事项：

str.contains() 默认区分大小写。如需忽略大小写，添加 strict=False 参数（Polars ≥ 0.20.16）或先统一转小写：
```
pl.col("A").str.to_lowercase().str.contains(pl.col("B").str.to_lowercase(), literal=True)
```
若 B 列存在空字符串 ""，contains("") 恒返回 True（因空字符串是任意字符串的子串），业务上需提前过滤或特殊处理；
在 LazyFrame 场景下，该表达式可被进一步优化（如谓词下推、列裁剪），务必优先采用 .lazy().with_columns(...).collect() 模式处理大数据集。

总之，用 str.contains() 替代 map_elements 不仅代码更简洁，更是 Polars “声明式 + 向量化”设计哲学的典型实践——让数据引擎做它最擅长的事。

相关标签:

rust NULL Filter 字符串循环算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Pandas applymap怎么用_对DataFrame每一个单元格执行相同函数下一篇：如何高效提取二维列表间的非匹配元素

作者最新文章

Go 中为何不能直接转换切片类型？深入解析类型转换规则与安全替代方案

2026-03-12 09:23

Vue 中实现多选限制：仅允许勾选 3 项，其余自动禁用（支持反选）

2026-03-12 09:25

OpenGL 3.x 渲染 20K 精灵体（Sprites）性能优化实战指南

2026-03-12 09:26

上海停车app如何进行预约

2026-03-12 09:27

vscode源控件里怎么好多数字

2026-03-12 09:43

Java 中正确解码 Unicode 私用区（PUA）字符的完整指南

2026-03-12 09:46

《生化危机9》MOD让疯狂难度更难被丧尸咬了会感染

2026-03-12 09:47

如何让图片的20%移出网页可视区域实现“半隐式”视觉效果

2026-03-12 10:09

如何在 Go 的 flag 包中为必需的位置参数提供清晰的 Usage 提示

2026-03-12 10:10

如何让图片的20%移出视口实现“半隐式”边缘展示效果

2026-03-12 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指对程序运行时内存的申请、使用和释放进行精细控制的机制，涵盖了栈、堆、静态区等不同区域，开发者需要通过new/delete、智能指针或内存池等方式管理动态内存，以避免内存泄漏、野指针等问题，确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权，带来灵活性，但也伴随高责任，是C++性能优化的关键。

2025.12.22

Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型，深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例，帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

2026.02.11

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05