0

0

如何在 Python 中根据条件从 CSV 文件中检索对应列的值

碧海醫心

碧海醫心

发布时间:2026-02-28 09:13:11

|

240人浏览过

|

来源于php中文网

原创

如何在 Python 中根据条件从 CSV 文件中检索对应列的值

本文介绍使用 pandas 读取 csv 后,基于字符串子串匹配(如“ed”出现在 col1 中)快速获取对应 col2 值的多种高效方法,涵盖单匹配、多匹配场景,并提供健壮的代码实现与关键注意事项。

本文介绍使用 pandas 读取 csv 后,基于字符串子串匹配(如“ed”出现在 col1 中)快速获取对应 col2 值的多种高效方法,涵盖单匹配、多匹配场景,并提供健壮的代码实现与关键注意事项。

在数据处理中,常需根据某一列(如文本列)的模糊条件(例如子串存在性)快速定位并提取另一列(如数值列)的对应值。CSV 文件结构为两列:Col1(字符串类型)和 Col2(整数类型),目标是:当 Col1 中任意单元格包含用户输入的子串时,返回其同行 Col2 的值

✅ 推荐方案一:单匹配 —— 使用字典 + next()(高效且简洁)

该方法将 Col1 设为索引、Col2 作为值构建映射字典,再通过生成器表达式查找首个匹配项。时间复杂度接近 O(n),避免了 DataFrame 全表扫描,适合只需首个结果的场景:

import pandas as pd

# 示例:从文件读取(生产环境请添加异常处理)
file_name = input("Enter CSV file name: ").strip()
try:
    df = pd.read_csv(file_name)
    # 确保列名正确(可选:添加列名校验)
    if 'Col1' not in df.columns or 'Col2' not in df.columns:
        raise ValueError("CSV must contain 'Col1' and 'Col2' columns.")
except FileNotFoundError:
    print(f"Error: File '{file_name}' not found.")
    exit(1)
except Exception as e:
    print(f"Error reading CSV: {e}")
    exit(1)

search_term = input("Enter search term: ").strip()

# 构建 {Col1_value: Col2_value} 字典(自动去重,保留最后出现的映射)
lookup_dict = df.set_index('Col1')['Col2'].to_dict()

# 查找首个匹配项;未找到则返回 None
result = next((val for key, val in lookup_dict.items() if search_term in str(key)), None)

if result is not None:
    print(f"Found matching Col2 value: {result}")
else:
    print("No match found.")

⚠️ 注意:set_index().to_dict() 对重复 Col1 值会覆盖(保留最后一行),若原始数据中 Col1 可能重复且需全部匹配,请勿用此法。

✅ 推荐方案二:多匹配 —— 直接遍历 zip()(清晰可控,支持全量返回)

当需返回所有匹配结果(如多个“red”、“bed”、“led”均含“ed”),或需同时获取行号、原始索引等上下文信息时,推荐直接迭代 zip(df['Col1'], df['Col2']):

Logo Galleria
Logo Galleria

免费在线AI Logo生成工具,打造定制Logo

下载

立即学习Python免费学习笔记(深入)”;

matches = []
for col1_val, col2_val in zip(df['Col1'], df['Col2']):
    if isinstance(col1_val, str) and search_term in col1_val:  # 安全检查:确保为字符串
        matches.append(col2_val)

if matches:
    print(f"All matching Col2 values: {matches}")
    # 或逐行输出(含位置提示)
    for i, (c1, c2) in enumerate(zip(df['Col1'], df['Col2'])):
        if isinstance(c1, str) and search_term in c1:
            print(f"Match at row {i} (0-indexed): Col1='{c1}' → Col2={c2}")
else:
    print("No matches found.")

? 避免低效写法:慎用 df.apply(...str.contains()) 全表扫描

原始提问中使用的 df.apply(lambda col: col.astype(str).str.contains(...)) 存在明显缺陷:

  • 所有列执行 str.contains,而我们仅关心 Col1;
  • nonzero() 返回的是布尔矩阵的坐标,无法直接关联到 Col2 值;
  • 计算开销大,且逻辑冗余。

✅ 正确做法(若坚持用 pandas 向量化)应限定列并直接筛选:

# ✅ 更优的 pandas 向量化方式(单/多匹配皆可)
mask = df['Col1'].astype(str).str.contains(search_term, case=False, na=False)
matched_values = df[mask]['Col2'].tolist()
if matched_values:
    print(f"Vectorized match: {matched_values}")

? 总结与最佳实践建议

场景 推荐方法 优势 注意事项
只需第一个匹配值 字典 + next() 最快、内存友好、代码简洁 Col1 重复时结果不确定;需预处理非字符串值
需所有匹配值或额外上下文 zip() 显式循环 逻辑透明、易调试、兼容任意数据类型 小数据集性能足够,大数据集仍高效
强调 pandas 风格 & 批量处理 str.contains() + 布尔索引 向量化、可链式操作 注意 na=False 处理空值,case=False 控制大小写

最后提醒:始终对用户输入(文件名、搜索词)做 .strip() 清洗;对 CSV 读取添加 try-except;对 Col1 数据做 str() 类型转换或 isinstance 检查,以提升鲁棒性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

11

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

312

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

97

2026.02.12

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

218

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

2

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号