如何在 Python 中根据条件从 CSV 文件中检索对应列的值

碧海醫心

发布时间：2026-02-28 09:13:11

240人浏览过

来源于php中文网

原创

如何在 Python 中根据条件从 CSV 文件中检索对应列的值

本文介绍使用 pandas 读取 csv 后，基于字符串子串匹配（如“ed”出现在 col1 中）快速获取对应 col2 值的多种高效方法，涵盖单匹配、多匹配场景，并提供健壮的代码实现与关键注意事项。

本文介绍使用 pandas 读取 csv 后，基于字符串子串匹配（如“ed”出现在 col1 中）快速获取对应 col2 值的多种高效方法，涵盖单匹配、多匹配场景，并提供健壮的代码实现与关键注意事项。

在数据处理中，常需根据某一列（如文本列）的模糊条件（例如子串存在性）快速定位并提取另一列（如数值列）的对应值。CSV 文件结构为两列：Col1（字符串类型）和 Col2（整数类型），目标是：当 Col1 中任意单元格包含用户输入的子串时，返回其同行 Col2 的值。

✅ 推荐方案一：单匹配 —— 使用字典 + next()（高效且简洁）

该方法将 Col1 设为索引、Col2 作为值构建映射字典，再通过生成器表达式查找首个匹配项。时间复杂度接近 O(n)，避免了 DataFrame 全表扫描，适合只需首个结果的场景：

import pandas as pd

# 示例：从文件读取（生产环境请添加异常处理）
file_name = input("Enter CSV file name: ").strip()
try:
    df = pd.read_csv(file_name)
    # 确保列名正确（可选：添加列名校验）
    if 'Col1' not in df.columns or 'Col2' not in df.columns:
        raise ValueError("CSV must contain 'Col1' and 'Col2' columns.")
except FileNotFoundError:
    print(f"Error: File '{file_name}' not found.")
    exit(1)
except Exception as e:
    print(f"Error reading CSV: {e}")
    exit(1)

search_term = input("Enter search term: ").strip()

# 构建 {Col1_value: Col2_value} 字典（自动去重，保留最后出现的映射）
lookup_dict = df.set_index('Col1')['Col2'].to_dict()

# 查找首个匹配项；未找到则返回 None
result = next((val for key, val in lookup_dict.items() if search_term in str(key)), None)

if result is not None:
    print(f"Found matching Col2 value: {result}")
else:
    print("No match found.")

⚠️ 注意：set_index().to_dict() 对重复 Col1 值会覆盖（保留最后一行），若原始数据中 Col1 可能重复且需全部匹配，请勿用此法。

✅ 推荐方案二：多匹配 —— 直接遍历 zip()（清晰可控，支持全量返回）

当需返回所有匹配结果（如多个“red”、“bed”、“led”均含“ed”），或需同时获取行号、原始索引等上下文信息时，推荐直接迭代 zip(df['Col1'], df['Col2'])：

Logo Galleria

免费在线AI Logo生成工具，打造定制Logo

下载

立即学习“Python免费学习笔记（深入）”；

matches = []
for col1_val, col2_val in zip(df['Col1'], df['Col2']):
    if isinstance(col1_val, str) and search_term in col1_val:  # 安全检查：确保为字符串
        matches.append(col2_val)

if matches:
    print(f"All matching Col2 values: {matches}")
    # 或逐行输出（含位置提示）
    for i, (c1, c2) in enumerate(zip(df['Col1'], df['Col2'])):
        if isinstance(c1, str) and search_term in c1:
            print(f"Match at row {i} (0-indexed): Col1='{c1}' → Col2={c2}")
else:
    print("No matches found.")

? 避免低效写法：慎用 df.apply(...str.contains()) 全表扫描

原始提问中使用的 df.apply(lambda col: col.astype(str).str.contains(...)) 存在明显缺陷：

对所有列执行 str.contains，而我们仅关心 Col1；
nonzero() 返回的是布尔矩阵的坐标，无法直接关联到 Col2 值；
计算开销大，且逻辑冗余。

✅ 正确做法（若坚持用 pandas 向量化）应限定列并直接筛选：

# ✅ 更优的 pandas 向量化方式（单/多匹配皆可）
mask = df['Col1'].astype(str).str.contains(search_term, case=False, na=False)
matched_values = df[mask]['Col2'].tolist()
if matched_values:
    print(f"Vectorized match: {matched_values}")

? 总结与最佳实践建议

场景	推荐方法	优势	注意事项
只需第一个匹配值	字典 + next()	最快、内存友好、代码简洁	Col1 重复时结果不确定；需预处理非字符串值
需所有匹配值或额外上下文	zip() 显式循环	逻辑透明、易调试、兼容任意数据类型	小数据集性能足够，大数据集仍高效
强调 pandas 风格 & 批量处理	str.contains() + 布尔索引	向量化、可链式操作	注意 na=False 处理空值，case=False 控制大小写