如何为重复出现的单词保留所有行号映射关系

碧海醫心

发布时间：2026-01-31 09:17:15

953人浏览过

来源于php中文网

原创

如何为重复出现的单词保留所有行号映射关系

本文讲解如何正确构建单词到行号的多对一映射字典，解决因字典键重复导致旧值被覆盖的问题，使用 `defaultdict(list)` 实现每个单词对应全部出现位置。

在处理带编号的词汇文件（如 1 fire、3 fire）时，若直接用字典推导式 {word: int(num) for num, word in ...}，由于字典键（即单词）不可重复，后出现的键值对会无条件覆盖先前同名键的值——例如 fire 最终只保留 3，而丢失 1。这显然违背了“记录单词所有出现位置”的需求。

正确做法是将每个单词映射为行号列表，而非单个数字。推荐使用 collections.defaultdict(list)，它能自动为新键初始化空列表，避免手动检查键是否存在：

from collections import defaultdict

word_to_number = defaultdict(list)
with open(file, "r") as f:
    for line in f:
        line = line.strip()
        if not line:  # 跳过空行
            continue
        parts = line.split()
        if len(parts) < 2:
            continue  # 跳过格式异常行
        num_str, word = parts[0], " ".join(parts[1:])  # 兼容单词含空格（如 "north wind"）
        word_to_number[word].append(int(num_str))

✅ 优势说明：

HaiSnap

一站式AI应用开发和部署工具

下载

defaultdict(list) 确保 word_to_number["fire"] 返回 [1, 3]，完整保留所有位置；
支持反向查询：for num in word_to_number["fire"]: print(num) 输出 1 和 3；
若需快速获取首次/末次出现位置，可进一步封装：first_occurrence = word_to_number["fire"][0] 或 last_occurrence = word_to_number["fire"][-1]。

⚠️ 注意事项：

原始推导式本质是“键优先”结构，天然不支持一对多；强行改写（如用 itertools.groupby）反而降低可读性；
若后续需频繁按行号查单词（如 get_word_at_line(4)），应额外构建正向字典 number_to_word = {1:"fire", 2:"water", ...}；
文件解析时务必做基础校验（空行、字段数），避免 ValueError。

总结：当数据存在“一词多址”语义时，拒绝用普通字典覆盖式赋值；拥抱 defaultdict(list) 或手动初始化 dict.setdefault(key, []).append(value)，这是构建多值映射的Python标准实践。

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

如何高效将CSV数据导入Word并生成表格

相关标签:

word python app win 键值对 print for 封装 int append word

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用循环批量生成二值化 DataFrame 集合（每列仅一个 1）下一篇：Python 中的条件嵌套：正确缩进实现多分支游戏逻辑

作者最新文章

如何在函数中创建并管理多个类实例以进行跨调用比较

2026-01-29 16:41

内存价格暴涨！iPhone 18系列起售价竟没变

2026-01-29 16:42

promovie如何拍照片

2026-01-29 16:51

黄仁勋访华取得成果数十万颗英伟达H200芯片订单获批：我国回应

2026-01-29 16:59

Go 中接口实现与方法接收者类型匹配的原理详解

2026-01-29 17:02

动态生成多页面并实现 URL 路由跳转的 JavaScript 教程

2026-01-29 17:21

如何重置或继承 HTML 元素的 CSS 属性值（而非使用 initial）

2026-01-29 17:26

CDPR创意总监发布《往日之影》截图暗示续作过场仍为第一人称

2026-01-29 17:33

《GTA6》狂热粉为窥探新作用无人机偷拍R星办公室

2026-01-29 17:34

微信callkit怎么设置

2026-01-29 17:44

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

186

2023.09.27

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

483

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

545

2024.08.29