本文详解为何直接用 set() 和 np.unique() 分别处理文本列表与嵌入数组会导致长度不一致,并提供高效、准确的同步去重方案,确保文本与对应嵌入严格对齐。
本文详解为何直接用 `set()` 和 `np.unique()` 分别处理文本列表与嵌入数组会导致长度不一致,并提供高效、准确的同步去重方案,确保文本与对应嵌入严格对齐。
在使用 Sentence Transformers(如 "all-mpnet-base-V2")批量生成文本嵌入时,常遇到原始文本存在重复的情况。为节省计算资源并提升后续分析效率,需对文本及其对应嵌入进行同步去重——即保留每个唯一文本的首次出现位置,并提取其对应的嵌入向量。然而,若分别对 titles 使用 set()、对 embeddings 使用 np.unique(axis=0),极易得到不等长的结果,根本原因在于:
- set(titles) 是无序哈希去重,不保留原始索引顺序,且无法关联到嵌入;
- np.unique(embeddings, axis=0) 是对浮点向量做数值级去重,受浮点精度、舍入误差或微小梯度扰动影响,即使语义相同的文本,其嵌入也可能因计算路径差异而存在极小数值偏差(例如 1e-8 量级),导致被判定为“不同”;
- 更关键的是:二者操作完全独立,未建立文本与嵌入之间的索引映射关系,因此结果长度自然不具可比性。
✅ 正确做法是:基于文本去重,同时获取其在原始序列中的首次出现索引,再用该索引筛选嵌入数组。numpy.unique() 提供了 return_index=True 参数,完美解决此问题:
import numpy as np
# 示例数据(实际中 titles 长度可达数万,embeddings 为 (N, 768) 形状)
titles = ["AI model", "LLM", "AI model", "vector search", "LLM"]
embeddings = np.array([
[0.1234, -0.5678, 0.9012, ...], # shape: (len(titles), embedding_dim)
[0.4567, 0.2345, -0.8765, ...],
[0.1235, -0.5677, 0.9013, ...], # 注意:与第0条极相似但不完全相等(浮点误差)
[0.7890, 0.1111, 0.2222, ...],
[0.4566, 0.2344, -0.8766, ...]
])
# ✅ 正确同步去重:基于 titles 获取首次出现索引
_, unique_indices = np.unique(titles, return_index=True)
unique_titles = [titles[i] for i in sorted(unique_indices)] # 保持原始顺序(可选)
unique_embeddings = embeddings[sorted(unique_indices)] # 直接索引,高效且保序
print(f"原始长度: {len(titles)} → 去重后文本: {len(unique_titles)}, 嵌入: {len(unique_embeddings)}")
# 输出: 原始长度: 5 → 去重后文本: 3, 嵌入: 3 (严格一致)? 关键优势与注意事项:
- 零浮点敏感性:仅依据字符串相等性去重,完全规避嵌入向量浮点误差带来的误判;
- O(N log N) 时间复杂度:远优于手动 for 循环(O(N²) 查找 if t not in titles_unique);
- 内存友好:无需复制整个嵌入矩阵,仅通过索引切片即可完成;
- 保持原始顺序(推荐):对 unique_indices 排序后索引,使结果按首次出现位置排列,符合直觉;
- 若需严格按字典序排列,可改用 np.unique(..., return_index=True, sort=True)(注意:sort=True 是默认行为,但 return_index 返回的是排序后位置的原始索引,需额外处理;推荐显式 sorted(unique_indices) 更清晰可控)。
? 进阶提示:对于超大规模数据(如百万级文本),可结合 pandas.Series.drop_duplicates(keep='first') 并利用 .index 属性获取索引,同样高效且支持更多去重策略(如 keep='last' 或按其他列分组)。
总之,文本与嵌入的同步去重不是简单的“分别去重”,而是以文本为键、以索引为桥、以向量为值的结构化操作。掌握 np.unique(..., return_index=True) 这一模式,既能保证结果准确性,又能兼顾工程性能,是构建鲁棒文本嵌入流水线的关键实践。










