如何在 LangChain 中保护特定文本块不被切分

花韻仙語

发布时间：2026-02-15 12:29:06

663人浏览过

来源于php中文网

原创

如何在 LangChain 中保护特定文本块不被切分

本文介绍一种灵活、轻量且兼容原生 LangChain 文本切分器的方法，通过正则预处理将带标记（如）的敏感文本块整体保留，再交由 RecursiveCharacterTextSplitter 处理其余部分，从而避免破坏语义完整性。

本文介绍一种灵活、轻量且兼容原生 langchain 文本切分器的方法，通过正则预处理将带标记（如 ``）的敏感文本块整体保留，再交由 `recursivecharactertextsplitter` 处理其余部分，从而避免破坏语义完整性。

在使用 LangChain 构建 RAG 应用时，RecursiveCharacterTextSplitter 是最常用的文本切分工具。但其默认行为会对所有字符（包括空格、换行、标点）一视同仁地切分，无法识别“需整体保留”的关键段落——例如嵌入式代码块、结构化 JSON 片段、法律条款原文或带自定义标签的富文本内容。

直接修改 separators 列表（如将加入优先级最高分隔符）虽可行，但会严重干扰后续切分逻辑：一旦成为分隔符，其后的常规分隔符（如空格、换行、甚至空字符串 ''）就无法按预期参与递归切分，导致 chunk_size 和 chunk_overlap 失效，丧失 LangChain 切分器的核心优势。

✅ 推荐方案：正则预分割 + 分治式切分
核心思想是：先用正则表达式将原文按 ... 边界粗粒度切分为“可切区域”与“不可切区域”，再对两类区域分别应用不同策略——前者交由 RecursiveCharacterTextSplitter 精确处理，后者原样保留并清理标签。

以下是完整、可复用的实现：

万兴喵影

国产剪辑神器

下载

import re
from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_with_protected_blocks(
    text: str,
    protected_tag: str = "<nosplit>",
    chunk_size: int = 500,
    chunk_overlap: int = 100,
    separators: list = ["\n\n", "\n", " ", ""]
) -> list[str]:
    # Step 1: 使用捕获组正则分割 —— 保留含标签的完整块
    # 模式：匹配 <nosplit>...<nosplit> 整体，并确保前后边界清晰
    pattern = rf"({re.escape(protected_tag)}[^]*?{re.escape(protected_tag)})"
    parts = re.split(pattern, text)

    result_chunks = []
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=separators,
        keep_separator=False
    )

    for part in parts:
        if not part.strip():
            continue
        # 若该段以 protected_tag 开头，视为受保护块，整体保留并去标签
        if part.strip().startswith(protected_tag):
            cleaned = part.strip().replace(protected_tag, "").strip()
            if cleaned:  # 避免空块
                result_chunks.append(cleaned)
        # 否则为普通文本，交由 LangChain 切分器处理
        else:
            chunks = splitter.split_text(part)
            result_chunks.extend(chunks)

    return result_chunks

# ✅ 使用示例
nosplit_block = "<nosplit>Keep all this together, very important! Seriously though it is...<nosplit>"
text = "Giggity! " + nosplit_block + " Ahh yeah...\nI just buy a jetski."

chunks = split_with_protected_blocks(
    text=text,
    protected_tag="<nosplit>",
    chunk_size=5,  # 小尺寸便于演示效果
    separators=["\n\n", "\n", " ", ""]  # 完整支持默认分隔符链
)

print(chunks)
# 输出：
# ['Giggity!', 'Keep all this together, very important! Seriously though it is...', 'Ahh', 'yeah...', 'I', 'just', 'buy', 'a', 'jetski.']

? 关键设计说明：

re.split(pattern, text) 使用捕获组 (...)，确保匹配到的 ... 块作为独立元素保留在 parts 列表中，而非被丢弃；
re.escape(protected_tag) 防止标签中含正则元字符（如 [, ], *）引发意外匹配；
[^]*? 是非贪婪匹配任意字符（含换行），确保最短匹配闭合标签；
对普通文本调用 splitter.split_text()，完全复用 LangChain 的递归逻辑（包括 chunk_size、chunk_overlap、多级 separators 回退机制），无功能降级；
受保护块仅做标签剥离与首尾空格清理，零切分，语义完整性 100% 保障。

⚠️ 注意事项：

标签必须成对出现且闭合正确，否则正则可能跨段匹配；建议在预处理阶段校验或添加容错逻辑（如只取首个闭合对）；
若需支持嵌套，需改用更复杂的解析器（如 html.parser 或自定义状态机），正则不再适用；
在生产环境中，可将该函数封装为 ProtectedTextSplitter 类，继承 TextSplitter 接口，无缝接入 LangChain Pipeline。

此方法无需魔改 LangChain 源码、不牺牲切分精度、不引入额外依赖，是平衡灵活性、可维护性与工程健壮性的最优实践。

PythonAI数学基础教程_线性代数概率论快速掌握

Python转AI数据方向教程_数据驱动智能决策

PythonAI模型训练实战教程_从零构建预测模型

python 的优势在哪里

PythonAI面试准备教程_核心问题与考察点

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

441

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23