优化ChromaDB检索，提升RAG系统响应完整性

霞舞

发布时间：2025-10-11 09:58:21

571人浏览过

来源于php中文网

原创

优化ChromaDB检索，提升RAG系统响应完整性

本文旨在解决基于langchain和chromadb构建的检索增强生成（rag）系统中，因上下文不足导致响应不完整的问题。我们将深入探讨文本分块策略、chromadb向量存储构建以及检索链配置，并通过调整`chunk_overlap`等关键参数，确保llm能够获取更全面的上下文信息，从而生成更完整、准确的答案。

理解RAG系统中的上下文丢失问题

在利用Langchain和ChromaDB构建检索增强生成（RAG）系统时，用户常常会遇到大型语言模型（LLM）返回的响应不完整的问题。这通常发生在源文档内容丰富，但LLM的输出却只涵盖了部分信息，未能充分利用所有相关上下文。造成这一现象的核心原因，往往在于文档处理流程中，特别是文本分块（Text Splitting）和检索（Retrieval）阶段，未能有效地保留和传递足够的上下文信息。

一个典型的RAG流程包括：

文档加载（Document Loading）：从各种来源加载原始文档。
文本分块（Text Splitting）：将大文档分割成更小的、可管理的文本块（chunks）。
创建嵌入（Embedding Creation）：为每个文本块生成向量嵌入。
构建向量存储（Vector Store Creation）：将文本块及其嵌入存储到向量数据库（如ChromaDB）中。
检索（Retrieval）：根据用户查询从向量数据库中检索最相关的文本块。
生成（Generation）：将检索到的文本块作为上下文，结合用户查询，输入给LLM生成最终响应。

响应不完整的问题，通常出在第2步和第5步。如果文本块过小且缺乏重叠，或者检索器未能获取足够数量的相关块，LLM在生成答案时就可能因为缺乏完整上下文而“遗漏”信息。

优化文本分块策略

文本分块是RAG系统中的关键一步，它直接影响到后续检索的效率和质量。RecursiveCharacterTextSplitter是Langchain中一个常用的文本分块器，它通过递归地尝试不同分隔符来智能地分割文本。

chunk_size与chunk_overlap的重要性

chunk_size (块大小)：定义了每个文本块的最大字符数。过小的chunk_size可能导致单个文本块失去上下文，而过大的chunk_size可能导致单个文本块超过LLM的上下文窗口限制，或引入过多不相关信息。
chunk_overlap (块重叠)：定义了相邻文本块之间重叠的字符数。这是解决上下文丢失问题的关键参数。适当的chunk_overlap可以确保即使一个关键信息跨越了两个文本块的边界，LLM也能通过检索这两个重叠的块来获取完整的上下文。当响应不完整时，增加chunk_overlap通常是一个有效的解决方案，因为它能确保更多的上下文信息被保留在相邻的块中。

示例：调整chunk_overlap

from langchain.text_splitter import RecursiveCharacterTextSplitter

# 原始文档加载后，进行文本分块
documents = [...] # 假设这里是已加载的文档列表

# 调整 chunk_size 和 chunk_overlap
# chunk_size=1000 意味着每个块最大1000字符
# chunk_overlap=100 意味着相邻块之间有100字符的重叠
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 打印一些块以观察重叠效果
# for i, text in enumerate(texts[:3]):
#     print(f"--- Chunk {i} ---")
#     print(text.page_content[:200]) # 打印前200字符

通过将chunk_overlap从默认值（或较小值如50）增加到100甚至更高，可以显著提高LLM获取完整上下文的几率。

PPT.AI

AI PPT制作工具

下载

构建和查询ChromaDB向量存储

文本分块完成后，下一步是为这些文本块创建嵌入并将其存储到ChromaDB中。

嵌入模型的选择

嵌入模型负责将文本转换为向量。Langchain支持多种嵌入模型，如OpenAIEmbeddings、HuggingFaceEmbeddings等。选择一个合适的嵌入模型对于检索效果至关重要。

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings # 也可以使用 OpenAIEmbeddings

# 选择嵌入模型
# embeddings = OpenAIEmbeddings() # 如果使用OpenAI API
embeddings = HuggingFaceEmbeddings(model_name="bert-base-multilingual-cased") # 使用HuggingFace模型

persist_directory = "./ChromaDb" # 定义ChromaDB的持久化目录

# 从文本块创建ChromaDB向量存储
# 如果ChromaDb目录已存在，from_documents会加载现有数据并追加
vectordb = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory=persist_directory)

# 持久化向量存储，以便下次可以直接加载而无需重新创建
vectordb.persist()

配置检索增强生成链

最后一步是配置RetrievalQA链，它将检索到的文档与用户查询结合，并传递给LLM生成答案。

RetrievalQA链的关键参数

llm：指定用于生成答案的大型语言模型。
retriever：通过vectordb.as_retriever()获取，它负责从向量数据库中检索最相关的文档块。
chain_type：定义了如何将检索到的文档与查询结合。"stuff"是最简单的类型，它将所有检索到的文档“填充”到一个提示中，然后发送给LLM。对于文档数量不多且LLM上下文窗口足够大的情况，这是一个不错的选择。
return_source_documents：设置为True可以返回检索到的源文档，这对于调试和理解LLM的回答来源非常有帮助。

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# 初始化LLM
llm = OpenAI(temperature=0, model_name="text-davinci-003")

# 配置检索器，可以指定检索多少个文档 (k)
# 默认k=4，可以根据需要调整，增加k值可能有助于获取更多上下文
# retriever = vectordb.as_retriever(search_kwargs={"k": 6}) 
retriever = vectordb.as_retriever()

# 创建RetrievalQA链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff", # 将所有检索到的文档填充到一个提示中
    return_source_documents=True # 返回源文档，便于调试
)

# 示例查询
query = "请总结这本书的内容"
response = qa_chain(query)

print("LLM响应：", response["result"])
if response.get("source_documents"):
    print("\n检索到的源文档：")
    for doc in response["source_documents"]:
        print(f"- {doc.page_content[:150]}...") # 打印每个源文档的前150字符

完整代码示例

结合上述步骤，以下是一个完整的、优化的RAG系统构建示例：

from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings # 或 OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
import os

# --- 1. 文档加载 ---
def load_documents(directory_path='./static/upload/'):
    """加载指定目录下的PDF文档。"""
    loader = DirectoryLoader(directory_path, glob="./*.pdf", loader_cls=PyPDFLoader)
    documents = loader.load()
    return documents

# --- 2. 文本分块 ---
def split_documents(documents, chunk_size=1000, chunk_overlap=100):
    """将文档分割成带有重叠的文本块。"""
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
    texts = text_splitter.split_documents(documents)
    return texts

# --- 3. 创建或加载ChromaDB向量存储 ---
def create_or_load_vectordb(texts, persist_directory='./ChromaDb'):
    """创建或从持久化目录加载ChromaDB向量存储。"""
    # 选择嵌入模型
    # embeddings = OpenAIEmbeddings()
    embeddings = HuggingFaceEmbeddings(model_name="bert-base-multilingual-cased")

    if not os.path.exists(persist_directory) or not os.listdir(persist_directory):
        print(f"ChromaDB目录 {persist_directory} 不存在或为空，正在从文档创建...")
        vectordb = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory=persist_directory)
        vectordb.persist()
        print("ChromaDB创建并持久化完成。")
    else:
        print(f"ChromaDB目录 {persist_directory} 已存在，正在加载...")
        vectordb = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
        print("ChromaDB加载完成。")
    return vectordb

# --- 4. 配置并执行检索QA链 ---
def run_qa_chain(vectordb, query):
    """配置RetrievalQA链并执行查询。"""
    llm = OpenAI(temperature=0, model_name="text-davinci-003")

    # 可以通过 search_kwargs 调整检索器的参数，例如 k (检索的文档数量)
    # retriever = vectordb.as_retriever(search_kwargs={"k": 5}) 
    retriever = vectordb.as_retriever()

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        return_source_documents=True
    )

    response = qa_chain(query)
    return response

# --- 主执行流程 ---
if __name__ == "__main__":
    # 确保存在一个用于测试的PDF文件，例如在 './static/upload/' 目录下放置 'sample.pdf'
    # 示例中使用了 '/tmp/'，实际应用中请根据你的文件路径修改

    # 1. 加载文档
    documents = load_documents(directory_path='./static/upload/')
    if not documents:
        print("未找到任何PDF文档，请确保 './static/upload/' 目录下有PDF文件。")
    else:
        print(f"成功加载 {len(documents)} 份文档。")

        # 2. 分割文档
        texts = split_documents(documents, chunk_size=1000, chunk_overlap=100)
        print(f"文档被分割成 {len(texts)} 个文本块。")

        # 3. 创建或加载ChromaDB
        vectordb = create_or_load_vectordb(texts, persist_directory='./ChromaDb')

        # 4. 执行查询
        user_query = "请总结这份文档的主要内容"
        print(f"\n正在查询: '{user_query}'")
        qa_response = run_qa_chain(vectordb, user_query)

        print("\n--- LLM 响应 ---")
        print(qa_response["result"])

        print("\n--- 检索到的源文档 ---")
        if qa_response.get("source_documents"):
            for i, doc in enumerate(qa_response["source_documents"]):
                print(f"文档 {i+1}:")
                print(f"  内容片段: {doc.page_content[:200]}...") # 打印前200字符
                print(f"  来源: {doc.metadata.get('source', '未知')}")
        else:
            print("未检索到源文档。")

注意事项与总结

chunk_overlap是关键：当LLM响应不完整时，首先考虑增加RecursiveCharacterTextSplitter的chunk_overlap参数。较大的重叠能有效减少上下文在块边界处被截断的风险。
chunk_size的平衡：chunk_size需要与LLM的上下文窗口大小以及文档内容的密度相匹配。过小会丢失上下文，过大则可能引入噪声或超出LLM限制。
检索器k值：vectordb.as_retriever(search_kwargs={"k": N})中的k参数决定了检索器返回多少个最相关的文档块。增加k值可以为LLM提供更多的上下文，但也会增加LLM的输入长度和处理成本。
chain_type的选择："stuff"适用于文档数量较少的情况。对于大量文档，可以考虑"map_reduce"、"refine"或"map_rerank"等链类型，它们能更有效地处理大量上下文。
调试：始终启用return_source_documents=True，这能让你检查LLM实际接收到的源文档，从而判断是检索阶段的问题还是LLM生成阶段的问题。
持久化：ChromaDB的persist()方法和persist_directory参数非常重要，它允许你在第一次创建后，无需重新处理文档即可快速加载向量存储。