
本文旨在解决基于langchain和chromadb构建的检索增强生成(rag)系统中,因上下文不足导致响应不完整的问题。我们将深入探讨文本分块策略、chromadb向量存储构建以及检索链配置,并通过调整`chunk_overlap`等关键参数,确保llm能够获取更全面的上下文信息,从而生成更完整、准确的答案。
理解RAG系统中的上下文丢失问题
在利用Langchain和ChromaDB构建检索增强生成(RAG)系统时,用户常常会遇到大型语言模型(LLM)返回的响应不完整的问题。这通常发生在源文档内容丰富,但LLM的输出却只涵盖了部分信息,未能充分利用所有相关上下文。造成这一现象的核心原因,往往在于文档处理流程中,特别是文本分块(Text Splitting)和检索(Retrieval)阶段,未能有效地保留和传递足够的上下文信息。
一个典型的RAG流程包括:
- 文档加载(Document Loading):从各种来源加载原始文档。
- 文本分块(Text Splitting):将大文档分割成更小的、可管理的文本块(chunks)。
- 创建嵌入(Embedding Creation):为每个文本块生成向量嵌入。
- 构建向量存储(Vector Store Creation):将文本块及其嵌入存储到向量数据库(如ChromaDB)中。
- 检索(Retrieval):根据用户查询从向量数据库中检索最相关的文本块。
- 生成(Generation):将检索到的文本块作为上下文,结合用户查询,输入给LLM生成最终响应。
响应不完整的问题,通常出在第2步和第5步。如果文本块过小且缺乏重叠,或者检索器未能获取足够数量的相关块,LLM在生成答案时就可能因为缺乏完整上下文而“遗漏”信息。
优化文本分块策略
文本分块是RAG系统中的关键一步,它直接影响到后续检索的效率和质量。RecursiveCharacterTextSplitter是Langchain中一个常用的文本分块器,它通过递归地尝试不同分隔符来智能地分割文本。
chunk_size与chunk_overlap的重要性
- chunk_size (块大小):定义了每个文本块的最大字符数。过小的chunk_size可能导致单个文本块失去上下文,而过大的chunk_size可能导致单个文本块超过LLM的上下文窗口限制,或引入过多不相关信息。
- chunk_overlap (块重叠):定义了相邻文本块之间重叠的字符数。这是解决上下文丢失问题的关键参数。适当的chunk_overlap可以确保即使一个关键信息跨越了两个文本块的边界,LLM也能通过检索这两个重叠的块来获取完整的上下文。当响应不完整时,增加chunk_overlap通常是一个有效的解决方案,因为它能确保更多的上下文信息被保留在相邻的块中。
示例:调整chunk_overlap
from langchain.text_splitter import RecursiveCharacterTextSplitter
# 原始文档加载后,进行文本分块
documents = [...] # 假设这里是已加载的文档列表
# 调整 chunk_size 和 chunk_overlap
# chunk_size=1000 意味着每个块最大1000字符
# chunk_overlap=100 意味着相邻块之间有100字符的重叠
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
texts = text_splitter.split_documents(documents)
# 打印一些块以观察重叠效果
# for i, text in enumerate(texts[:3]):
# print(f"--- Chunk {i} ---")
# print(text.page_content[:200]) # 打印前200字符通过将chunk_overlap从默认值(或较小值如50)增加到100甚至更高,可以显著提高LLM获取完整上下文的几率。
构建和查询ChromaDB向量存储
文本分块完成后,下一步是为这些文本块创建嵌入并将其存储到ChromaDB中。
嵌入模型的选择
嵌入模型负责将文本转换为向量。Langchain支持多种嵌入模型,如OpenAIEmbeddings、HuggingFaceEmbeddings等。选择一个合适的嵌入模型对于检索效果至关重要。
from langchain.vectorstores import Chroma from langchain.embeddings import HuggingFaceEmbeddings # 也可以使用 OpenAIEmbeddings # 选择嵌入模型 # embeddings = OpenAIEmbeddings() # 如果使用OpenAI API embeddings = HuggingFaceEmbeddings(model_name="bert-base-multilingual-cased") # 使用HuggingFace模型 persist_directory = "./ChromaDb" # 定义ChromaDB的持久化目录 # 从文本块创建ChromaDB向量存储 # 如果ChromaDb目录已存在,from_documents会加载现有数据并追加 vectordb = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory=persist_directory) # 持久化向量存储,以便下次可以直接加载而无需重新创建 vectordb.persist()
配置检索增强生成链
最后一步是配置RetrievalQA链,它将检索到的文档与用户查询结合,并传递给LLM生成答案。
RetrievalQA链的关键参数
- llm:指定用于生成答案的大型语言模型。
- retriever:通过vectordb.as_retriever()获取,它负责从向量数据库中检索最相关的文档块。
- chain_type:定义了如何将检索到的文档与查询结合。"stuff"是最简单的类型,它将所有检索到的文档“填充”到一个提示中,然后发送给LLM。对于文档数量不多且LLM上下文窗口足够大的情况,这是一个不错的选择。
- return_source_documents:设置为True可以返回检索到的源文档,这对于调试和理解LLM的回答来源非常有帮助。
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
# 初始化LLM
llm = OpenAI(temperature=0, model_name="text-davinci-003")
# 配置检索器,可以指定检索多少个文档 (k)
# 默认k=4,可以根据需要调整,增加k值可能有助于获取更多上下文
# retriever = vectordb.as_retriever(search_kwargs={"k": 6})
retriever = vectordb.as_retriever()
# 创建RetrievalQA链
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
chain_type="stuff", # 将所有检索到的文档填充到一个提示中
return_source_documents=True # 返回源文档,便于调试
)
# 示例查询
query = "请总结这本书的内容"
response = qa_chain(query)
print("LLM响应:", response["result"])
if response.get("source_documents"):
print("\n检索到的源文档:")
for doc in response["source_documents"]:
print(f"- {doc.page_content[:150]}...") # 打印每个源文档的前150字符完整代码示例
结合上述步骤,以下是一个完整的、优化的RAG系统构建示例:
from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings # 或 OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
import os
# --- 1. 文档加载 ---
def load_documents(directory_path='./static/upload/'):
"""加载指定目录下的PDF文档。"""
loader = DirectoryLoader(directory_path, glob="./*.pdf", loader_cls=PyPDFLoader)
documents = loader.load()
return documents
# --- 2. 文本分块 ---
def split_documents(documents, chunk_size=1000, chunk_overlap=100):
"""将文档分割成带有重叠的文本块。"""
text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
texts = text_splitter.split_documents(documents)
return texts
# --- 3. 创建或加载ChromaDB向量存储 ---
def create_or_load_vectordb(texts, persist_directory='./ChromaDb'):
"""创建或从持久化目录加载ChromaDB向量存储。"""
# 选择嵌入模型
# embeddings = OpenAIEmbeddings()
embeddings = HuggingFaceEmbeddings(model_name="bert-base-multilingual-cased")
if not os.path.exists(persist_directory) or not os.listdir(persist_directory):
print(f"ChromaDB目录 {persist_directory} 不存在或为空,正在从文档创建...")
vectordb = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory=persist_directory)
vectordb.persist()
print("ChromaDB创建并持久化完成。")
else:
print(f"ChromaDB目录 {persist_directory} 已存在,正在加载...")
vectordb = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
print("ChromaDB加载完成。")
return vectordb
# --- 4. 配置并执行检索QA链 ---
def run_qa_chain(vectordb, query):
"""配置RetrievalQA链并执行查询。"""
llm = OpenAI(temperature=0, model_name="text-davinci-003")
# 可以通过 search_kwargs 调整检索器的参数,例如 k (检索的文档数量)
# retriever = vectordb.as_retriever(search_kwargs={"k": 5})
retriever = vectordb.as_retriever()
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
chain_type="stuff",
return_source_documents=True
)
response = qa_chain(query)
return response
# --- 主执行流程 ---
if __name__ == "__main__":
# 确保存在一个用于测试的PDF文件,例如在 './static/upload/' 目录下放置 'sample.pdf'
# 示例中使用了 '/tmp/',实际应用中请根据你的文件路径修改
# 1. 加载文档
documents = load_documents(directory_path='./static/upload/')
if not documents:
print("未找到任何PDF文档,请确保 './static/upload/' 目录下有PDF文件。")
else:
print(f"成功加载 {len(documents)} 份文档。")
# 2. 分割文档
texts = split_documents(documents, chunk_size=1000, chunk_overlap=100)
print(f"文档被分割成 {len(texts)} 个文本块。")
# 3. 创建或加载ChromaDB
vectordb = create_or_load_vectordb(texts, persist_directory='./ChromaDb')
# 4. 执行查询
user_query = "请总结这份文档的主要内容"
print(f"\n正在查询: '{user_query}'")
qa_response = run_qa_chain(vectordb, user_query)
print("\n--- LLM 响应 ---")
print(qa_response["result"])
print("\n--- 检索到的源文档 ---")
if qa_response.get("source_documents"):
for i, doc in enumerate(qa_response["source_documents"]):
print(f"文档 {i+1}:")
print(f" 内容片段: {doc.page_content[:200]}...") # 打印前200字符
print(f" 来源: {doc.metadata.get('source', '未知')}")
else:
print("未检索到源文档。")注意事项与总结
- chunk_overlap是关键:当LLM响应不完整时,首先考虑增加RecursiveCharacterTextSplitter的chunk_overlap参数。较大的重叠能有效减少上下文在块边界处被截断的风险。
- chunk_size的平衡:chunk_size需要与LLM的上下文窗口大小以及文档内容的密度相匹配。过小会丢失上下文,过大则可能引入噪声或超出LLM限制。
- 检索器k值:vectordb.as_retriever(search_kwargs={"k": N})中的k参数决定了检索器返回多少个最相关的文档块。增加k值可以为LLM提供更多的上下文,但也会增加LLM的输入长度和处理成本。
- chain_type的选择:"stuff"适用于文档数量较少的情况。对于大量文档,可以考虑"map_reduce"、"refine"或"map_rerank"等链类型,它们能更有效地处理大量上下文。
- 调试:始终启用return_source_documents=True,这能让你检查LLM实际接收到的源文档,从而判断是检索阶段的问题还是LLM生成阶段的问题。
- 持久化:ChromaDB的persist()方法和persist_directory参数非常重要,它允许你在第一次创建后,无需重新处理文档即可快速加载向量存储。
通过上述优化和调整,你将能够构建一个更健壮的RAG系统,有效提升ChromaDB检索的响应完整性,确保LLM能够基于更全面的上下文生成高质量的答案。










