使用 Langchain 将 DocumentDB 作为向量存储

霞舞

发布时间：2025-11-03 14:05:01

944人浏览过

来源于php中文网

原创

使用 langchain 将 documentdb 作为向量存储

本文档介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。由于 DocumentDB 的向量搜索查询 API 与 MongoDB 不同，因此直接使用 MongoDB 的集成方式可能会遇到问题。本文将介绍如何使用 Langchain 提供的 DocumentDB 向量存储集成，并提供示例代码和注意事项，帮助你成功地将 DocumentDB 作为向量存储使用。

Langchain 与 DocumentDB 向量存储集成

DocumentDB 最近发布了向量搜索功能。虽然 DocumentDB 与 MongoDB 兼容，但其向量搜索查询 API 与 MongoDB 不同。因此，直接使用为 MongoDB Atlas 设计的代码可能无法正常工作。Langchain 现在直接支持 DocumentDB 作为向量存储，从而解决了这个问题。

安装必要的库

首先，确保安装了 Langchain 和 DocumentDB 相关的库。可以使用 pip 进行安装：

pip install langchain pymongo

连接到 DocumentDB

连接到 DocumentDB 数据库，你需要提供连接字符串。确保连接字符串包含正确的凭据和数据库信息。

from pymongo import MongoClient

# 替换为你的 DocumentDB 连接字符串
CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"

client = MongoClient(CONNECTION_STRING)
db = client["your_database_name"] # 替换为你的数据库名称
collection = db["your_collection_name"] # 替换为你的集合名称

使用 Langchain 创建 DocumentDB 向量存储

接下来，使用 Langchain 的 DocumentDB 类创建向量存储。首先，你需要准备好文档和嵌入模型。

from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings # 你可以使用任何 Langchain 支持的嵌入模型
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter

# 加载文档
loader = TextLoader("your_document.txt") # 替换为你的文档路径
documents = loader.load()

# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥

# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
    docs,
    embeddings,
    collection=collection,
)

代码解释:

95Shop仿醉品商城

95Shop可以免费下载使用，是一款仿醉品商城网店系统，内置SEO优化，具有模块丰富、管理简洁直观，操作易用等特点，系统功能完整，运行速度较快，采用ASP.NET(C#)技术开发，配合SQL Serve2000数据库存储数据，运行环境为微软ASP.NET 2.0。95Shop官方网站定期开发新功能和维护升级。可以放心使用！安装运行方法 1、下载软件压缩包； 2、将下载的软件压缩包解压缩，得到we

下载

TextLoader 用于加载文本文件。你可以根据你的文档类型选择不同的加载器。
CharacterTextSplitter 用于将文档分割成更小的块，以便更好地进行向量化。
OpenAIEmbeddings 用于生成文档的嵌入向量。你需要提供 OpenAI API 密钥。你可以选择其他 Langchain 支持的嵌入模型，例如 CohereEmbeddings 或 HuggingFaceEmbeddings。
DocumentDB.from_documents 用于从文档创建 DocumentDB 向量存储。它接受文档列表、嵌入模型和 MongoDB 集合作为参数。

执行相似性搜索

创建向量存储后，可以使用 similarity_search 方法执行相似性搜索。

query = "What is this document about?"
results = vector_store.similarity_search(query)

print(results)

代码解释:

query 是你要搜索的查询语句。
vector_store.similarity_search 用于执行相似性搜索。它返回与查询语句最相似的文档列表。

完整示例代码

以下是一个完整的示例代码，展示了如何使用 Langchain 将 DocumentDB 作为向量存储：

from pymongo import MongoClient
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter

# 替换为你的 DocumentDB 连接字符串
CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"

client = MongoClient(CONNECTION_STRING)
db = client["your_database_name"] # 替换为你的数据库名称
collection = db["your_collection_name"] # 替换为你的集合名称

# 加载文档
loader = TextLoader("your_document.txt") # 替换为你的文档路径
documents = loader.load()

# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥

# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
    docs,
    embeddings,
    collection=collection,
)

# 执行相似性搜索
query = "What is this document about?"
results = vector_store.similarity_search(query)

print(results)

注意事项

确保你的 DocumentDB 集群已启用向量搜索功能。
选择合适的嵌入模型，并根据你的需求调整嵌入模型的参数。
根据你的文档大小和复杂度，调整 CharacterTextSplitter 的 chunk_size 和 chunk_overlap 参数。
在使用 OpenAIEmbeddings 时，确保你已设置 OpenAI API 密钥。

总结

本文介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。通过使用 Langchain 提供的 DocumentDB 向量存储集成，你可以轻松地将 DocumentDB 集成到你的 Langchain 应用程序中，并利用 DocumentDB 的向量搜索功能。记住，DocumentDB的向量搜索API与MongoDB不同，因此必须使用Langchain提供的DocumentDB集成。

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

如何高效将CSV数据导入Word并生成表格

相关专题

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

412

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

761

2024.12.23