0

0

利用Docling和Python构建开源AI知识库(含教程)

聖光之護

聖光之護

发布时间:2025-12-21 09:12:25

|

664人浏览过

|

来源于php中文网

原创

在人工智能(AI)领域,构建能够理解和利用特定领域知识的智能代理变得越来越重要。为AI代理提供访问企业内部数据的能力,可以显著提升其解决问题的能力和效率。例如,提供公司文档、PDF文件和网站数据,能够使AI代理更好地理解公司业务和特定任务。 然而,市面上许多数据提取工具都是闭源的,需要API密钥并涉及将数据发送到第三方平台进行处理,这既增加了成本,也带来了数据安全和隐私方面的担忧。本文将介绍如何使用Docling,一个强大的开源Python库,来构建完全开源的文档提取流程,为您的AI代理提供定制化的知识。

关键要点

Docling是一个强大的开源Python库,用于文档提取和知识库构建。

可以使用Docling免费解析PDF、网页等各类文档。

无需依赖闭源API,保护数据安全和隐私。

本文提供构建开源AI知识库的完整流程和代码示例。

开源文档提取工具Docling

告别闭源API:拥抱开源的数据提取方案

随着ai技术的日益普及,越来越多的企业和开发者开始尝试利用ai代理来解决实际问题。然而,许多ai应用都需要访问特定的知识库才能发挥作用。例如,企业可能希望ai代理能够理解其内部文档,以便更好地服务客户或优化内部流程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利用Docling和Python构建开源AI知识库(含教程)

传统的解决方案通常依赖于闭源的API,例如Chatbase、Azure AI Document Intelligence、Amazon Textract和LlamaIndex等。这些API虽然功能强大,但也存在一些问题:

  • 成本高昂:使用这些API通常需要付费,随着数据量的增加,成本也会不断上升。
  • 数据安全风险:需要将敏感数据发送到第三方平台进行处理,存在数据泄露的风险。
  • 缺乏灵活性:闭源API的功能和定制性有限,难以满足所有需求。

Docling的出现,为我们提供了一个全新的选择。它是一个完全开源的Python库,可以帮助您构建自己的文档提取流程,无需依赖任何闭源API。这意味着您可以完全掌控您的数据,并根据自己的需求定制流程。

LlamaParse也是一个数据提取工具,但是Docling是更优秀的开源替代方案。

立即学习Python免费学习笔记(深入)”;

Docling的优势在于其完全开源的特性。这意味着您可以自由地查看、修改和分发代码,并根据自己的需求进行定制。此外,由于数据处理完全在本地进行,因此可以更好地保护数据安全和隐私。 下表对闭源方案和 Docling 进行了对比:

特性 闭源API(如Chatbase) Docling(开源方案)
成本 免费
数据安全 风险高 安全
灵活性 有限 高,可定制
可控性 高,完全掌控
是否开源

总而言之,Docling是一个强大且灵活的开源解决方案,可以帮助您构建自己的AI知识库,并更好地保护您的数据。

Docling 的主要功能

利用Docling和Python构建开源AI知识库(含教程)

Docling 不仅是一个工具,而是一个强大的文档处理库,它能够将各种文档格式统一转换为标准格式,为你的AI agent提供统一的数据来源。

  1. 通用格式支持: 可以处理PDF, DOCX, XLSX, PPTX, Markdown, HTML, 图片等多种格式。
  2. 强大的 AI 理解能力: 基于 AI 的布局分析和表格结构识别,提供更精准的文档理解。
  3. 灵活的导出选项: 支持导出为 HTML, Markdown, JSON 或纯文本。
  4. 高性能: 可以在本地硬件上高效运行。
  5. 正在开发的功能:
    • 元数据提取,包括标题、作者、参考资料和语言
    • 包含视觉语言模型 (SmolDocling)
    • 图表理解 (Barchart, Piechart, LinePlot 等)
    • 复杂化学物质理解(分子结构)
  6. 易于集成: Docling可以和LangChain, LlamaIndex, Crew AI & Haystack等集成,为agentic AI 提供支持

这些特性使得 Docling 成为构建 AI 知识库的理想选择,无论你是处理 PDF 文档,还是网络内容,Docling 都能提供强大的支持。

准备 Docling 环境

环境配置与依赖安装

在使用 Docling 之前,需要进行一些准备工作。首先,需要安装 Python 环境(推荐使用 3.8 或更高版本)。然后,使用 pip 安装 Docling 及其依赖项:

pip install -r requirements.txt

你还需要设置 OpenAI API 密钥,用于创建 Embeddings, 当然你也可以使用开源模型, 在这一步只是可选的。

利用Docling和Python构建开源AI知识库(含教程)

PPT.AI
PPT.AI

AI PPT制作工具

下载
OPENAI_API_KEY=你的api密钥

使用 Docling 构建知识库

文档内容提取

首先,我们需要从文档中提取内容。Docling 提供了 DocumentConverter 类,可以方便地将各种文档格式转换为统一的内部表示。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个提取PDF文档内容的示例:

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)

以下是一个提取网页内容的示例:

result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)

如果需要提取整个网站的内容,可以使用 Sitemap:

from utils.sitemap import get_sitemap_urls

sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)

docs = []
for result in conv_results_iter:
    if result.document:
        docs.append(document)

内容分块(Chunking)

为了更好地利用提取的内容,我们需要将其分割成更小的块,以便更好地进行索引和检索。Docling 提供了混合分块(Hybrid Chunking)功能,可以根据文档的结构和内容,智能地将文档分割成更小的块。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个使用混合分块的示例:

from docling.chunking import HybridChunker

chunker = HybridChunker()
chunk_iter = chunker.chunk(dl_doc.document)
chunks = list(chunk_iter)

Embedding创建

接下来,我们需要为每个内容块创建 Embedding,以便进行语义搜索。Embedding 是一种将文本转换为向量表示的技术,可以捕捉文本的语义信息。本文使用OpenAI 进行 Embeddings 创建。

利用Docling和Python构建开源AI知识库(含教程)

以下是一个创建 Embedding 并存储到 LanceDB 的示例:

import lancedb
from lancedb.embeddings import get_registry

db = lancedb.connect("./data/lancedb")

# 获取 OpenAI Embedding 函数
func = get_registry().get("openai").create(name="text-embedding-3-large")

class ChunkMetadata(LanceModel):
    filename: str = None
    page_numbers: list[int] = None
    title: str = None

class Chunks(LanceModel):
    text: str = SourceField()
    vector: Vector(func.ndims) = func.VectorField(type=ignore)
    metadata: ChunkMetadata

table = db.create_table("docling", schema=Chunks, mode="overwrite")

# 准备数据
processed_chunks = []
for chunk in chunks:
    processed_chunks.append({
        "text": chunk.text,
        "metadata": {
            "filename": chunk.meta.origin.filename,
            "page_numbers": sorted(chunk.meta.page_no),
            "title": chunk.meta.headings[0] if chunk.meta.headings else None
        }
    })

table.add(processed_chunks)

在这个示例中,我们首先连接到 LanceDB 数据库。然后,我们定义了一个 Pydantic 模型 Chunks,用于描述数据表的结构。这个模型包含了文本内容、Embedding 向量和元数据。

Docling 的优缺点

? Pros

完全开源,免费使用

强大的文档提取和解析能力

支持多种文档格式

可与 LangChain、LlamaIndex 等 AI 框架集成

高效的本地处理能力

? Cons

需要一定的 Python 编程基础

部分高级功能可能需要手动配置

对于某些特殊格式的文档,可能需要自定义提取规则

常见问题解答

Docling 是免费的吗?

是的,Docling 是一个完全开源的项目,您可以免费使用和修改。

我需要 OpenAI API 密钥才能使用 Docling 吗?

使用 OpenAI API 密钥是可选的。Docling 允许你使用开源模型创建embeddings, 但视频为了演示使用了OpenAI, 所以如果需要使用 OpenAI 的 Embedding 功能,您需要提供 API 密钥。

Docling 支持哪些文档格式?

Docling 支持多种文档格式,包括 PDF、DOCX、XLSX、PPTX、Markdown、HTML 等。

如何将 Docling 集成到我的 AI 应用程序中?

Docling 可以轻松地与 LangChain、LlamaIndex 等 AI 框架集成。

相关问题

除了 Docling,还有哪些开源文档提取工具?

除了Docling之外,还有一些其他的开源文档提取工具可供选择,例如: PDFMiner: 这是一个用于从PDF文档中提取文本的Python库。它提供了一种直接的方法来解析PDF文件并提取文本内容,但可能需要额外的处理来处理复杂的布局和格式。 Apache Tika: 这是一个内容分析工具包,可以检测和提取各种文件格式的元数据和文本内容。它支持多种文档格式,包括PDF、Microsoft Office文档和HTML等。 Beautiful Soup: 这是一个用于从HTML和XML文件中提取数据的Python库。它提供了一种简单而灵活的方法来解析文档并提取所需的信息。 虽然这些工具都可以用于文档提取,但Docling的优势在于其完全开源的特性、强大的AI理解能力和对多种文档格式的支持。它提供了一个更全面和灵活的解决方案,可以更好地满足构建AI知识库的需求。 在选择文档提取工具时,需要根据您的具体需求和场景进行评估。如果您需要一个完全开源、功能强大且易于使用的工具,那么Docling是一个不错的选择。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号