Python duckdb 的嵌入式分析场景

舞夢輝影

发布时间：2026-02-21 17:09:12

764人浏览过

来源于php中文网

原创

duckdb无默认数据库，需用attach加载外部文件或register注册python对象，混用同名表会导致元数据覆盖；read_parquet需显式指定schema和过滤；jupyter中应复用连接防内存泄漏；新版已支持time/list但有限制。

python duckdb 的嵌入式分析场景

duckdb 连接后查不到表，`register` 和 `attach` 混用导致元数据丢失

duckdb 默认是纯内存会话，不自动加载外部文件里的表，也不是 PostgreSQL 那种“连上就有库”。常见错误是以为 connect('my.db') 就能直接 SELECT * FROM t —— 实际上除非你显式注册或附加，否则表根本不在当前连接的 catalog 里。

实操建议：

立即学习“Python免费学习笔记（深入）”；

用 attach 加载整个 DuckDB 文件（含 schema、视图、函数）：con.execute("ATTACH 'data.duckdb' AS ext")，之后查 ext.t
用 register 把 Python 对象（如 pandas DataFrame、polars DataFrame、Arrow Table）临时挂为表：con.register("df", my_df)，之后可直接 SELECT * FROM df
别在同一个连接里先 attach 又用 register 同名表——后者会覆盖前者，且 detach 不影响已 register 的表，容易误判数据来源

用 duckdb 做 pandas 替代时，`read_parquet` 性能比 `pandas.read_parquet` 快但默认不推断 schema

duckdb 的 read_parquet 是真正下推过滤+列裁剪的，但默认行为是“只读 metadata，不 scan 数据”，所以遇到 null 类型列、嵌套结构或分区路径时，常报 Invalid Input Error: Cannot automatically determine schema。

实操建议：

立即学习“Python免费学习笔记（深入）”；

明确指定 schema：用 read_parquet('logs/*.parq', hive_partitioning=True) 处理分区目录；用 read_parquet('x.parq', columns=['a','b'], filters=[('ts', '>', '2024-01-01')]) 提前过滤
避免无脑加 use_threads=True：duckdb 默认已并行，设成 False 反而可能触发单线程 fallback，尤其在小文件多的场景
如果上游 parquet 是 pyarrow 写的且含 dictionary，duckdb 有时会 decode 失败，加 use_pandas_metadata=True 可缓解

在 Jupyter 里反复运行 `duckdb.connect()` 导致内存泄漏和临时文件堆积

duckdb 的 connect(':memory:') 看似轻量，但每次新建连接都会初始化独立的 WAL、temp dir 和 function registry。Jupyter Cell 多次执行后，旧连接没 close，WAL 日志和临时 spill 文件（/tmp/duckdb_*）不会自动清理，最终 OOM 或磁盘占满。

MakeLogo AI

AI驱动的Logo生成器

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

全局复用一个连接对象：定义 con = duckdb.connect(':memory:') 在 notebook 最顶上，后续所有 cell 都用它
真要隔离 session？用 duckdb.connect(database=':memory:', read_only=True) + con.close() 显式释放，别依赖 GC
检查临时文件：运行 con.execute("PRAGMA temp_directory").fetchone()，确认路径是否可控；必要时手动 PRAGMA temp_directory='/dev/shm' 指向内存盘

duckdb 执行 SQL 报 `Not implemented Error: Unsupported type: TIME` 或 `LIST`

duckdb 对 Arrow 类型的支持是渐进式的，TIME、LIST、STRUCT、DECIMAL 等类型在较老版本（

实操建议：

立即学习“Python免费学习笔记（深入）”；

升级到 duckdb>=0.10.2，TIME 和 LIST 已支持基本操作（但 LIST 仍不支持窗口函数）
注册 DataFrame 前先 cast：pandas 中的 timedelta64[ns] → 改用 datetime64[ns]；Arrow 中的 list<item: int64></item:> → 先 unnest 或转成 string
不确定类型时，用 con.execute("DESCRIBE SELECT * FROM t").fetchall() 查 duckdb 实际识别的类型，别信原始 DataFrame 的 dtypes

duckdb 的“嵌入式”不是指“开箱即用”，而是指“所有能力都在单个 .so/.dll 里”——但怎么把数据喂进去、在哪存中间结果、类型怎么对齐，这些都得自己搭桥。最常卡住的地方，其实是忘了它压根没有“默认数据库”这个概念。

Python 时间处理的常见坑点总结

Python TypedDict vs dataclass vs NamedTuple 场景

PyTorch 高效向量化实现：批量查找并替换重复 token 的首次出现索引

Python 排序是否真的 O(n log n)

Python autoflake + pyupgrade 的自动清理链

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Selenium 中可靠地定位并选择动态下拉列表中的选项下一篇：暂无

作者最新文章

edge浏览器插件gpt 基于OpenAI接口的扩展原理说明

2026-02-19 12:31

Python RAG 架构的检索 + 生成分离设计

2026-02-19 12:59

GitHub 搜索入口怎么用？GitHub 搜索项目技巧讲解

2026-02-19 13:02

ppt怎么导入视频文件_ PPT插入本地视频播放教程

2026-02-19 13:07

腾讯云游戏登陆入口腾讯云游戏登录入口地址

2026-02-19 13:18

Linux falco sidekick 的 webhook 输出与多下游转发配置

2026-02-19 13:43

GitHub 代码如何运行？项目代码运行完整流程讲解

2026-02-19 13:50

拼多多百亿补贴化妆品能买吗？拼多多百亿补贴的水乳是正品吗

2026-02-19 13:55

腾讯会议视频一个页面最多几个人

2026-02-19 14:05

手机淘宝怎么赚淘金币？怎么赚淘金币最快

2026-02-19 14:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1006

2023.10.12