0

0

TEI是什么 人文研究领域的文本编码XML

畫卷琴夢

畫卷琴夢

发布时间:2026-01-29 09:36:11

|

246人浏览过

|

来源于php中文网

原创

TEI是人文研究领域基于XML的文本结构化编码标准,提供540多个语义元素(如、、)显性化标注古籍残卷、诗歌韵律、戏剧对白等复杂结构,并强制要求与两大部分以支持学术元数据与可计算分析。

tei是什么 人文研究领域的文本编码xml

TEI(Text Encoding Initiative,文本编码倡议)是人文研究领域广泛采用的、基于XML的文本结构化编码标准。它不是一种编程语言或软件,而是一套经过学界长期共识形成的规范体系,用于对文学、历史、语言学等学科的文本进行精细、可扩展、机器可读的标注。

TEI的核心定位:为人文文本提供“可计算的骨架”

人文文本常含复杂结构——比如古籍的残卷标记、诗歌的分行与韵律、戏剧的角色对白、手稿的修订痕迹、多语种混排等。TEI用540多个语义明确的XML元素(如标残缺、标舞台提示、标校勘修正),把这类隐性知识显性化、结构化。这种编码既保留学术判断,又支持检索、比对、可视化和长期归档。

一个典型TEI文档的基本组成

每份合规TEI文件都包含两大部分:

  • 头部(:强制包含四大元数据区块——fileDesc(文献来源与物理描述)、encodingDesc(编码方法与依据)、profileDesc(内容特征,如语言、体裁、关键词)、revisionDesc(版本修订日志);
  • 正文(:按实际文本逻辑组织,支持嵌套层级(如
    再套

    百度文心一格
    百度文心一格

    百度推出的AI绘画作图工具

    下载
    ),并可混合使用语义标签(等)与格式无关的描述性标注。

    为什么人文学者要用TEI而不是普通XML或Markdown

    因为TEI不只是“加标签”,而是承载学术惯例的编码语言:

    • 它预置了200+文本类型模板(从词典、信札到碑刻、剧本),避免重复造轮子;
    • 通过ODD(One Document Does it All)机制,项目可定制专属Schema,兼顾统一性与灵活性;
    • 所有元素定义在公开XML Schema中,支持自动验证(如用Trafilatura或oXygen校验),确保数据可信、可交换;
    • 与XSLT、Python(tei_reader)、LaTeX(ekdosis宏包)等工具链深度集成,能一键转HTML展示、PDF出版或DataFrame分析。

    实际应用场景举例

    不靠抽象概念,看几个真实落地方式:

    • 秦汉简牍数字化:用标模糊字迹,用补推测文字,同时保留原始图像链接;
    • 《莎士比亚全集》早期印刷本比对:用(校勘 apparatus)包裹异文,内嵌(读法)与(见证手稿),支撑多版本动态对照;
    • 近代学者书信集:在中结构化发信人、收信人、时间、地点,并关联CBDB人物数据库ID,实现人物关系网络自动构建。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1901

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2091

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1071

2024.11.28

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

358

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2082

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.10.09

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

15

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号