讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

XPath的substring()函数如何提取子字符串？

畫卷琴夢

发布时间：2025-08-19 15:13:01

|

820人浏览过

|

来源于php中文网

原创

substring()函数用于从字符串中提取指定位置的子串，索引从1开始，常与substring-before()、substring-after()结合处理固定格式文本，适用于结构化字符串提取，而正则表达式更适合复杂模式匹配。

xpath的substring()函数如何提取子字符串？

XPath的

substring()

函数，简单来说，就是用来从一个字符串里“剪”出你想要的那一部分。有时候，我们从XML或HTML里抓取到的文本，往往不是我们想要的全部，可能只是一段日期、一个ID号，或者某个特定字段。这时候，

substring()

函数就派上用场了，它能让你精确地定位并提取出目标子串。

解决方案

substring()

函数的基本语法是

substring(string, start, length)

。

```
string
```
：这是你想要操作的原始字符串。它可以是一个直接的字符串字面量，也可以是XPath表达式返回的节点文本内容（比如
```
text()
```
或某个元素的路径）。
```
start
```
：这是你想要开始提取子字符串的位置。注意，XPath的索引是从1开始的，而不是像很多编程语言那样从0开始。 这是一个常见的“坑”，很容易让人混淆。
```
length
```
：这是你想要提取的子字符串的长度。这个参数是可选的。如果你省略了它，
```
substring()
```
会从
```
start
```
位置开始，一直提取到字符串的末尾。

一些例子：

提取从某个位置开始到结尾的子串： 假设我们有一个字符串 "Hello World!"，我们想提取 "World!"。
```
substring("Hello World!", 7)
```
结果是："World!"

这里，'H'是第1位，'e'是第2位，以此类推，空格是第6位，'W'是第7位。所以从第7位开始提取，一直到字符串末尾。
提取指定长度的子串： 从 "Hello World!" 中提取 "Hello"。
```
substring("Hello World!", 1, 5)
```
结果是："Hello"

从第1位开始，提取5个字符。
结合节点文本提取： 假设XML中有一个
```
2023-10-26
```
节点，我们只想提取年份 "2023"。
```
substring(/data/text(), 1, 4)
```
结果是："2023"

或者，如果只想提取月份 "10"：
```
substring(/data/text(), 6, 2)
```
结果是："10"

我的经验是，当你需要处理的字符串结构相对固定，或者可以通过简单的位置计算就能确定要截取的部分时，
```
substring()
```
简直是神器，直接了当。

substring()

函数在实际应用中常见的“坑”有哪些？

说实话，用

substring()

函数，最容易让人头疼的，就是那个1-based索引。我们写代码习惯了0-based，一到XPath这里就得手动加1，或者在心里默默转换一下。我就经常因为这个，第一次尝试的时候结果总是差一位。比如，我想从“ABCD”里取“BC”，如果我习惯性地写

substring("ABCD", 1, 2)

（以为A是0），结果会是“AB”。正确的应该是

substring("ABCD", 2, 2)

。这种小细节，在调试复杂XPath表达式的时候，能让你抓狂半天。

另一个需要注意的点是，如果你的

start

位置超出了字符串的长度，或者

length

参数导致提取范围超出了字符串末尾，

substring()

并不会报错。它会“尽力而为”。比如，

substring("Hello", 10)

会返回一个空字符串，因为第10位根本不存在。而

substring("Hello", 3, 10)

，虽然我们想提取10个字符，但从第3位('l')开始，后面只有3个字符了，它就会返回“llo”，不会因为长度不够而抛出异常。这种“静默失败”有时候反而更麻烦，因为你可能不知道自己是不是取到了一个不完整的字符串。所以，在使用前，最好能对字符串的长度有个大致的预判，或者结合

string-length()

函数做一些边界检查。

如何利用

substring()

结合其他XPath函数实现更复杂的文本提取？

substring()

本身很直接，但它的威力在于能和XPath里其他字符串函数“组合拳”。比如，当你需要提取一个不固定位置但有明确前后标志的文本时，

substring-before()

和

substring-after()

就是它的好搭档。

Cutout.Pro抠图

Cutout.Pro抠图

AI批量抠图去背景

下载

举个例子，假设我们有这样的文本：

订单号: ORD-1234567890 状态: 已完成

，我们想提取订单号

ORD-1234567890

。直接用

substring()

有点难，因为订单号的长度不固定。但我们可以这样：

先用

substring-after(., '订单号: ')

得到

ORD-1234567890 状态: 已完成

。

再对这个结果用

substring-before(., ' 状态:')

得到

ORD-1234567890

。

所以，完整的XPath表达式可能是：

substring-before(substring-after(/some/node/text(), '订单号: '), ' 状态:')

这看起来有点绕，但确实是解决这类问题的常用手段。再比如，如果你想从一个URL中提取域名，而这个URL的格式不总是那么规整，但你知道它总是在

//

之后，可能在第一个

之前。

substring-before(substring-after(., '//'), '/')

就可以尝试提取出

www.example.com

之类的部分。当然，这只是一个简化版，实际的URL解析会复杂得多。

关键在于，

substring()

提供的是一种基于位置的裁剪能力，而

substring-before()

和

substring-after()

提供的是基于内容的裁剪能力。它们结合起来，就能处理很多看起来有点棘手的文本提取任务。我个人觉得，这种链式调用，就像是在一步步地“剥洋葱”，每次都剥掉一层不需要的，直到露出核心。

substring()

函数与正则表达式相比，各自的优势和适用场景是什么？

这是一个很有意思的对比。从我的经验来看，

substring()

和正则表达式（Regex）在处理字符串方面，就像是两把不同的工具，各有各的锋利之处。

substring()

的优势与适用场景：

简洁直观： 当你需要从字符串的固定位置或已知长度处提取内容时，
```
substring()
```
无疑是最直接、最易读的方案。比如，从一个固定格式的日期字符串“YYYYMMDD”中提取年份，
```
substring(., 1, 4)
```
，一目了然。
性能开销小： 相比于复杂的正则表达式引擎，
```
substring()
```
的操作通常更轻量，性能开销更小。对于大量字符串处理的场景，如果
```
substring()
```
能满足需求，它通常是更优的选择。
XPath 1.0的唯一选择： 值得注意的是，XPath 1.0标准本身并不支持正则表达式。在很多老旧系统或某些特定环境中，你可能只能使用XPath 1.0。在这种情况下，
```
substring()
```
以及
```
substring-before()
```
、
```
substring-after()
```
就成了你进行字符串操作的“全部家当”。这确实是一种限制，但也迫使你更巧妙地利用这些基础函数。

正则表达式的优势与适用场景：

强大的模式匹配： 正则表达式的真正强大之处在于其模式匹配能力。当字符串的结构不固定，或者你需要根据复杂的规则（如包含数字、字母、特定符号的组合，或者可变长度的序列）来提取内容时，正则表达式是不可替代的。比如，提取所有符合邮箱格式的字符串，或者从混杂的文本中识别出电话号码。
灵活性高： 正则表达式可以处理各种复杂的边界条件、重复模式，甚至可以通过捕获组（capturing groups）一次性提取出多个感兴趣的部分。
XPath 2.0+支持： 幸运的是，从XPath 2.0开始，引入了对正则表达式的支持，通过
```
matches()
```
,
```
replace()
```
,
```
tokenize()
```
等函数，极大地扩展了XPath在字符串处理上的能力。这意味着在支持XPath 2.0及更高版本的环境中，你可以根据实际需求，灵活选择
```
substring()
```
或正则表达式。

总结来说：

如果你面对的是结构化、位置固定、长度可预测的字符串，或者只需要基于简单的分隔符进行截取，那么

substring()

是你的首选，它足够简单高效。

但如果你的字符串是半结构化、模式复杂、长度可变，或者需要进行复杂的校验和提取，那么正则表达式的强大功能就显得不可或缺了。在XPath 2.0+的环境下，这两种工具可以相辅相成，共同解决更广泛的字符串处理问题。我的看法是，没有绝对的好坏，只有是否适合当前任务。能用简单的方法解决，就别把问题复杂化；但遇到复杂问题，也别害怕引入更强大的工具。

相关文章

XPath 3.0中的map和array怎么用

C#如何使用XPath查询带命名空间的XML

C#怎么处理带命名空间的XML XmlNamespaceManager

XPath函数是什么如何在查询中使用count()或contains()

XSLT怎么实现if-then-else逻辑

相关标签:

工具邮箱 yy 正则表达式 String xml 字符串 Length Regex

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XPath的..语法如何选择父节点？下一篇：XPath的QName()函数处理什么类型？

作者最新文章

AI生成博物馆展品的解说词

2026-01-31 16:22

Excel怎么计算排名 Excel排名函数RANK使用方法【技巧】

2026-01-31 16:23

如何处理AI的“幻觉”？验证AI生成内容真伪的方法

2026-01-31 16:37

python人马兽系列学习笔记与心得分享

2026-01-31 16:40

cad看图王无插件网页入口 cad看图王HTML5在线看图

2026-01-31 16:41

PDF怎么在线给PDF加密 PDF文件设置访问密码方法【工具】

2026-01-31 17:04

Steam绝地求生入口 PUBG端游官网最新登录入口

2026-01-31 17:09

PUBG Mobile官网入口 PUBG国际服官方网站入口

2026-01-31 17:11

Excel表格怎么自动求和？零基础入门Excel常用函数公式汇总

2026-01-31 17:12

电脑屏幕截图快捷键是什么？Windows全屏和局部截图方法大全

2026-01-31 17:18

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

更多

js正则表达式

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

515

2023.06.20

正则表达式不包含

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

749

2023.07.05

java正则表达式匹配字符串

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

215

2023.08.11

正则表达式空格

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.06

2026赚钱平台入口大全

2026赚钱平台入口大全

2026年最新赚钱平台入口汇总，涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道，助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

XPath 参考手册

XPath 参考手册

共0课时 | 0人学习

XPath 教程

XPath 教程

共9课时 | 4万人学习

React 教程

React 教程

共58课时 | 4.4万人学习

最新文章

更多

如何用Puppeteer或Playwright提取动态网页生成的XML

EDI X12标准与XML之间的映射怎么做？

ARM模板/Bicep如何部署一个带XML上传功能的Azure App Service

Final Cut Pro的XML文件怎么用 FCPXML详解

Python lxml库的etree和objectify有什么区别

Watchdog库是什么如何用Python监控文件夹变化并上传XML

如何用AI或机器学习自动推荐XML映射规则

Qt C++如何实现XML文件上传 QNetworkAccessManager

SvelteKit如何处理XML文件上传 Form Actions和API路由

ASP.NET Core如何使用XmlSchemaSet验证上传的XML

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部