讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

python中如何使用正则表达式提取数字？

穿越時空

发布时间：2025-09-15 18:59:01

|

409人浏览过

|

来源于php中文网

原创

使用re模块结合正则表达式可精确提取文本中的整数、浮点数、负数及带符号或单位的数字，通过r'[-+]?\d+(?:.\d+)?'等模式匹配，并用findall或search配合捕获组提取所需部分，再转换为数值类型进行处理。

python中如何使用正则表达式提取数字？

在Python里，要从文本中抓取数字，最直接、也最灵活的工具就是

re

模块，也就是正则表达式。它能帮你根据预设的模式，把字符串里所有符合条件的数字都找出来。这比你手动去遍历字符串、判断每个字符是不是数字要高效和优雅得多，尤其是在处理复杂文本时。

解决方案

使用Python的

re

模块提取数字，通常我们会用到

re.findall()

函数。这个函数会返回一个列表，包含所有匹配到的非重叠字符串。

最基础的数字模式是

\d+

，它能匹配一个或多个数字字符（0-9）。但实际情况往往更复杂，数字可能包含小数点、正负号，或者混杂在其他文本中。

import re

text1 = "我有100个苹果和20.5公斤的香蕉，还有-5个坏梨。"
text2 = "订单号是123456789，总价为999.99元。"
text3 = "我的身高是175cm，体重是68.3kg。"

# 1. 提取整数
# 模式：\d+ 匹配一个或多个数字
integers = re.findall(r'\d+', text1)
print(f"提取整数 (text1): {integers}") # ['100', '20', '5'] - 注意这里会把20.5的20和5分开

# 2. 提取浮点数和整数（更通用的数字模式）
# 模式：\d+\.\d* 或者 \d*\.\d+ 或者更通用的 \d+\.?\d*
# 考虑到数字可能带小数点，我们用 \d+\.?\d* 来匹配，它会匹配至少一个数字，
# 后面可选地跟着一个小数点，再后面可选地跟着零个或多个数字。
# 这样可以匹配 "100", "20.5", "5." (虽然实际中"5."不常见，但模式会匹配)
numbers_general = re.findall(r'\d+\.?\d*', text1)
print(f"提取通用数字 (text1): {numbers_general}") # ['100', '20.5', '5']

# 3. 提取带正负号的数字
# 模式：[-+]?\d+\.?\d* 匹配可选的正负号，然后是通用数字模式
signed_numbers = re.findall(r'[-+]?\d+\.?\d*', text1)
print(f"提取带符号数字 (text1): {signed_numbers}") # ['100', '20.5', '-5']

# 4. 结合实际场景，提取特定格式的数字
# 比如从"订单号是123456789"中提取订单号
order_id_match = re.search(r'订单号是(\d+)', text2)
if order_id_match:
    print(f"提取订单号 (text2): {order_id_match.group(1)}") # group(1) 获取括号内的内容

# 5. 提取带有单位的数字，但只保留数字部分
# 比如从"175cm"中提取175
height_match = re.search(r'(\d+\.?\d*)cm', text3)
if height_match:
    print(f"提取身高数字 (text3): {height_match.group(1)}") # '175'

说实话，正则表达式这东西，初看会觉得有点像天书，但一旦你掌握了几个核心元字符和量词，它在文本处理上的能力会让你大呼过瘾。上面这些模式，基本能覆盖你日常提取数字的大部分需求了。

立即学习“Python免费学习笔记（深入）”；

如何在复杂文本中精确提取各类数字，包括整数、浮点数和负数？

在真实世界的文本里，数字的形态是多种多样的，比如可能夹杂着单位，或者用逗号做千位分隔符。要精确提取，我们就得构建更精细的正则表达式。这就像给一个模糊的目标画出清晰的轮廓。

一个比较全面的数字匹配模式，可以考虑以下几点：

正负号: 数字前面可能有
```
+
```
或
```
-
```
。用
```
[-+]?
```
来匹配可选的正负号。
整数部分: 至少一个数字。
```
\d+
```
。
小数部分: 小数点是可选的，后面可以跟零个或多个数字。
```
\.?\d*
```
。
组合: 将上述部分组合起来，得到
```
[-+]?\d+\.?\d*
```
。这个模式能捕获像 "123", "12.3", "-45", "+6.78" 这样的数字。

但如果你想更严谨地匹配浮点数，比如确保小数点后有数字，或者小数点前有数字，可以调整为：

```
[-+]?\d+\.\d+
```
: 匹配 "12.3", "-4.5"，但不匹配 "12" 或 "0.5"。
```
[-+]?(?:\d+\.\d*|\d*\.\d+)
```
: 匹配 "12.3", "0.5", "12." (如果允许)，但不匹配 "12"。
我个人更倾向于使用
```
[-+]?\d+(?:\.\d+)?
```
。这个模式是说：可选的正负号，接着至少一个数字，然后是一个非捕获组
```
(?:\.\d+)?
```
，这个组表示可选地匹配一个小数点和至少一个数字。这样既能匹配整数，也能匹配像 "12.3" 这样的浮点数，而且不会匹配单独的 "." 或者 "12." 这种可能不是你想要的浮点数。

import re

complex_text = "今天的气温是-5.5℃，昨天下雨量是20mm，预计明天股价上涨1.23%，订单总额达到1,234,567.89元。"

# 提取所有看起来像数字的字符串
# 使用我偏好的模式：可选正负号，至少一个数字，可选的小数点和至少一个数字
all_numbers_str = re.findall(r'[-+]?\d+(?:\.\d+)?', complex_text)
print(f"从复杂文本中提取的数字字符串: {all_numbers_str}")
# 输出: ['-5.5', '20', '1.23', '1', '234', '567.89']
# 注意：这里会把 "1,234,567.89" 拆分成 "1", "234", "567.89"

# 如果要处理千位分隔符，模式需要更复杂一些
# 匹配可能带逗号的整数或浮点数
# 这里我用一个稍微激进的模式：允许数字之间有逗号，但逗号后必须跟三位数字
# 并且整个数字可以有可选的小数部分
numbers_with_commas = re.findall(r'[-+]?\d{1,3}(?:,\d{3})*(?:\.\d+)?', complex_text)
print(f"处理千位分隔符后的数字字符串: {numbers_with_commas}")
# 输出: ['-5.5', '20', '1.23', '1,234,567.89']
# 这个模式就精确多了，成功地将 "1,234,567.89" 作为一个整体提取出来。

# 这种精细化的匹配，需要你对可能出现的数字格式有清晰的预期。
# 比如，如果数字后面总是跟着单位，而你只想要数字，可以用捕获组：
temperature_match = re.search(r'([-+]?\d+(?:\.\d+)?)℃', complex_text)
if temperature_match:
    print(f"提取气温数字: {temperature_match.group(1)}") # '-5.5'

这里面的关键在于

（0次或1次）、

（1次或多次）、

（0次或多次）这些量词，以及

()

捕获组和

(?:)

非捕获组的灵活运用。构建正确的模式，就像是给你的文本数据量身定制一把钥匙。

Tana

Tana

“节点式”AI智能笔记工具，支持超级标签。

下载

提取到的数字是字符串，如何将其转换为数值类型进行后续处理？

re.findall()

返回的，或者

match.group()

捕获到的，都是字符串类型。这很合理，因为正则表达式本身就是处理字符串的。但我们通常提取数字是为了进行计算、比较或者其他数值操作，所以下一步往往就是把它们转换成

int

（整数）或

float

（浮点数）。

这个转换过程相对直观，Python提供了内置的

int()

和

float()

函数。不过，有几个小细节值得注意：

类型选择: 如果你的数字可能包含小数，那就用
```
float()
```
。如果确定都是整数，用
```
int()
```
会更合适。
错误处理: 虽然你的正则表达式应该已经过滤掉了非数字字符，但万一有意外，比如匹配到了一个空字符串或者一个不完全的数字，
```
int()
```
或
```
float()
```
转换时可能会抛出
```
ValueError
```
。在实际项目中，你可能需要用
```
try-except
```
块来处理这种情况，或者确保你的正则表达式足够健壮。
批量转换: 如果
```
re.findall()
```
返回了一个数字字符串列表，你可以用列表推导式（list comprehension）或者
```
map()
```
函数来高效地批量转换。

import re

text = "价格是100元，折扣后是85.5折，会员价-10元。库存量：500000。"

# 提取所有可能带符号的浮点数或整数
# 这里我们用一个比较通用的模式，能抓取到大部分我们想要的数字形态
# 考虑到可能有千位分隔符，我们先不直接处理，在转换时再去除
numbers_as_strings = re.findall(r'[-+]?\d+(?:,\d{3})*(?:\.\d+)?', text)
print(f"原始提取的数字字符串: {numbers_as_strings}")
# 输出: ['100', '85.5', '-10', '500,000']

# 转换为数值类型
converted_numbers = []
for num_str in numbers_as_strings:
    # 在转换前，先去除千位分隔符，否则float()或int()会报错
    cleaned_num_str = num_str.replace(',', '')
    try:
        if '.' in cleaned_num_str:
            converted_numbers.append(float(cleaned_num_str))
        else:
            converted_numbers.append(int(cleaned_num_str))
    except ValueError:
        print(f"警告: 无法将 '{num_str}' 转换为数值类型，已跳过。")
        # 实际项目中，你可能需要更复杂的错误处理逻辑

print(f"转换后的数值列表: {converted_numbers}")
# 输出: [100, 85.5, -10, 500000]

# 使用列表推导式和map()的简洁方式
# 假设我们已经确保了字符串都是干净的数字（无逗号）
cleaned_numbers_str = [s.replace(',', '') for s in numbers_as_strings]
float_numbers = [float(s) for s in cleaned_numbers_str if '.' in s]
int_numbers = [int(s) for s in cleaned_numbers_str if '.' not in s]

print(f"浮点数列表 (通过推导式): {float_numbers}")
print(f"整数列表 (通过推导式): {int_numbers}")

# 如果你知道所有数字都可能是浮点数，直接用map
all_as_floats = list(map(float, cleaned_numbers_str))
print(f"所有数字转换为浮点数 (通过map): {all_as_floats}")

这块的重点是

replace(',', '')

这一步，它是在将字符串转换为数值类型前，处理掉那些可能导致转换失败的非数字字符（比如千位分隔符）。这体现了数据清洗在数据处理流程中的重要性。

面对特殊场景，如带有单位或特定分隔符的数字，正则表达式还能胜任吗？

当然可以，而且这正是正则表达式的强项之一。当数字和单位、特定的前缀或后缀、或者非标准分隔符混在一起时，我们可以通过更精巧的模式来“雕刻”出我们真正想要的数字。这就像在沙子里淘金，需要更细密的筛子。

关键在于使用捕获组

()

。捕获组允许你从整个匹配结果中，只提取模式中特定部分的内容。

import re

special_text = "订单号:XYZ-12345, 金额: $99.99, 生产日期: 2023-10-26, 数量: 100件, 编码: #A-B-C-42."

# 1. 提取订单号中的数字部分 (例如 XYZ-12345 中的 12345)
# 模式：XYZ-后面跟着数字
order_id_match = re.search(r'XYZ-(\d+)', special_text)
if order_id_match:
    print(f"订单号数字: {order_id_match.group(1)}") # '12345'

# 2. 提取带货币符号的金额 (例如 $99.99)
# 模式：$后面跟着一个数字模式
amount_match = re.search(r'\$(\d+(?:\.\d+)?)', special_text)
if amount_match:
    print(f"金额: {amount_match.group(1)}") # '99.99'

# 3. 提取带有单位的数字 (例如 100件)
# 模式：数字后面跟着单位
quantity_match = re.search(r'(\d+)件', special_text)
if quantity_match:
    print(f"数量: {quantity_match.group(1)}") # '100'

# 4. 提取日期中的年份、月份、日期
# 模式：(\d{4})-(\d{2})-(\d{2}) 分别捕获年、月、日
date_match = re.search(r'(\d{4})-(\d{2})-(\d{2})', special_text)
if date_match:
    year, month, day = date_match.groups() # groups()返回所有捕获组的元组
    print(f"生产日期: 年={year}, 月={month}, 日={day}") # 年=2023, 月=10, 日=26

# 5. 从混合编码中提取最后一个数字 (例如 #A-B-C-42 中的 42)
# 模式：匹配一个非数字或连字符的字符，直到最后一个连字符后跟着数字
code_number_match = re.search(r'-(\d+)$', special_text) # $表示字符串结尾
if code_number_match:
    print(f"编码中的数字: {code_number_match.group(1)}") # '42'

# 更复杂的例子：提取所有括号内的数字
text_with_parentheses = "项目A (ID: 123), 项目B (ID: 456), 错误码 (Err: 789)."
numbers_in_parentheses = re.findall(r'\((?:ID|Err):\s*(\d+)\)', text_with_parentheses)
print(f"括号内ID/Err数字: {numbers_in_parentheses}") # ['123', '456', '789']

这里面，

re.search()

和

re.findall()

的选择也很关键。

re.search()

只找第一个匹配项，通常用于提取特定格式的唯一信息；而

re.findall()

则会找出所有非重叠的匹配项，适用于你需要批量提取同类信息的情况。当你的模式中包含捕获组时，

re.findall()

会直接返回捕获组的内容列表，而不是整个匹配项。这在使用上非常方便。

总的来说，正则表达式在Python中处理数字提取，就像一把瑞士军刀，功能多且强大。关键在于理解你的数据形态，然后构建出恰到好处的模式。多实践，多尝试，你会发现它的乐趣。

相关文章

Python 如何隐藏不必要的异常细节？

Python 单元测试中 mock 的使用边界

Python 模块只会被加载一次吗？

如何让 contextmanager 支持异步上下文管理

Python 多个装饰器叠加的执行顺序

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

python 正则表达式编码 app 工具苹果数据清洗会员币天下 Python 正则表达式 Float try 字符串 int 值类型字符串类型 map

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在 macOS 上安装 NVM 后提示已安装但命令无法识别的解决方案下一篇：python requests库如何发送post请求_python requests库POST请求发送方法

作者最新文章

如何手动清理Composer的metadata缓存以解决包版本更新滞后的问题？

2026-01-20 16:10

Win11怎么关闭显示器自动旋转_Win11平板模式旋转锁定【系统】

2026-01-20 16:11

Linux系统怎么设置静态IP_Linux固定IP配置详细步骤【指南】

2026-01-20 16:15

c++中如何实现数组的循环右移_c++数组元素位置变换算法【详解】

2026-01-20 16:16

如何在Linux下用Valgrind分析c++内存泄漏？ (Memcheck工具)

2026-01-20 16:17

Excel怎么制作动态图表 Excel交互式动态图表制作步骤【干货】

2026-01-20 16:19

c++中如何使用std::priority_queue_c++优先队列自定义优先级【汇总】

2026-01-20 16:23

c++的std::tuple和std::pair的结构化绑定有哪些技巧？ (C++17特性)

2026-01-20 16:32

Chrome翻译网页总是显示失败怎么办_最新修复Google翻译办法【实操】

2026-01-20 16:35

MAC如何清理启动台图标_MAC删除Launchpad顽固图标方法【技巧】

2026-01-20 16:42

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

python开发工具

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

765

2023.06.15

python打包成可执行文件

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

640

2023.07.20

python能做什么

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

639

2023.07.31

python教程

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战

Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机（JVM）的核心工作原理与性能调优方法，包括 JVM 内存结构、对象创建与回收流程、垃圾回收器（Serial、CMS、G1、ZGC）对比分析、常见内存泄漏与性能瓶颈排查，以及 JVM 参数调优与监控工具（jstat、jmap、jvisualvm）的实战使用。通过真实案例，帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

6

2026.01.20

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 6.9万人学习

Django 教程

Django 教程

共28课时 | 3.3万人学习

SciPy 教程

SciPy 教程

共10课时 | 1.2万人学习

最新文章

更多

Colorama 颜色输出失效的解决方案：正确初始化与跨平台兼容配置

Python 虚拟环境的底层机制

LangChain 工具调用异常：arg1 参数错误的成因与解决方案

Python 装饰器与面向对象的边界

Python 协程中的取消（cancel）机制

fastapi 如何实现基于角色的权限控制（不依赖外部库）

如何在运行时判断当前 Python 版本是否 >= 3.11

如何在 Pyomo 中实现带索引的动态变量列表（VarList）功能

如何实现“只读属性”但允许在 init 中赋值的模式

Python logging 为什么容易被用错？

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部