如何测试RAC环境的故障转移能力_手动Kill PMON进程模拟宕机

P粉602998670

发布时间：2026-03-14 15:48:32

955人浏览过

来源于php中文网

原创

不能直接 kill -9 PMON 进行RAC故障转移测试，因为CRS监控资源而非进程，仅杀PMON会导致实例“半死不活”，无法触发故障转移，反而引发集群不稳定。

为什么不能直接 `kill -9` PMON 进行 RAC 故障转移测试

pmon 是 oracle 实例的关键后台进程，负责清理异常会话和释放资源。但在 rac 环境中，直接 kill -9 pmon 并不会触发预期的实例故障转移（failover），反而大概率导致该节点 crs 资源进入 unknown 或 offline 状态，甚至引发 ocr/ voting disk 访问异常，使集群整体不稳定。

根本原因是：CRS 层监控的是 ora.<sid>.asm</sid>、ora.<sid>.srv</sid> 等资源状态，而非单个 OS 进程；PMON 挂掉后，Oracle 实例可能仍被 CRS 认为“活着”（因为其他进程如 crsd、ocssd 仍在运行），从而跳过故障检测逻辑。

真实生产环境里，实例宕机通常表现为整个 oracle 用户下的所有 Oracle 后台进程全部消失，或 CRS 主动停止该实例资源
仅杀 pmon 属于“半死不活”状态，既不满足 CRS 的 failure threshold，也不符合 Oracle 的 instance death 判定条件
部分版本（如 11.2.0.4）在 PMON 被 kill 后，实例可能持续数分钟处于 STARTED 状态，但无法接受新连接，造成假性可用

正确模拟 RAC 实例宕机的两种可靠方式

必须让 CRS 明确感知到该实例资源已不可用，并触发 relocation 或 restart 行为。以下方法经 11gR2 / 12cR1 / 19c 验证有效：

使用 crsctl stop resource ora.<db_name>.db -n <node_name>：这是最干净的方式，等价于正常关闭实例并释放所有资源，会触发连接重定向（TAF）、服务迁移和服务重启流程
强制终止整个数据库资源栈：crsctl stop cluster -n <node_name>（慎用）：适用于测试节点级故障，但会影响该节点上所有数据库和服务，且需确保另一节点能承载全部负载
避免用 sqlplus / as sysdba 执行 shutdown abort：它虽能杀死实例，但 CRS 可能因未收到通知而将资源标记为 FAILED，后续需手动 crsctl start resource，偏离真实故障场景

验证故障转移是否生效的关键检查点

不是看到“实例起来了”就完事。RAC 故障转移的核心是业务连续性，重点看客户端连接、服务状态和服务透明度是否按预期工作：

PixVerse

PixVerse是一款强大的AI视频生成工具，可以轻松地将多种输入转化为令人惊叹的视频。

下载

检查 srvctl status service -d <db_name> 输出，确认原故障节点上的 service 已自动迁移到存活节点（running on nodes: node2）
用 tnsping <service_name> 和实际应用连接测试，观察是否发生 TAF 切换（如 SELECT 查询中断后自动重连，非 DML 场景下应无报错）
查 v$active_services 和 v$session，确认新连接确实落在目标节点，且 failover_type、failover_method 字段与 service 创建时设置一致
留意 alert.log 中是否有 ORA-03113、ORA-03137 等会话中断记录——少量可接受，大量出现说明客户端未配置 TAF 或 JDBC 连接串缺少 failover=true

最容易被忽略的配置陷阱

即使操作步骤全对，没配好这些，故障转移也会“静默失败”：客户端连得上，但其实没切走，或者切走了却卡在中间状态。

remote_listener 必须指向 SCAN 地址，且所有节点的 local_listener 指向本机 VIP，否则 service 无法跨节点发布监听信息
service 创建时未指定 -r（preferred）和 -a（available）节点，会导致 CRS 默认只在单节点启动 service，不支持自动 relocation
JDBC 连接串漏了 LoadBalance=true&Failover=true，或 .NET 的 Data Source=xxx;Failover Partner=xxx; 未启用，应用层根本不会尝试重连
tnsnames.ora 中 service 的 FAILOVER_MODE 块缺失或 TYPE=SELECT 写成 type=select（大小写敏感），TAF 不生效

真正难的从来不是“怎么杀”，而是“杀完之后，系统是否按你设想的路径反应”。每一步配置偏差，都会让故障转移变成一次黑盒行为。

相关标签:

Resource select Session 栈 alert oracle 数据库 ocr

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优化PL/SQL中的条件判断_CASE WHEN与DECODE函数性能分析下一篇：暂无

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

resource是什么文件

Resource文件是一种特殊类型的文件，它通常用于存储应用程序或操作系统中的各种资源信息。它们在应用程序开发中起着关键作用，并在跨平台开发和国际化方面提供支持。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

183

2023.12.20

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

336

2023.10.17