如何处理RAC单节点CPU负载过高_会话分布与TAF透明故障转移

P粉602998670

发布时间：2026-03-13 11:43:03

726人浏览过

来源于php中文网

原创

问题根源在OS层NFS挂载的OCR磁盘无响应，导致CSSD心跳超时、集群驱逐与节点假死，而非数据库负载问题。

单节点CPU负载高但DB Time很低，说明问题不在数据库层

看到 db time 占比不到 1%，平均会话数 161、cpu 有 128 核，却出现系统夯死、rcu_sched self-detected stall on cpu 报错——这基本排除了 sql 或并发导致的数据库级过载。真正的问题藏在 os 层：nfs 挂载的 ocr 磁盘无响应 → cssd 心跳超时 → 集群判定节点失联 → 启动驱逐 → 但此时节点已假死，无法自动恢复。

务必先查 /var/log/messages 是否有 nfs: server not responding, still trying
用 top -H 或 pidstat -t 1 看是否大量线程卡在 D（不可中断）状态，尤其是和 NFS、block I/O 相关的进程
OCR 不该走 NFS；生产环境必须使用 ASM 或本地块设备（如 iSCSI/FC），NFS 仅限测试验证

客户端 TNS 配置 load_balance=on 不等于真负载均衡

只在客户端 tnsnames.ora 里加 LOAD_BALANCE = yes，只是让 Oracle Net 随机挑一个 VIP 连接，属于“连接时负载均衡”——它不感知后端实例真实负载，也不做连接复用或重定向。如果所有应用都连到同一个实例（比如因 DNS 缓存、VIP 漂移异常或监听未启用），LOAD_BALANCE 就形同虚设。

确认两个实例监听都正常：lsnrctl status LISTENER 在各自节点执行，检查 SERVICE_NAME 是否注册成功
连接串中必须包含全部 VIP 地址（不是 SCAN IP）且顺序无关：(ADDRESS=(PROTOCOL=TCP)(HOST=node1-vip)(PORT=1521)) 和 (ADDRESS=(PROTOCOL=TCP)(HOST=node2-vip)(PORT=1521))
避免混用 SCAN 和 VIP：SCAN 用于服务名注册与故障转移，VIP 才是 TAF 实际 failover 的目标地址；混用可能导致 TAF 跳转失败

TAF 配置生效的前提是服务端 SERVICE + 客户端 FAILOVER_MODE 双匹配

TAF 不是“开个开关就自动续命”的功能。它依赖服务端定义的 srvctl add service 中的 -y AUTOMATIC 和 -e SELECT，同时客户端 TNS 必须显式声明 FAILOVER_MODE，否则即使连接断了，SQL*Plus 也会直接报错退出，不会尝试切换。

PathFinder

AI驱动的销售漏斗分析工具

下载

服务端创建 service 时，-r 列表必须包含所有可承载流量的实例，-a 是 fallback 实例（非必需）；漏写任一实例会导致该节点永远收不到新连接
客户端 TNS 必须写全：(FAILOVER_MODE=(TYPE=select)(METHOD=basic)(RETRIES=10)(DELAY=3))，缺任意一项，TAF 就不触发
JDBC 驱动默认禁用 TAF；若要用，需在 URL 加 &oracle.net.enableOob=true&oracle.net.disableOob=false 并设置 ConnectionProperties，但实测稳定性远不如 SQL*Plus

节点假死后 TAF 无法挽救，必须靠集群健康机制兜底

当节点操作系统级卡死（如 NFS hang 引发 RCU stall），CSSD 进程无法发送心跳、CRSD 无法上报状态、监听进程虽存活但拒绝新连接——这时客户端即使配了完美 TAF，也只会不断重试原 VIP 直到超时，根本等不到“failover”。TAF 只处理“实例崩溃”或“监听宕掉”，不处理“OS 假死”。

监控不能只盯 GV$INSTANCE 状态，必须叠加 OS 层指标：vmstat 1 的 run queue 长期 > CPU 核数 × 2、iostat -x 1 的 %util 持续 100% 且 await > 100ms，就是危险信号
OCR/Voting Disk 必须放在低延迟、高可用存储上；NFS 挂载点要加 hard,intr,nofail,_netdev，但最好彻底不用
别指望 TAF 替代 HA：节点级故障必须由 Clusterware 自动 fencing + reboot，而不是靠客户端重连扛过去

实际排查时，最容易被跳过的一步是确认 NFS 服务端是否真活着——不是 ping 通就算正常，得看 showmount -e $nfs_server 能否列出共享、rpcinfo -p $nfs_server 是否返回 portmap 映射。这点一漏，后面所有 TAF 和负载均衡配置都白搭。

相关标签:

sql select 线程 var 并发 oracle 数据库 ocr 负载均衡

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优化Java向Oracle批量插入数据_executeBatch与addBatch的性能调优下一篇：如何通过物化视图实现聚合级的数据汇总_星型模型中维度表与事实表的预计算

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1134

2023.10.12