接到电话,告知公司负责的某维保客户数据库出现了故障
客户反馈,应用端出现了磁盘读写错误:
同时,登录数据库时也出现了错误:
同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2, 发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之
从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块
清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。
继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on deviceAdditional information: 1 Writing to the above trace
file is disabled for now on...
创新互联主营通海网站建设的网络公司,主营网站建设方案,
app软件开发,通海h5
成都小程序开发搭建,通海网站营销推广欢迎通海等地区企业咨询
Non critical error ORA-48113
caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"
Error message:
Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASMNOTE: Deferred communication with ASM instance这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误
清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:
$ /oracle/grid/bin/crsctl check crs
CRS-4638: Oracle High
Availability Services is online
CRS-4535: Cannot
communicate with Cluster Ready Services
CRS-4529: Cluster
Synchronization Services is online
CRS-4533: Event Manager is
online
CRS服务已经出现了问题
总结:
应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误
这里还有一个比较关键的提示:
ORA-29701: unable to connect to Cluster
Sychironization Service
这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)
分享标题:HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障-创新互联
URL分享:
http://kswjz.com/article/cohdio.html