Comparteix:

Avería en el disco del cluster

12/06/2020

Desde ayer lunes tenemos una avería en el disco de scratch compartido del cluster.

El disco compartido lo sirven dos equipos en cluster (para ofrecer alta disponibilidad y rendimiento). Aunque todavía desconocemos las causas, parece que los dos nodos intentaron en algún momento acceder al mismo pool de disco y es posible que haya corrupción de datos.

Estamos trabajando con el fabricante para resolver el problema cuanto antes.

[10/Ago] Los ingenieros de Oracle llevan toda la semana investigando el caso (debug de kernel, estructuras del filesystem) para eesclarecer lo sucedido. Se espera que la semana que viene puedan darnos más datos.

[14/Ago] El soporte de Oracle ha conseguido montar los datos en read-only. Hemos hecho una copia y en principio no se ha perdido ningún dato. Actualmente están obteniendo datos para clarificar el origen del problema. Está previsto recrear el pool y poner todo en producción el viernes.

[15/Ago] Estamos recreando el pool

[17/Ago] Pool recreado, datos copiados y puestos en marcha en todo el cluster

blog