Autor Tema: Fallos de 2 discos en un raid5 (SOLUCIONADO) (Leído 16402 veces)

wootux · « **en:** 03 de Octubre de 2012, 07:23:17 pm »

Hola, espero que me puedan ayudar con este problema. Tengo un servidor en producción, con varios discos en raid.
En unos de los arrays de raid es RAID5, tenía 4 discos de 1TB, cada uno, con un total de 3TB, por necesidad de espacio lo amplié
con 2 discos más uno de ellos spare. Por lo que al final tenía 4TB. En todo el proceso no hubo ningún problema, pero pasados unos días,
ayer mismo me llega el siguiente correo:

Código: [Seleccionar]

This is an automatically generated mail message from mdadm
running on server01
A Fail event had been detected on md device /dev/md3.

It could be related to component device /dev/sdc.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[3] sdc[2](F) sdb[1]
      3907049984 blocks level 5, 64k chunk, algorithm 2 [5/4] [UU_UU]

unused devices: <none>

Como tenía un disco spare, no hubo problema, y este se activo automáticamente poniéndose a sincronizar el solo. Mientras sincronizaba iba planificando el cambio
del disco, pero a las horas sin que llegara a terminar de sincronizar - iba casi por el 80% - me falló otro disco:

Código: [Seleccionar]

This is an automatically generated mail message from mdadm
running on server01

A Fail event had been detected on md device /dev/md3.

It could be related to component device /dev/sdd.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5] sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
      3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]
      [==============>......]  recovery = 74.3% (726644228/976762496) finish=289.8min speed=14379K/sec

En esa misma noche me volvió a llegar otro mail:

Código: [Seleccionar]

This is an automatically generated mail message from mdadm
running on server01

A DegradedArray event had been detected on md device /dev/md3.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
      3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]

unused devices: <none>

Esa misma noche me llegó otro más:

Código: [Seleccionar]

This is an automatically generated mail message from mdadm
running on server01

A DegradedArray event had been detected on md device /dev/md3.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : active raid1 sdg2[0] sdh2[1]
      77907136 blocks [2/2] [UU]

md0 : active raid1 sdg1[0] sdh1[1]
      240832 blocks [2/2] [UU]

md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
      3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]

md4 : active raid1 sde[0] sdf[1]
      488386496 blocks [2/2] [UU]

unused devices: <none>

Al acceder y comprobar que no podía acceder a los datos, me he puesto a retirar los discos dañados (sdc y sdd), y colocar 1 nuevo (sdc), pero al reiniciar
encuentro el raid inactivo:

Código: [Seleccionar]

Sálida del comando: cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : inactive sda[0](S) sdi[5](S) sdh[4](S) sdb[1](S)
      3907049984 blocks

Sálida del comando: mdadm -D /dev/md3
mdadm: md device /dev/md3 does not appear to be active.

Intento añadir el disco nuevo pero ....

Código: [Seleccionar]

Sálida del comando: mdadm --manage /dev/md3 --add /dev/sdc
mdadm: cannot get array info for /dev/md3

Intento reconstruir el array con:

Código: [Seleccionar]

Sálida del comando: mdadm --create --assume-clean --level=5 --raid-devices=6 /dev/md3 /dev/sda /dev/sdb missing missing /dev/sdi /dev/sdj
mdadm: device /dev/sda not suitable for any style of array

y con:

Código: [Seleccionar]

Sálida del comando: mdadm -A --force /dev/md3
(no muestra nada, pero no parece hacer nada)

De momento no encuentro la solución al problema, no se si el problema viene porque se haya fastidiado un segundo disco cuando la sincronización. Más información del array:

Código: [Seleccionar]

Sálida del comando: mdadm --examine /dev/sda
/dev/sda:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 55c95a1d:7016cb45:cb294f7a:c24bd812 (local to host server01)
  Creation Time : Fri Jan  8 17:39:36 2010
     Raid Level : raid5
  Used Dev Size : 976762496 (931.51 GiB 1000.20 GB)
     Array Size : 3907049984 (3726.05 GiB 4000.82 GB)
   Raid Devices : 5
  Total Devices : 6
Preferred Minor : 3

    Update Time : Wed Oct  3 09:13:58 2012
          State : clean
 Active Devices : 3
Working Devices : 4
 Failed Devices : 2
  Spare Devices : 1
       Checksum : d26dfbad - correct
         Events : 28830

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     0       8        0        0      active sync   /dev/sda

   0     0       8        0        0      active sync   /dev/sda
   1     1       8       16        1      active sync   /dev/sdb
   2     2       0        0        2      faulty removed
   3     3       0        0        3      faulty removed
   4     4       8      128        4      active sync   /dev/sdi
   5     5       8      144        5      spare   /dev/sdj


Sálida del comando: mdadm --examine --brief --scan --config=partitions
ARRAY /dev/md0 UUID=9f030cac:c8200226:09bd8205:277517b8
ARRAY /dev/md1 UUID=7ba9aa2b:e4f77a83:3ec3f6c5:6e16e3ba
ARRAY /dev/md4 UUID=1bd7edf6:ab86fdef:dcc80fbf:89326e51
ARRAY /dev/md3 UUID=55c95a1d:7016cb45:cb294f7a:c24bd812
   spares=1

Perdón por el tocho, pero he probado varias cosas y no doy la solución, o ¿daré por perdido
todo?.

Gracias.

Salu2.

Dabo · « **Respuesta #1 en:** 04 de Octubre de 2012, 01:12:30 pm »

Buenas, te soy sincero, lo he leído un par de veces "al vuelo", a ver si tengo más tiempo para poder con calma intentar ayudarte, por cierto, las explicaciones tan extensas en este caso ayudan mucho

wootux · « **Respuesta #2 en:** 04 de Octubre de 2012, 07:26:25 pm »

Gracias. Aunque de todas formas he sido precavido, y tengo copia de casi todos los datos, ya esta semana
me estaban empezando a salir alertas del smartd, pero no me imaginaba que fallara tan rápido, ni 2 discos.
Encima los 2 discos el mismo modelo, con casi las mismas horas de uso.

Salu2.

Dabo · « **Respuesta #3 en:** 05 de Octubre de 2012, 02:03:13 am »

Bueno, al menos con los deberes hechos estás más tranquilo, Una pregunta, has mirado algo de Smart? Mira este hilo, es que ando dándole vueltas y puede tener su lógica: http://us.generation-nt.com/answer/mdadm-cannot-get-array-info-help-201243542.html Saludos

wootux · « **Respuesta #4 en:** 05 de Octubre de 2012, 12:14:31 pm »

El tema del smart si lo tengo controlado, me llegaron avisos incluso al correo, por eso tenía un spare. Pero no pensaba que fuera
a fallar tan rápido, ni que pasara en 2 discos, aunque por lo que leo tampoco es tan raro. Si un disco le queda poco de vida, al
sincronizar el raid se está forzando el disco al estar copiando tanta información, sobre todo con discos grandes.
Quizás mi fallos fue no haber activado el bitmap del raid, para acelerar la sincronización (o también el fallo).

Pero vamos que los discos están cascados fijo, porque en uno de ellos el smart ni siquiera me saca el modelo o n/s.
Por lo que veo, creo que estoy perdiendo el tiempo intentando arreglarlo, casi mejor que tiro del backup aprovechando el fin de semana.

Gracias.

Salu2.

Pd: seguramente aprovecharé alguno de los discos para probar este howto http://smartmontools.sourceforge.net/badblockhowto.html

Dabo · « **Respuesta #5 en:** 08 de Octubre de 2012, 02:06:30 pm »

Buenas, sí, al final resulta lo que resulta, han petado y cierto es que uno de los problemas del RAID es lo que sufre el otro disco caso que uno falle, el problema (o la enseñanza más bien) es no llegar a ver los avisos. Te recomiendo que instales algo como logwatch y si andas más paranoico logcheck y que te mande un mail cada hora con lo relevante del sistema (logwatch diario)

Saludos !

wootux · « **Respuesta #6 en:** 08 de Octubre de 2012, 05:08:13 pm »

Al final he reconstruido el array, y tirado del backup y listo. Ahora es cuando me acuerdo de toda
la gente que confunde Raid con backup.
El logwatch, lo tengo diario, es lo primero que miro por las mañanas.
Tengo pendiente mirar Pandora Fms, que tiene muy bien pinta, también para las alertas.

Si lo ves bien, podemos dar el post por solucionado.

Gracias.
Salu2.

Dabo · « **Respuesta #7 en:** 09 de Octubre de 2012, 12:43:54 pm »

Ok, gracias a ti por informar, le pondremos un "solucionado", saludos !

Noticias:

Autor Tema: Fallos de 2 discos en un raid5 (SOLUCIONADO) (Leído 16402 veces)

wootux

Fallos de 2 discos en un raid5 (SOLUCIONADO)

Dabo

Re:Fallos de 2 discos en un raid5

wootux

Re:Fallos de 2 discos en un raid5

Dabo

Re:Fallos de 2 discos en un raid5

wootux

Re:Fallos de 2 discos en un raid5

Dabo

Re:Fallos de 2 discos en un raid5

wootux

Re:Fallos de 2 discos en un raid5

Dabo

Re:Fallos de 2 discos en un raid5