Hola, espero que me puedan ayudar con este problema. Tengo un servidor en producción, con varios discos en raid.
En unos de los arrays de raid es RAID5, tenía 4 discos de 1TB, cada uno, con un total de 3TB, por necesidad de espacio lo amplié
con 2 discos más uno de ellos spare. Por lo que al final tenía 4TB. En todo el proceso no hubo ningún problema, pero pasados unos días,
ayer mismo me llega el siguiente correo:
This is an automatically generated mail message from mdadm
running on server01
A Fail event had been detected on md device /dev/md3.
It could be related to component device /dev/sdc.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[3] sdc[2](F) sdb[1]
3907049984 blocks level 5, 64k chunk, algorithm 2 [5/4] [UU_UU]
unused devices: <none>
Como tenía un disco spare, no hubo problema, y este se activo automáticamente poniéndose a sincronizar el solo. Mientras sincronizaba iba planificando el cambio
del disco, pero a las horas sin que llegara a terminar de sincronizar - iba casi por el 80% - me falló otro disco:
This is an automatically generated mail message from mdadm
running on server01
A Fail event had been detected on md device /dev/md3.
It could be related to component device /dev/sdd.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5] sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]
[==============>......] recovery = 74.3% (726644228/976762496) finish=289.8min speed=14379K/sec
En esa misma noche me volvió a llegar otro mail:
This is an automatically generated mail message from mdadm
running on server01
A DegradedArray event had been detected on md device /dev/md3.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]
unused devices: <none>
Esa misma noche me llegó otro más:
This is an automatically generated mail message from mdadm
running on server01
A DegradedArray event had been detected on md device /dev/md3.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : active raid1 sdg2[0] sdh2[1]
77907136 blocks [2/2] [UU]
md0 : active raid1 sdg1[0] sdh1[1]
240832 blocks [2/2] [UU]
md3 : active raid5 sdj[5](S) sdi[4] sda[0] sdd[6](F) sdc[7](F) sdb[1]
3907049984 blocks level 5, 64k chunk, algorithm 2 [5/3] [UU__U]
md4 : active raid1 sde[0] sdf[1]
488386496 blocks [2/2] [UU]
unused devices: <none>
Al acceder y comprobar que no podía acceder a los datos, me he puesto a retirar los discos dañados (sdc y sdd), y colocar 1 nuevo (sdc), pero al reiniciar
encuentro el raid inactivo:
Sálida del comando: cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md3 : inactive sda[0](S) sdi[5](S) sdh[4](S) sdb[1](S)
3907049984 blocks
Sálida del comando: mdadm -D /dev/md3
mdadm: md device /dev/md3 does not appear to be active.
Intento añadir el disco nuevo pero ....
Sálida del comando: mdadm --manage /dev/md3 --add /dev/sdc
mdadm: cannot get array info for /dev/md3
Intento reconstruir el array con:
Sálida del comando: mdadm --create --assume-clean --level=5 --raid-devices=6 /dev/md3 /dev/sda /dev/sdb missing missing /dev/sdi /dev/sdj
mdadm: device /dev/sda not suitable for any style of array
y con:
Sálida del comando: mdadm -A --force /dev/md3
(no muestra nada, pero no parece hacer nada)
De momento no encuentro la solución al problema, no se si el problema viene porque se haya fastidiado un segundo disco cuando la sincronización. Más información del array:
Sálida del comando: mdadm --examine /dev/sda
/dev/sda:
Magic : a92b4efc
Version : 0.90.00
UUID : 55c95a1d:7016cb45:cb294f7a:c24bd812 (local to host server01)
Creation Time : Fri Jan 8 17:39:36 2010
Raid Level : raid5
Used Dev Size : 976762496 (931.51 GiB 1000.20 GB)
Array Size : 3907049984 (3726.05 GiB 4000.82 GB)
Raid Devices : 5
Total Devices : 6
Preferred Minor : 3
Update Time : Wed Oct 3 09:13:58 2012
State : clean
Active Devices : 3
Working Devices : 4
Failed Devices : 2
Spare Devices : 1
Checksum : d26dfbad - correct
Events : 28830
Layout : left-symmetric
Chunk Size : 64K
Number Major Minor RaidDevice State
this 0 8 0 0 active sync /dev/sda
0 0 8 0 0 active sync /dev/sda
1 1 8 16 1 active sync /dev/sdb
2 2 0 0 2 faulty removed
3 3 0 0 3 faulty removed
4 4 8 128 4 active sync /dev/sdi
5 5 8 144 5 spare /dev/sdj
Sálida del comando: mdadm --examine --brief --scan --config=partitions
ARRAY /dev/md0 UUID=9f030cac:c8200226:09bd8205:277517b8
ARRAY /dev/md1 UUID=7ba9aa2b:e4f77a83:3ec3f6c5:6e16e3ba
ARRAY /dev/md4 UUID=1bd7edf6:ab86fdef:dcc80fbf:89326e51
ARRAY /dev/md3 UUID=55c95a1d:7016cb45:cb294f7a:c24bd812
spares=1
Perdón por el tocho, pero he probado varias cosas y no doy la solución, o ¿daré por perdido
todo?.
Gracias.
Salu2.