2011-06-08

Восстановление Software RAID 1 на SLES9

Давно использую софтрэйд и вот первый раз у меня реальная проблема. Выгладит она так:

deimos:/proc # lsraid -a /dev/md0
[dev 9, 0] /dev/md0 D98A9487.3EE69195.E35737F7.76A313AC online
[dev ?, ?] (unknown) 00000000.00000000.00000000.00000000 missing
[dev 8, 33] /dev/sdc1 D98A9487.3EE69195.E35737F7.76A313AC good



deimos:/proc # mdadm -D /dev/md0
/dev/md0:
Version : 00.90.00
Creation Time : Thu Aug 17 16:16:53 2006
Raid Level : raid1
Array Size : 35543680 (33.90 GiB 36.40 GB)
Device Size : 35543680 (33.90 GiB 36.40 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 0
Persistence : Superblock is persistent

Update Time : Wed Jun 8 17:26:02 2011
State : clean, no-errors
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0


Number Major Minor RaidDevice State
0 0 0 -1 removed
1 8 33 1 active sync /dev/sdc1
2 8 17 -1 faulty /dev/sdb1
UUID : d98a9487:3ee69195:e35737f7:76a313ac
Events : 0.269823066

deimos:/proc # cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdc1[1] sdb1[2](F)
35543680 blocks [2/1] [_U]

unused devices:


То есть грубо говоря и мягко выражаясь сдох один из дисков находящихся в RAID массиве. Спасибо всем, кто придумал RAID, но на конторе это никак не сказалось - все программы работают, никто ничего не заметил.

Кроме меня.

Стремно что в любой момент все может грохнуться а бэкапы только суточной давности. Поэтому первым делом делаем резервную копию в двух разных вариантах - логическую и тупое копирование файлов при отключеных сервисах, которые их используют. А потом ничего не боясь начинаем тренироваться с восстановление массива.

Первым делом понадеемся на то, что винт живой и попробуем его просто удалить из массива и что-нибудь с ним сделать:

mdadm /dev/md0 -r /dev/sdb1

Перегружаемся и видим что яст его увидел (до перезагрузки не видел), что не может не радовать.
Пробуем добавить:

mdadm /dev/md0 -a /dev/sdb1

mdadm после этого покажет нам его как spare. Сначала меня это напугало, но глянув в /proc/mdstat увидел, что идет синхронизация массива:

deimos:~ # cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdc1[1] sdb1[2]
35543680 blocks [2/1] [_U]
[>....................] recovery = 0.1% (70528/35543680) finish=566.6min speed=1041K/sec
unused devices:

Так что все гуд.

Нужно не забыть на всех массивах mdadm настроить на отправку сообщений по почте...


Комментариев нет: