Monitoring Linux Raid

Úvodem

Linxový Raid Vás neochrání pře zásahem blesku, přepjetí, požáru ale dovede ochránit data při selhání jednoho disku (Raid 1).
Je ovšem třeba včas vědět, že některý disk nefunguje a byl odpojen. Existuje více způsobů jak se to dozvědět včas.
Vše popisované se vztahuje k Raid-u 1 tj. zrcadlení.

Zjištění stavu a report

Jedna z možností je přes /proc/mdstat si zjišťovat stav pomocí skriptu a odeslat hlášení mailem:
#!/bin/bash

ADMIN="jmeno@domena.primarni jmeno@domena.zalozni"
HOSTNAME=`/bin/hostname`
FROM="raidmonitor@$HOSTNAME"

if egrep "\[.*_.*\]" /proc/mdstat  > /dev/null
then
  logger -p daemon.error "mdcheck: Failure of one or more software RAID devices"
  echo "RAID ERROR !!! - Failure of one or more software RAID devices on ${HOSTNAME}" | /usr/bin/mailx \
    -s "RAID MONITOR: Software RAID device failure on ${HOSTNAME}" -r ${FROM} ${ADMIN}
fi

ADMIN udává kam se má poslat chybové hlášení
FROM je pole from v odeslaném emailu


Script zapíše do logu a odešle email pomocí
/usr/bin/mailx
případně opravit na
/usr/bin/mail
či jinou cestu.

Naplánování pravidelné kontroly

Pomocí příkazu (na roota)
crontab -e
vložíme řádek pro kontrolu 1x denně v 6:10
10  6 * * *    /moje/cesta/raidmonitor > /dev/null
nebo po kontrolu každou druhou hodinu a 10 minut začínaje v 0:10 (pozor v případě selhání pošle každou sudou hodinu nový email)
10  */2 * * *    /moje/cesta/raidmonitor > /dev/null
případně jiným zápisem nebo zápisy.

Kdo nezná příkazi 'vi' editoru, tak ať se základní naučí :)

Příkaz crontab -e otevře (silně pravděpodobně) editor 'vi' nebo 'vim' a po uložení a uzavření editoru například pomoci klávesy Esc a zápisu :wq nainstaluje novou crontab tabulku.
Indikuje to obvykle výpisem 'crontab: installing new crontab'

Jak zkontrolovat nastavení monitoringu, simulace chyby pole

Lze na linux raidu tímto postupem:

Obsah výpisu pomocí cat /proc/mdstat

Jiné možnosti hlídání

Vhodnou kombinací je kontrola S.M.A.R.T informací - ale nečekal bych žádné zázrakay :)

Je možné využít i jiné možnosti jako třeba:
mdadm --monitor -f --mail=jmeno@domena.primarni --delay=1800 /dev/md0
viz mdadm monitoring Volil jsem výše uvedenou variantu, mám pocit, že to mám pod kontrolou :).

Zdroje informací: