Диагностика состояния и восстановление ceph-кластера


Проверяем статус ceph-кластера.

root@pvc-1:~# ceph health detail
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent
   pg 1.8 is active+clean+inconsistent, acting [5,2,8]

Видим, что узел 1.8 в непоследовательном состоянии с возможным повреждением данных и мы отправляем ему команду на восстановление:

root@pvc-1:~# ceph pg repair 1.8
instructing pg 1.8 on osd.5 to repair

Проверяем, что ceph начал процесс восстановления:

root@pvc-1:~# ceph health detail
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent, 1 pg repair; 4 slow requests are blocked > 32 sec
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent, 1 pg repair
   pg 1.8 is active+clean+scrubbing+deep+inconsistent+repair, acting [5,2,8]
REQUEST_SLOW 4 slow requests are blocked > 32 sec
   4 ops are blocked > 32.768 sec
   osd.5 has blocked requests > 32.768 sec

По завершении должна получиться вот такая картина:

# ceph health detail
HEALTH_OK