Back to overview
Downtime

Деградация K8s кластера

Jul 23 at 01:05pm MSK
Affected services
Minecraft panel (panel.hyprr.space)

Resolved
Jul 24 at 01:12am MSK

Я НЕ знаю что произошло и почему все работает сейчас, причем так как и всегда - без единого намека на инцидент, заставивший стафф поседеть. Была ли проблема в сети, в K8s, в РКН, в убогости птеродактиля или в чем либо еще - я без понятия, может быть было все и сразу.

В любом случае оно работает, по SLA компенсации не будет, так как этот инцидент не затрагивал сами ноды. И у HYPRR не будет какой либо нормальной SLA пока такая хрень продолжается - мы не знаем чья это вина, мы не знаем почему что-либо происходит. РКН проводит блокировки и тесты когда и где хочет. Баннер о деградации сервисов Cloudflare (вообще, не только в РФ) появляется каждую неделю. Мир разваливается. Так что по крайней мере я не знаю как считать SLA, если даже не понятно что влияет на него. Зато есть моды на капибару 😍

Updated
Jul 23 at 06:00pm MSK

Где-то между 15:00 мск и 18:00 мск происходил такой ужас, что админ пережил экзистенциальный кризис, пару клинических смертей, отвал Pterodactyl на ровном месте (ни логов, ни ошибок в stderr, просто 503) и тепловую смерть вселенной. На этом админ покидает вас и прод, я так больше не могу

Updated
Jul 23 at 04:00pm MSK

HALO GAYS TODAY WE HAVE TOP 5 CRASHOUT REASONS:
Numero cinco: Got an error reading communication packets (MariaDB)
Numero cuatro: Entry for <MetalLB IP> is not found in ARP table
Numero tres: Fatal error: can't open the AOF manifest file appendonlydir/appendonly.aof.manifest for reading: Input/output error
Numero dos: No healthy replicas
Numero uno: Reading registry-1.docker.io: i/o timeout

Updated
Jul 23 at 03:30pm MSK

Reasonable crashout: машины могут подключиться к интернету, но не к DOCKER HUB. Симптомы ркновские - http работает и просит редирект, https уходит в таймаут на SSL рукопожатии. У админа тряска и желание убивать

Updated
Jul 23 at 03:00pm MSK

Том восстановить не удалось. Он был пересоздан и проверен на целостность. Начат запуск сервисов

Updated
Jul 23 at 02:40pm MSK

Перезагружена конфигурация на всех роутерах, сброшен conntrack, связность восстановлена. Продолжаем изучать проблему с томами Longhorn

Updated
Jul 23 at 02:10pm MSK

Наблюдаются неполадки с SDN сетью в Москве. Потенциально это и стало причиной рассинхронизации и повреждения томов. Изучаются проблемы и доступность нод

Updated
Jul 23 at 01:50pm MSK

Все сервисы отключены, здоровые реплики найдены. Сделан бэкап. Начинаем попытку восстановления

Updated
Jul 23 at 01:30pm MSK

Наблюдается повреждение тома Longhorn (ошибка i/o). Начат поиск здоровых и целых реплик

Created
Jul 23 at 01:05pm MSK

Наблюдается деградация API панели, выясняются обстоятельства