Деградация K8s кластера
Resolved
Jul 23, 2025 at 10:12pm UTC
Я НЕ знаю что произошло и почему все работает сейчас, причем так как и всегда - без единого намека на инцидент, заставивший стафф поседеть. Была ли проблема в сети, в K8s, в РКН, в убогости птеродактиля или в чем либо еще - я без понятия, может быть было все и сразу.
В любом случае оно работает, по SLA компенсации не будет, так как этот инцидент не затрагивал сами ноды. И у HYPRR не будет какой либо нормальной SLA пока такая хрень продолжается - мы не знаем чья это вина, мы не знаем почему что-либо происходит. РКН проводит блокировки и тесты когда и где хочет. Баннер о деградации сервисов Cloudflare (вообще, не только в РФ) появляется каждую неделю. Мир разваливается. Так что по крайней мере я не знаю как считать SLA, если даже не понятно что влияет на него. Зато есть моды на капибару 😍
Affected services
Updated
Jul 23, 2025 at 3:00pm UTC
Где-то между 15:00 мск и 18:00 мск происходил такой ужас, что админ пережил экзистенциальный кризис, пару клинических смертей, отвал Pterodactyl на ровном месте (ни логов, ни ошибок в stderr, просто 503) и тепловую смерть вселенной. На этом админ покидает вас и прод, я так больше не могу
Affected services
Updated
Jul 23, 2025 at 1:00pm UTC
HALO GAYS TODAY WE HAVE TOP 5 CRASHOUT REASONS:
Numero cinco: Got an error reading communication packets (MariaDB)
Numero cuatro: Entry for <MetalLB IP> is not found in ARP table
Numero tres: Fatal error: can't open the AOF manifest file appendonlydir/appendonly.aof.manifest for reading: Input/output error
Numero dos: No healthy replicas
Numero uno: Reading registry-1.docker.io: i/o timeout
Affected services
Updated
Jul 23, 2025 at 12:30pm UTC
Reasonable crashout: машины могут подключиться к интернету, но не к DOCKER HUB. Симптомы ркновские - http работает и просит редирект, https уходит в таймаут на SSL рукопожатии. У админа тряска и желание убивать
Affected services
Updated
Jul 23, 2025 at 12:00pm UTC
Том восстановить не удалось. Он был пересоздан и проверен на целостность. Начат запуск сервисов
Affected services
Updated
Jul 23, 2025 at 11:40am UTC
Перезагружена конфигурация на всех роутерах, сброшен conntrack, связность восстановлена. Продолжаем изучать проблему с томами Longhorn
Affected services
Updated
Jul 23, 2025 at 11:10am UTC
Наблюдаются неполадки с SDN сетью в Москве. Потенциально это и стало причиной рассинхронизации и повреждения томов. Изучаются проблемы и доступность нод
Affected services
Updated
Jul 23, 2025 at 10:50am UTC
Все сервисы отключены, здоровые реплики найдены. Сделан бэкап. Начинаем попытку восстановления
Affected services
Updated
Jul 23, 2025 at 10:30am UTC
Наблюдается повреждение тома Longhorn (ошибка i/o). Начат поиск здоровых и целых реплик
Affected services
Created
Jul 23, 2025 at 10:05am UTC
Наблюдается деградация API панели, выясняются обстоятельства
Affected services