Проблема решена.
Выпустили срочное обновление на наших балансировщиках. Мониторим ситуацию.
Что случилось?
На данный момент с учетом не нашей политики работы с заграничными сервисами, к сожалению, отвалился важный компонент нашего CDN, который находится в Германии. Все бы ничего, у нас зашиты протоколы на такой случай, но обычно "отвал" длится не более суток. Однако сейчас после анализа логов, мы поняли, что сервис отвалился давно, и вдобавок в момент отвала этого сервиса, произошел ребут балансировщика из-за утечки памяти, который после запуска начал пытаться достучаться в тот самый сервис "забыв свое аварийное состояние до перезагрузки". Как итог, это все привело к тому, что балансировщик выставил зашитые в него дефолтные настройки, из-за чего вызвал перегруз основного ядра сети раздачи контента.
Самое грустное, что в этот момент происходило еще и ежедневное расширение ядра, которое нам помогает выживать в часы пиковых нагрузок, и у этого "расширения" есть побочная сторона, когда накладывается дополнительная нагрузка на постоянные сервера, так как происходит набор "кешей".
И сейчас сложилась ситуация, когда было расширение, и к этому добавилось неадекватное поведение нашего РФ кластера из-за чего ядро сети начало отбивать массовыми 500ыми ошибками и таймаутами.
К моменту написания поста все стабилизировано, мы выкатили необходимые патчи и возвращаем в нормальную работу РФ кластера.
Предпримем меры, чтобы более такого не повторилось.
Приносим извинения за доставленные неудобства.
Ваша команда разработки проекта АниЛиберти.
Мы наблюдаем некоторые сложности в работе услуги. Сервис может быть частично недоступен для пользователей. Приносим извинения за доставленные неудобства. Мы обновим данный инцидент как только у нас появятся новости.