Наши сервисы — часть платформы Monium — позволяют создавать алерты и уведомлять об изменении состояний через каналы нотификаций (телеграм, телефонные звонки, клауд-функции и др.). Наша цель — предоставить пользователю лёгкий и быстрый способ получить однозначный ответ о состоянии систем в любой момент. Почти все команды Яндекса пользуются возможностями платформы для мониторинга состояния своих сервисов — как внешних, так и внутренних. Кроме этого, сервис доступен пользователям Yandex Cloud.
Наша команда отвечает за развитие и поддержку четырёх основных сервисов:
1. Алертинг — сервис, рассчитывающий пользовательские алерты поверх метрик. Мы предоставляем возможность создавать различные виды алертов (PromQL-подобные выражения, SLO-алерты, алерты на аномалии с применением ML-алгоритмов, агрегаты над алертами).
Алертинг в числах:
2. Сервис уведомлений, который позволяет задать шаблон и через единый API отправлять в SMS, мессенджерах и по телефону и простые уведомления, и их сложные последовательности («Напиши, а если не ответили в течение 10 минут — позвони»).
3. Система событийного мониторинга, которая позволяет формировать верхнеуровневое (агрегированное) состояние сервиса на основании входных данных о его здоровье из разных источников (а это десятки миллионов уникальных событий) по правилам, заданным пользователем.
4. Система синтетического мониторинга — новый сервис платформы — позволяет настраивать проверки по типу пинговалки: проверку живости хоста, проверку сертификатов.
Внедрять отказоустойчивость
Если алертинг не работает — пользователи остаются без приборов по своему продакшену и могут пропустить проблему, которая приведёт к серьёзному инциденту. Поэтому необходимо, чтобы алертинг успевал просчитывать все алерты и был отказоустойчив.
Вам предстоит реализовать режим работы hot-standby в балансировщике, причём так, чтобы во время отказа стойки или модуля в дата-центре мы не потеряли обе реплики. Помимо этого, нужно изолировать проекты, чтобы проблемы одного не влияли на другие.
Прорабатывать технические и продуктовые решения для пользовательских сценариев
Наши пользователи — это такие же разработчики, как и мы сами. Проблемы, с которыми сталкиваются пользователи, актуальны и для нас. Поэтому разработчики всегда участвуют в обсуждении и проработке и технических, и продуктовых решений. Например, как должны выглядеть SLO-алерты; как сделать так, чтобы пользователю было понятно, что такое good events и bad events; как в этой парадигме создать SLO-алерт на тайминги.
Упрощать пользовательские сценарии работы с алертами
Первое, с чем сталкивается пользователь, — как завести алерт для конкретного сценария. Тут мы хотим предоставлять типовые алерты: на отклонение, тренд, резкие взлёты и падения, SLO. Затем пользователю предстоит понять, что алерт отловил проблему. Алерты нужно уметь просчитывать в прошлом, чтобы создать не сильно чувствительный алерт, который ловит реальные проблемы. А после того как алерт создан, важно понять причину его срабатывания: это одна из реплик не ответила, это лаг поставки данных или же реальная проблема.
Разрабатывать общую платформу
Понадобится адаптировать существующую функциональность для запуска в Yandex Cloud с доступом внешних пользователей, а также для создания единой monium platform для других сотрудников компании.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
Смотрите другие вакансии направления Yandex Cloud Monium по ссылке.
Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.
Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные 20%.
В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.
Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника.
Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.
Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей.
Можете заниматься самостоятельно, а можете с корпоративным тренером.
А также скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.
В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях.
Вы сможете присоединиться к существующим командам или собрать свою.
У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.
Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.
Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.
Все интересные вам вакансии в одном профиле
Войти и откликнуться