Переводчики, врачи и юристы: кто обучает YandexGPT

Содержание

Герой

Анна Юрьева

руководитель редакции базовой технологии YandexGPT

Поиск и рекламные технологии

Содержание

Герой

Анна Юрьева

руководитель редакции базовой технологии YandexGPT

Поиск и рекламные технологии

Вакансии сервиса

Поиск и рекламные технологии

AI-тренеры делают так, чтобы нейросеть давала точные ответы, помнила диалог с пользователем и разбиралась в массовой культуре. Анна Юрьева рассказала, как это происходит и какой подвох встречается в задачах.

Я пришла в редакцию AI-тренеров в 2023 году на позицию шеф-редактора

С тех пор команда выросла, и я стала руководителем одной из трёх редакций с похожими задачами. Мы помогаем обучать семейство моделей YandexGPT. Наша модель лежит в основе Поиска, Алисы, модели для бизнесовых задач Yandex Cloud… Другие команды дообучают их под свои нужды: например, у Алисы идёт тонкая клиентская настройка, там много этических моментов, потому что она много общается с детьми. Но основу делаем мы.

А я отвечаю за весь цикл руководства шеф-редакторами — от поиска сотрудников до постановки и принятия задач.

Когда я устраивалась, на собеседовании упомянула, что в прошлом у меня в подчинении было больше 40 человек. Мне ответили: «Очень круто, но ты понимаешь, что тут столько не будет?»

Сейчас у нас 37 шеф-редакторов и больше трёхсот редакторов.

Мы не занимаемся непосредственно обучением — это делают специалисты по ML

Наша задача — понять, что произошло с моделью после обучения. Нам выдают датасеты: это могут быть ответы на вопрос пользователя, большие тексты, контексты. А мы должны оценить их по определённым критериям. Сет критериев мы определяем вместе с аналитиками модели. Например, хорош ли перевод, объяснение задачи пятикласснику, суммаризация текста или цепочка рассуждения. Не появилась ли лишняя или ложная информация.

Работа всего нашего большого коллектива редакторов — понимать результат так же, как заказчик. Например, нам говорят: «А сейчас очень важно, чтобы модель выдавала строгий формат данных». Значит, если нужен JSON, важно не потерять ни одной скобки или запятой, иначе объект будет невалидным.

Нанимаем AI-тренеров

Необходимо детально согласовывать, что мы считаем изъяном в каждом случае. Например, может быть так, что мы назвали ответ трудночитаемым, потому что мы редакторы и не любим стилистических ошибок, а заказчики и пользователи могут их даже не заметить. «Нормально же написано, что вы ворчите». Поэтому одна из моих менеджерских задач — следить, чтобы все шеф-редакторы и редакторы хорошо понимали инструкцию и не фокусировались на лишних параметрах.

Блоки задач бывают разных типов. Вот некоторые:

Саппорт. Популярная задача для B2B — уменьшить нагрузку на поддержку с помощью ИИ. Для обучения берут мануалы с советами пользователю, которые обычно использует поддержка. А мы проверяем результат.
Диалог. Наблюдаем, как модель поддерживает беседу и насколько хорошо запоминает, что сказала даже не в прошлый раз, а несколько диалогов назад.
Суммаризация. Смотрим, насколько корректно нейросеть может пересказать большой текст.

Одна из недавних интересных задач — про культурный код

Тогда наши аналитики с помощью шеф-редакторов составляли так называемый культурный бенч. Бенчмарки — это сеты вопросов, на которых качество модели замеряется по какой-то конкретной тематике или типу задания. И руководители проекта решили, что хорошо бы сделать культурный бенч — модель для русскоязычных пользователей с общим культурным кодом.

Знание поделили на четыре блока. Литература — цитаты из произведений и сюжеты. Язык — сленг и мемы. Медиа — кино, песни и мультфильмы. Социальное — традиции, юмор и цитаты знаменитостей. Сам бенчмарк выглядит как набор вопросов из серии «Кому надо позвонить, если у нас отмена?». Модель должна сказать не «в поликлинику», а «Гале».

Как и зачем мы замеряли знания культурного кода у YandexGPT

Мне нравится искать в команду людей с какими-то определёнными навыками

Например, юристов, врачей, химиков, биологов, людей с медицинским образованием. Раньше все AI-тренеры работали с похожими разметками и правилами, но сейчас модель усложнилась, и стали нужны люди под конкретные задачи.

Скажем, отдельная команда делает разметки для помощи в решении математических задач школьного уровня. Это люди, которые преподают математику в школе или просто хорошо знают, как решать задачи по математике уровня средней и старшей школы.

С переводами было очень круто: человек, который сейчас руководит этим проектом, работал в общей команде, без специализации. Но по образованию был профессиональным переводчиком с английского. В какой-то момент у нас появились задачи как раз такого профиля, и человек стал заниматься ими. А сейчас у нас есть целая команда, которая делает задачи для Яндекс Переводчика.

Это всегда очень здорово — найти в команде сотрудника со знаниями по нужному профилю. Вот человек преподавал или занимался наукой, и оказывается, что у нас для него есть исследовательская задача. Тогда и мы получаем классный результат, и сам человек кайфует, что пригодились его прошлая профессия, образование или даже увлечения.

По мере обучения модели задачи усложняются

В самом начале мы как команда должны были понимать простые вещи — скажем, что такое небезопасный для пользователя ответ. Например, модель не должна предлагать человеку какое-то самолечение, а должна посоветовать обратиться к врачу. А сейчас ей нужно работать с большими контекстами. К примеру, в запросе есть фактическая ошибка. Модель знает, что Пушкина звали Александром, а пользователь пишет, что Иваном. Как ей поступить: исправить на основе своих знаний? Тогда она поменяет контекст, исказит информацию, которую получила на вход. Не исправлять? Значит, пользователь получит ответ с ошибкой. В таком случае модель должна поправить его, написать что-то вроде «должно быть, вы имели в виду поэта Александра Пушкина», ответить про него и попросить уточнить запрос, если речь всё же идёт не про Александра.

Это бесконечный процесс, и чем сложнее задание, тем тяжелее определить критерии хорошего ответа модели. И нам надо становиться умнее вместе с ней.

Человек, который работает с этой системой, должен быть всё лучшим и лучшим её пользователем и уметь составлять хорошие промпты. Потому что только так можно проанализировать, что она уже умеет, а что ещё нет.

Вакансии сервиса

Поиск и рекламные технологии