Содержание
AI-тренеры делают так, чтобы нейросеть давала точные ответы, помнила диалог с пользователем и разбиралась в массовой культуре. Анна Юрьева рассказала, как это происходит и какой подвох встречается в задачах.
Я пришла в редакцию AI-тренеров в 2023 году на позицию шеф-редактора
С тех пор команда выросла, и я стала руководителем одной из трёх редакций с похожими задачами. Мы помогаем обучать семейство моделей YandexGPT. Наша модель лежит в основе Поиска, Алисы, модели для бизнесовых задач Yandex Cloud… Другие команды дообучают их под свои нужды: например, у Алисы идёт тонкая клиентская настройка, там много этических моментов, потому что она много общается с детьми. Но основу делаем мы.
А я отвечаю за весь цикл руководства шеф-редакторами — от поиска сотрудников до постановки и принятия задач.
Когда я устраивалась, на собеседовании упомянула, что в прошлом у меня в подчинении было больше 40 человек. Мне ответили: «Очень круто, но ты понимаешь, что тут столько не будет?»
Сейчас у нас 37 шеф-редакторов и больше трёхсот редакторов.
Мы не занимаемся непосредственно обучением — это делают специалисты по ML
Наша задача — понять, что произошло с моделью после обучения. Нам выдают датасеты: это могут быть ответы на вопрос пользователя, большие тексты, контексты. А мы должны оценить их по определённым критериям. Сет критериев мы определяем вместе с аналитиками модели. Например, хорош ли перевод, объяснение задачи пятикласснику, суммаризация текста или цепочка рассуждения. Не появилась ли лишняя или ложная информация.
Работа всего нашего большого коллектива редакторов — понимать результат так же, как заказчик. Например, нам говорят: «А сейчас очень важно, чтобы модель выдавала строгий формат данных». Значит, если нужен JSON, важно не потерять ни одной скобки или запятой, иначе объект будет невалидным.
Необходимо детально согласовывать, что мы считаем изъяном в каждом случае. Например, может быть так, что мы назвали ответ трудночитаемым, потому что мы редакторы и не любим стилистических ошибок, а заказчики и пользователи могут их даже не заметить. «Нормально же написано, что вы ворчите». Поэтому одна из моих менеджерских задач — следить, чтобы все шеф-редакторы и редакторы хорошо понимали инструкцию и не фокусировались на лишних параметрах.
Блоки задач бывают разных типов. Вот некоторые:
Саппорт. Популярная задача для B2B — уменьшить нагрузку на поддержку с помощью ИИ. Для обучения берут мануалы с советами пользователю, которые обычно использует поддержка. А мы проверяем результат.
Диалог. Наблюдаем, как модель поддерживает беседу и насколько хорошо запоминает, что сказала даже не в прошлый раз, а несколько диалогов назад.
Суммаризация. Смотрим, насколько корректно нейросеть может пересказать большой текст.
Одна из недавних интересных задач — про культурный код
Тогда наши аналитики с помощью шеф-редакторов составляли так называемый культурный бенч. Бенчмарки — это сеты вопросов, на которых качество модели замеряется по какой-то конкретной тематике или типу задания. И руководители проекта решили, что хорошо бы сделать культурный бенч — модель для русскоязычных пользователей с общим культурным кодом.
Знание поделили на четыре блока. Литература — цитаты из произведений и сюжеты. Язык — сленг и мемы. Медиа — кино, песни и мультфильмы. Социальное — традиции, юмор и цитаты знаменитостей. Сам бенчмарк выглядит как набор вопросов из серии «Кому надо позвонить, если у нас отмена?». Модель должна сказать не «в поликлинику», а «Гале».
Мне нравится искать в команду людей с какими-то определёнными навыками
Например, юристов, врачей, химиков, биологов, людей с медицинским образованием. Раньше все AI-тренеры работали с похожими разметками и правилами, но сейчас модель усложнилась, и стали нужны люди под конкретные задачи.
Скажем, отдельная команда делает разметки для помощи в решении математических задач школьного уровня. Это люди, которые преподают математику в школе или просто хорошо знают, как решать задачи по математике уровня средней и старшей школы.
С переводами было очень круто: человек, который сейчас руководит этим проектом, работал в общей команде, без специализации. Но по образованию был профессиональным переводчиком с английского. В какой-то момент у нас появились задачи как раз такого профиля, и человек стал заниматься ими. А сейчас у нас есть целая команда, которая делает задачи для Яндекс Переводчика.
Это всегда очень здорово — найти в команде сотрудника со знаниями по нужному профилю. Вот человек преподавал или занимался наукой, и оказывается, что у нас для него есть исследовательская задача. Тогда и мы получаем классный результат, и сам человек кайфует, что пригодились его прошлая профессия, образование или даже увлечения.
По мере обучения модели задачи усложняются
В самом начале мы как команда должны были понимать простые вещи — скажем, что такое небезопасный для пользователя ответ. Например, модель не должна предлагать человеку какое-то самолечение, а должна посоветовать обратиться к врачу. А сейчас ей нужно работать с большими контекстами. К примеру, в запросе есть фактическая ошибка. Модель знает, что Пушкина звали Александром, а пользователь пишет, что Иваном. Как ей поступить: исправить на основе своих знаний? Тогда она поменяет контекст, исказит информацию, которую получила на вход. Не исправлять? Значит, пользователь получит ответ с ошибкой. В таком случае модель должна поправить его, написать что-то вроде «должно быть, вы имели в виду поэта Александра Пушкина», ответить про него и попросить уточнить запрос, если речь всё же идёт не про Александра.
Это бесконечный процесс, и чем сложнее задание, тем тяжелее определить критерии хорошего ответа модели. И нам надо становиться умнее вместе с ней.
Человек, который работает с этой системой, должен быть всё лучшим и лучшим её пользователем и уметь составлять хорошие промпты. Потому что только так можно проанализировать, что она уже умеет, а что ещё нет.













