Обновленный ИИ-помощник ГигаЧат улучшил качество понимания и создания текста более чем на 30 языках народов России. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский, коми, эрзянский, марийский, крымско-татарский, кабардино-черкесский, ингушский, мокшанский, калмыкский, аварский. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счёт тщательно отобранных обучающих данных. Всего с учётом других международных языков ГигаЧат может выполнять задачи более чем на 40 языках.
Партнерами по сбору данных для обучения ИИ-помощника выступили Дом народов России и интернет-энциклопедия «Рувики».
«В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни – будь то помощь ребёнку с учёбой, разбор юридического договора или инструкция по настройке новой техники», – отметил старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбера Антон Фролов.
Генеративная модель ГигаЧат создана с нуля российскими специалистами – от сбора и разметки данных до базового обучения, дообучения под конкретные задачи и финальной оценки качества. Все этапы разработки выполнены на собственной инфраструктуре Сбера.