1. Перейти к содержанию
  2. Перейти к главному меню
  3. К другим проектам DW

Популяризировать кыргызский язык поможет ИИ

26 октября 2023 г.

В Кыргызстане власти страны и программисты-энтузиасты берут на вооружение искусственный интеллект для развития и продвижения национального языка. Каким именно образом - у DW.

https://p.dw.com/p/4Y1uI
Фигурки робота и человека на клавиатуре компьютера
Фото: Christian Ohde/picture alliance / CHROMORANGE

Кыргызстан - одно из немногих государств на постсоветском пространстве, где сохранилось двуязычие. Кыргызский и русский языки здесь используются равнозначно: кыргызский наделен статусом государственного, русский признан официальным. Но все чаще в стране ведутся дискуссии об укреплении роли госязыка, среди прочего отмечается недостаточное использование кыргызского как в документообороте, так и в СМИ.

В январе 2023 года администрация президента Кыргызстана представила суперкомпьютер NVIDIA, предназначенный для развития кыргызского языка при помощи искусственного интеллекта (ИИ). Средства на покупку суперкомпьютера - 140 тысяч долларов США - были выделены правительством в рамках программы развития госязыка. Сейчас Национальная комиссия по государственному языку и языковой политике и компания "Улут Софт", специализирующаяся на разработке программного обеспечения, работают над проектом по внедрению ИИ, обрабатывающего информацию на кыргызском языке.

Чат-бот как посредник между девайсом и человеком

Директор "Улут Софта" Мирбек Окенов рассказывает, что на самом деле проект начался еще до пандемии, четыре года назад: "Тогда было принято решение разработать программное обеспечение обработки естественного языка - кыргызского, используя искусственный интеллект, так называемое NLP (natural language processing)". По выражению Окенова, в планах властей - получить программный продукт, который может быть посредником на кыргызском языке между умным девайсом и человеком.

 Мирбек Окенов
Мирбек ОкеновФото: privat

Проект разбит на четыре этапа и сейчас находится на последнем их них. "На первом этапе у нас был программный продукт, который преобразовывает текст в речь, то, что мы называем text to speech (TTS), используя нейронные сети. Он был реализован уже в 2019 году, сейчас мы его улучшили. У нас есть мужской голос и женский", - делится Окенов.

Второй этап - распознавание речи: программные продукты, которые автоматически превращают ее в текст. Такая технология может применяться для стенограмм. И, как отмечает Мирбек Окенов, сейчас ведутся переговоры с парламентом Кыргызстана и органами судебной власти об автоматизации процесса стенографии. Третий этап - смысловой анализ: машина должна понимать, о чем идет речь: "Например, если мы говорим, какая завтра погода в Бишкеке, то она должна понимать, что речь идет о завтрашнем дне и как мне нужно будет ответить на этот вопрос".

И последний этап - генерация смысловой речи. В конечном счете будет создан чат-бот, который понимает и разговаривает на кыргызском языке. "Если провести аналогию, то это похоже на Алису, Siri - то же самое, но на кыргызском языке", - поясняет Окенов. И подчеркивает, что для реализации этого проекта используются в основном уже готовые алгоритмы и модели. Презентация чат-бота запланирована на январь 2024 года.

Аналог ChatGPT на кыргызском языке

Популяризовать кыргызский язык с помощью искусственного интеллекта пробуют и местные разработчики-энтузиасты. В августе 2023 года была запущена бета-версия проекта "Акылай", который сами авторы называют аналогом ChatGPT.

Соавтор "Акылая" Нурсултан Бакашов вспоминает: "Идея пришла где-то в феврале, мы все знаем про ChatGPT, поняли, что можем сделать такое, только на кыргызском языке". Само название проекта - игра слов: "акыл" в переводе с кыргызского - "ум, разум". Плюс окончание от artificial intelligence (AI), что с английского - "искусственный интеллект". Кроме того, есть кыргызское женское имя Акылай.

Нурсултан Бакашов
Нурсултан БакашовФото: privat

Бакашов говорит, что сейчас искусственный интеллект активно развивается и "самое время для того, чтобы кыргызский язык стал популярным, чтобы им пользовались". По его словам, сейчас Акылай знает примерно 5 миллионов слов, имеет около 1500 зарегистрированных пользователей. "Она может вести диалог, только контекст не запоминает, если задаете какой-то вопрос, она вам ответит. Например, расскажи мне про кыргызский язык, расскажи про Кыргызстан. То есть то, что мы обычно Google задаем, в принципе эту информацию знает", - уточняет Бакашов.

В планах у разработчиков - расширить возможности Акылай: загрузить больше данных, в том числе больше художественной литературы. Как подчеркивает Бакашов, в дальнейшем Акылай может использоваться и для обучения на кыргызском языке. В числе основных целей - научить Акылай понимать кыргызский язык и разговаривать на нем. "И следующий этап - open source, то есть этот проект будет в открытом доступе: все программисты смогут им пользоваться, загружать себе данные и работать", - поясняет Нурсултан Бакашов.

"Если язык не представлен в цифровом мире, он умирает"

Программист и исследователь языка Мурат Жумашев - один из инициаторов внедрения кыргызского языка в Google Translate. Он отмечает, что это фундаментальный вопрос: "Была такая идея, если у нас будет Google Translate, то в принципе в идеальном мире мы можем любой материал - будь это книга по биоинформатике или астрофизике - взять и перевести. И будет достаточно знаний, и будет гораздо легче предоставлять качественное образование на кыргызском языке".

Символ ChatGPT
Когда появился ChatGPT, в Кыргызстане бросились проверять, как хорошо он говорит на кыргызском языкеФото: John Walton/picture alliance

Но, признается Жумашев, пока в Google Translate нет такого качества перевода на кыргызский язык, текст получается еще роботизированным. Программист уверен, что со временем такие переводчики ИИ смогут переводить тексты достаточно качественно, но нужно не ждать, а действовать самим.

По мнению Жумашева, "если язык не представлен в цифровом мире, он умирает". Программист с сожалением констатирует, что в системе обработки естественного языка (NLP) кыргызский язык относится к малоресурсным (low-resource languages). Под этим термином понимаются языки с малым объемом электронных ресурсов, доступных для обработки.

"Есть книги какие-то, есть газеты, есть сайты новостные, но их мало, этого недостаточно, во-первых. Во-вторых, проблема с детектированием - даже когда вышел ChatGPT, люди ринулись там проверять, как хорошо он говорит на кыргызском. Ты ему пишешь на кыргызском, он отвечает на казахском", - рассказывает Жумашев.

Программист и исследователь языка делится своими планами: "Самый масштабный проект, который хочу осуществить, это корпус живого кыргызского языка. Это как сборник текстов разных модальностей, разных жанров, это литературный кыргызский, газетный, новостной, научный, разговорный". Мурат Жумашев подчеркивает, что хотел бы начать с разговорного кыргызского: "Когда происходит code switching, когда люди смешивают несколько языков. Мы дома в основном на кыргызском разговариваем, но где-то используем русские слова, где-то английские".

При этом программист намерен все свои проекты сделать открытыми, чтобы другие исследователи языка и разработчики могли пользоваться этим материалом: "Если вот таких ресурсов будет много, то язык не будет считаться малоресурсным".

Смотрите также:

Что может робот София?