В Казахстане презентована инновационная языковая модель KAZ-LLM
В Астане 11 декабря Президент Казахстана Касым-Жомарт Токаев был представлен национальной языковой моделью KAZ-LLM. Этот стратегически важный проект разработан Институтом умных систем и искусственного интеллекта (ISSAI NU) в сотрудничестве с Beeline Казахстан и QazCode, а также Astana Hub. Министерство цифрового развития, инноваций и аэрокосмической промышленности РК координирует проект.
KAZ-LLM ориентирована на устранение языкового разрыва с помощью искусственного интеллекта и основана на анализе 150 миллиардов токенов из открытых источников на четырех языках: казахском, русском, английском и турецком. Такая база позволяет модели обеспечить высокую точность и качество текстовой обработки и перевода.
Эта языковая модель была разработана с использованием передовых мировых стандартов. Для ее оценки провели серию тестов и вопросов, включая ARC, GSM8K, HellaSwag, MMLU, Winogrande и DROP, что подтвердило её высокий уровень функциональности и зрелости.
Beeline Казахстан и QazCode, предоставившие в партнёрстве серверы с вычислительными мощностями 8 DGX H100, значительно ускорили обучающий процесс. Дата-сайентисты QazCode, принимающие активное участие в обучении, смогли создать две версии модели с 8 и 70 миллиардами параметров. Процесс обучения длился 50 дней, что позволило улучшить понимание контекста и взаимодействие с пользователями. СЕО QazCode Алексей Шаравар отметил: «Модель успешно решает технические задачи, принимая во внимание культурные и языковые особенности казахского языка».
Профессор Хусейн Атакан Варол из ISSAI подчеркнул значимость модели для Казахстана: «Эта модель отражает стремление Казахстана к инновациям и развитию технологической экосистемы. Мы подготовили две версии, доступные для некоммерческого использования и открытые на платформе Hugging Face».
ISSAI Kaz-LLM планируется использовать для создания новых стартапов и инновационных проектов в области ИИ. Перспективы включают разработку моделей с интеграцией языковых и визуальных данных, а также поддержку других тюркских языков для укрепления межкультурных связей.