Былтыр қыркүйек айында басталған жобаға «Institute of Smart Systems and Artificial Intelligence», А.Байтұрсынұлы атындағы Тіл білімі институты, Ақпараттық және есептеу технологиялары институты, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы және «Softcraft» компаниясы атсалысқан.
– Жоба аясында қазақ тілінде жоғары өнімді үлкен тілдік модель әзірлеуге бағытталған ғылыми-техникалық бағдарлама жүзеге асып жатыр. Бүгінге дейін қажетті мәтін корпустары жинақталды, таңбалау құралдары жасалды, модель әзірленіп, оңтайландырылды, оны орналастыруға арналған инфрақұрылым дайындалды. Мұнда деректердің этикасы мен қауіпсіздігі басты назарда болды. Нәтижесінде, 100 миллионнан астам сөзден тұратын үлкен деректер қоры құрылды. Оның ішінде түрлі сала мен жанрды қамтитын тақырып корпустары, мәтін, сурет, аудио форматындағы мультимодальды мәліметтер, ресми құжаттар мен интерактивті сценарийлер жинақтары бар. Жобаның маңызды жетістіктерінің бірі жоғары өнімді есептеу инфрақұрылымының іске қосылуы. Университетке «NVIDIA DGX H200» жасанды интеллект кластері сатып алынды, – деді ҚазҰУ ғылыми-инновациялық қызмет жөніндегі проректоры Марғұлан Ибрагимов.
ҚазҰУ базасында «LLM» негізінде бірқатар арнайы AI-агенттер жасалған. Олар мәтінді талдау, жауап генерациясы, автоматты классификация және интеллектуалды пайдаланушының қолдау бағыттарына бейімделген. Алдағы уақытта қазақ тіліндегі білім беру және зерттеу бағытындағы интеллектуалды агенттер мен чат-боттарды әзірлеу жоспарланып отыр. Келер жылы жобаны кеңейту, жаңа тақырып корпустарын әзірлеу, интернет-платформаны іске қосу, LLM-ді қолданбалы жүйелерге интеграциялау және арнайы қазақтілді чат-боттарды әзірлеу жоспарда тұр.
Nazarbayev University Ақылды жүйелер және жасанды интеллект институтының (ISSAI) негізін қалаушы әрі директоры Атакан Варол еліміздегі жасанды интеллект генеративті модульдерін әзірлеу саласындағы зерттеулер, сматртфон, ноутбукте жұмыс істей беретін жаңа тілдік-визуалды модельдер туралы айтып берді.
– Қазақстанда мемлекеттік тілмен қатар орыс және ағылшын тілдері кең қолданылады. Сондай-ақ елде түрлі этностардың тілдері де бар. Генеративті жасанды интеллект дәуірінде осы тілдік әртүрлілікті ескеретін, қазақ тілін жақсы түсінетін, орыс және ағылшын тілдерімен жұмыс істей алатын ірі тілдік және тілдік-визуалды модельдер әзірлеу қажеттігі туындады. Өйткені қазіргі әлемде осындай технологияларды дамытпаған елдер өз тілінің цифрлық кеңістіктегі орнын әлсіретіп, тіпті жоғалтып алу қаупіне тап болуы мүмкін. Бүгінде Қазақстанның академиялық қауымдастығы осы жауапкершілікті сезініп, белсенді жұмыс істеп жатыр. Бұл – қазақ тілінің цифрлық болашағы үшін маңызды қадам, – дейді Атакан Варол.
АЛМАТЫ