Қоғам • Бүгін, 08:15

Қазақ тілін цифрландыру қажет

20 рет
көрсетілді
3 мин
оқу үшін

Жақында Әл-Фараби атын­дағы Қазақ ұлттық университетінде «Қазақ тілін және технологиялық үрдісті қолдау үшін үлкен тілдік модель (LLM) әзір­леу» жобасы аясында ана тілімізді цифрлық ортаға бейімдеумен айналысып жүрген жетекші ғалымдар, инженерлер мен зерттеушілердің басын қосқан жиын өтті.

Қазақ тілін цифрландыру қажет

Былтыр қыркүйек айында басталған жобаға «Institute of Smart Systems and Artificial Intelligence», А.Байтұрсынұлы атындағы Тіл білімі институты, Ақпарат­тық және есептеу технологиялары институты, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы және «Softcraft» компаниясы атсалысқан.

– Жоба аясында қазақ тілінде жоғары өнімді үлкен тілдік модель әзірлеуге бағытталған ғылыми-техникалық бағдар­лама жүзеге асып жатыр. Бүгінге дейін қажетті мәтін корпус­тары жинақталды, таңбалау құралдары жасалды, модель әзірленіп, оңтайландырылды, оны орналас­тыруға арналған инфрақұрылым дайын­далды. Мұнда деректердің этикасы мен қауіпсіздігі басты назарда болды. Нәти­жесінде, 100 миллионнан астам сөзден тұратын үлкен деректер қоры құрылды. Оның ішінде түрлі сала мен жанрды қамтитын тақырып корпус­тары, мәтін, сурет, аудио форматындағы мультимодальды мәліметтер, ресми құжаттар мен интерактивті сценарийлер жинақтары бар. Жобаның маңызды жетістіктері­нің бірі жоғары өнімді есептеу инфрақұрылымының іске қосылуы. Университетке «NVIDIA DGX H200» жасанды интеллект кластері сатып алынды, – деді ҚазҰУ ғылыми-инновациялық қызмет жөніндегі проректоры Марғұлан Ибрагимов.

ҚазҰУ базасында «LLM» негізінде бірқатар арнайы AI-агенттер жасалған. Олар мәтінді талдау, жауап генерациясы, автоматты классификация және интеллектуалды пайдаланушының қолдау бағыттарына бейімделген. Алдағы уақытта қазақ тіліндегі білім беру және зерттеу бағытындағы интеллектуалды агенттер мен чат-боттарды әзірлеу жос­парланып отыр. Келер жылы жоба­ны кеңейту, жаңа тақырып корпуста­рын әзірлеу, интернет-платфор­маны іске қосу, LLM-ді қолданбалы жүйелерге интеграциялау және ар­найы қазақтілді чат-боттарды әзірлеу жоспарда тұр.

Nazarbayev University Ақылды жүйе­лер және жасанды интеллект институтының (ISSAI) негізін қалаушы әрі директоры Атакан Варол еліміздегі жасанды интеллект генеративті модуль­дерін әзірлеу саласындағы зерттеулер, сматртфон, ноутбукте жұмыс істей беретін жаңа тілдік-визуалды модельдер туралы айтып берді.

– Қазақстанда мемлекеттік тілмен қатар орыс және ағыл­шын тілдері кең қолданылады. Сон­дай-ақ елде түрлі этностар­дың тілдері де бар. Генеративті жасанды интеллект дәуірінде осы тілдік әртүрлілікті ескеретін, қазақ тілін жақ­сы түсінетін, орыс және ағылшын тілдерімен жұмыс істей алатын ірі тілдік және тілдік-визуал­ды модельдер әзірлеу қажеттігі туындады. Өйт­кені қазіргі әлемде осындай технология­ларды да­мытпаған елдер өз тілінің цифрлық кеңістік­тегі орнын әлсіретіп, тіпті жоғалтып алу қаупіне тап болуы мүмкін. Бүгінде Қазақстанның академия­лық қауымдастығы осы жауапкер­шілікті сезініп, белсенді жұмыс істеп жатыр. Бұл – қазақ тілінің цифрлық болашағы үшін маңызды қадам, – дейді Атакан Варол.

 

АЛМАТЫ