«Тіл-Қазына» ұлттық ғылыми-практикалық орталығы жасанды интеллектіге негізделген «Tilqazyna қазақ тілін оқыту моделінің» алғашқы нәтижесін жариялады.
Қазіргі таңда бұл модель қазақ тілінің лексика, морфология мен семантиканың тағы басқа саласында, оның ішінде қазақ тілінде мәтінді генерациялау, перифраз жасау, контекспен жұмыс істеу, ықшамдау, сондай-ақ грамматикалық және пунктуациялық қателерді түзету, фразеологизмдердің мәнін ашу, терминдерді аудару сияқты тапсырмаларды орындайды.
Салалық «LLM» моделі «Hugging Face» платформасына жүктелді. Яғни ол барлық қолданушыға қолжетімді. Осы модельді қолдану арқылы жасанды интеллектінің көмегімен көптеген қазақша IT өнімді дайындауға болады. Бұл Президент Жолдауында айтылғанындай «жасанды интеллектіні кеңінен қолданатын және цифрлық технологияларды дамытып жатқан елге айналуға» зор мүмкіндік береді.
«Тіл-Қазына» орталығының сарапшылары модельді жасау барысында табиғи тілді өңдеу алгоритмін қолданып, үлкен көлемдегі деректерді өңдеген. Атап айтсақ: бірінші – сөздерді тексеру мақсатына 684 876 сөзқолданыс (лексикалық бірлік) қолданылды; екінші – сөз тіркестерін тексеру жүйесін жетілдіру үшін 20 212 қатар сөз тіркесінің дұрыс және қате нұсқалары қолданылды; үшінші – пунктуациялық қателерді түзету мақсатында 5558 мәтін талданды; төртінші – мәтін құрылымын түзету үшін 3000 мәтіннің дұрыс-бұрыс нұсқасы әзірленді; бесінші – сөйлемді ықшамдау функциясы үшін 6000 сөйлемнің толық және ықшамдалған контент базасы жасалды; алтыншы – перифраз функциясы үшін 14 790 синонимдік қатар жинақталды; жетінші – жалпы қазақ тілінің 35 ГБ өңделген корпусы қолданылды.
Биыл модельге сөйлесу (дауыстық) функциясы қосылып, қолданушыларға ыңғайлы интерфейс әзірленеді. Сонымен қатар жоба A1, A2 және B1 деңгейлері бойынша тіл үйретуге қабілетті болса, келесі жылы B2, C1 деңгейінде оқытады.
Жобаның соңғы нәтижесі ретінде кез келген тіл үйренушінің деңгейіне сай жеке оқыту бағдарламасын дайындап, үйретуге қабілетті дауыстық көмекші жасалады. Ол «IOS» және Android жүйелерінде жұмыс істейтін мобильді қосымша түрінде ұсынылмақ.