Digital • Бүгін, 12:11

ЖИ дәуіріндегі қазақ тілі: Көлемі 10 мың сағаттан асатын дыбыстық қор жасақталды

3 мин

оқу үшін

Астанадағы Халықаралық «Қазақ тілі» қоғамының кеңсесінде OpenAI компаниясы өкілдерінің қатысуымен кездесу өтіп, қазақ тілін цифрлық кеңістікте дамытуға бағытталған бірлескен жобаның іске асу барысы мен алғашқы нәтижелері таныстырылды, деп хабарлайды Egemen.kz.

Нұрболат АМАНБЕК

ЖИ дәуіріндегі қазақ тілі: Көлемі 10 мың сағаттан асатын дыбыстық қор жасақталды

Фото: istockphoto.com

Жоба аясында көлемі 10 миллиардтан астам токенді қамтитын қазақ тілінің мәтіндік корпусы (Kazakh Text Corpus), 10 мың сағаттан асатын дыбыстық деректер қоры (Speech Corpus) және үлкен тіл модельдерін бағалауға арналған AI Evaluation Benchmark Suite әзірленген.

Аталған бастама 2025 жылғы 7 қарашада Вашингтонда Халықаралық «Қазақ тілі» қоғамы мен OpenAI арасында жасалған келісім негізінде жүзеге асып жатыр. Жобаның негізгі мақсаты – сапалы цифрлық контент қалыптастыру және қазақ тіліндегі үлкен тіл модельдерінің жұмыс сапасын арттыру.

Мәтіндік корпус толықтай шынайы дереккөздерден жиналып, өңдеуден өтіп, құрылымдалған. Оның құрамына қазақ тілінің тарихи мұрасы, диаспора тілдік деректері, сондай-ақ білім, ғылым, медицина, құқық, тарих және медиа салалары қамтылған контент енгізілген. Қазір OCR жүйесі қазақ мәтінін 99% дәлдікпен таныса, ал құжат құрылымын талдау жүйесі 99% нәтижеге жеткен. Бұл технологиялар үлкен көлемдегі деректерді тиімді өңдеуге мүмкіндік береді.

AI Evaluation Benchmark Suite жүйесі қазақ тіліндегі модельдерді бірнеше бағыт бойынша бағалайды. Алғашқы нәтижелер бойынша мәтінді түсіну – 76,89%, грамматика – 72,24%, мақал-мәтелдерді қолдану – 71,90%, ал қазақ тілінің табиғилығы – 23,08% деңгейінде тіркелген. Аударма сапасы жоғары көрсеткіштер көрсетіп отыр: академиялық аударма – 85,81%, көркем аударма – 86,46%, балалар әдебиетінің аудармасы – 89,22% деңгейінде қалыптасқан.

Жобаның аудиоқоры 10 810 сағаттан аса материалды қамтиды. Оның ішінде 1000 сағат «алтын стандарт» дерек ретінде қолмен тексерілген. Қазіргі таңда қазақ тіліндегі сөйлеуді тану дәлдігі 92%-дан асады.

Цифрлық кеңістіктегі қазақ тілі

Сонымен қатар кейбір жасанды интеллект жүйелерінің қазақ тілін басқа түркі тілдерімен шатастыру жағдайлары анықталған. Осыған байланысты Automatic Speech Recognition (ASR) бағалау жүйесі әзірленіп жатыр.

Мамандардың айтуынша, алдағы уақытта қазақ тіліндегі сөйлеуді тану дәлдігін 99%-ға жеткізу жоспарланып отыр. Жоба қазақ тілінің цифрлық кеңістіктегі мүмкіндігін кеңейтіп, оның жасанды интеллект дәуіріндегі бәсекеге қабілеттілігін арттыруға бағытталған.

Еске сала кетейік, бұған дейін Үкімет қазақ тілін білмейтіндер үшін қандас мәртебесін алу қиындайтынын мәлімдеген болатын.