Сұхбат • Бүгін, 08:55

Ұлттық корпус – қазақ тілінің сандық жадысы

40 рет
көрсетілді
9 мин
оқу үшін

Жаһанды қызықтырған жасанды интеллектінің қарқыны күннен-күнге күшейіп келеді. Мәтін жазудың қыр-сырын мейлінше меңгерген, сұрағаныңды лезде тауып беретін, тіпті жарамсыз деген шығарманың өзін бар қатесінен арылтып, мінсіз қалыпқа түсіре алатын «ChatGPT» сынды бағдарламалар халықтың қажетіне жарап-ақ тұр. Алайда жасанды зерденің қазақшаға жетік болуының бір тетігі – ұлттық корпус. Өйткені тілдік модельдерді ЖИ адамдар секілді өмірден үйренбейді, оларды мәтін арқылы оқытады. Яғни жасанды интеллект қазақ тілінің грамматикасын, лексикасын, стильдік ерекшеліктерін осы корпус арқылы меңгереді. Әрине, бұл – ұлттық корпустың көп қырының бір түрі. Ал оның тағы қандай игілігі бар? Қалай қолдануға болады? Әлемдік корпустар қай деңгейде? Осы сұрақтарға жауап алу мақсатында филология ғы­лымдарының кандидаты, қауымдастырылған профессор Нұрлыхан Аитовамен сұхбаттасқан едік.

Ұлттық корпус – қазақ тілінің сандық жадысы

– Осы күні елімізде Ұлттық корпус­ты қалыптастыру мәселесіне айрық­ша көңіл бөлініп отыр. Бірақ көп­шілік Ұлттық корпус дегеннің не еке­нінен әлі де бейхабар. Сондықтан ең әуелі, осы ұғымды қарапайым тілмен түсіндіріп берсеңіз.

– Ұлттық тілдік корпус – белгілі бір ұлттың тілдік материалдарын жүйелі түрде жинақтап, сандық базаға түсіретін электронды платформа. Оны жай ғана мәтін жиынтығы емес, тілді түрлі қы­рынан зерттеуге арналған әмбебап құ­рал деп түсінген жөн. Корпуста көркем әдебиеттен бастап, газет-журнал мате­риалдары, ғылыми мәтін, ауызша сөй­леу үлгілеріне дейін қамтылады. Ең басты­сы, әрбір мәтіннің қайда, қашан шыққа­ны, оны кім, қандай стильде жазғаны сын­ды деректер қоса беріледі. Бұл – тілді нақты өмірде қалай қолданатынымызды жан-жақты зерттеуге таптырмас құрал.

– Бұндай базаны жасаудың негізгі мақсаты мен пайдасы қандай?

– Ең алдымен, бұл – тілді сақтаудың, дамытудың заманауи жолы. Жасанды интеллект, аударма жүйелері, сөздік жазу, терминология – барлығы қазір айналып келгенде осы корпусқа сүйенеді. Бүгінде үлкен тілдік модельдер (мысалы, ChatGPT) тілді осындай электронды базалардан үйренеді. Егер мәтін дұрыс, бай, құрылымы жүйелі болса, жасанды интеллект те қазақша дұрыс сөйлей алады. Ал корпус – сол мәтіндердің ең сенімді көзі. Демек қазақ тілінің цифрлық кеңістікте өмір сүруі корпусқа тікелей байланыс­ты. Сөздердің жиілігі, қолданылу орны, стильдік реңкі, грамматикалық формасы – мұның бәрі корпус арқылы зерттеледі. Мысалы, Ахмет Байтұрсынұлының шы­ғар­маларына талдау жасап, «мен» сөзінің қай кезде есімдік, қай кезде шылау ретінде қолданылғанын оп-оңай санап шығуға болады. Бұрын бір сөздің қолданысын ондаған кітапты ақтарып, өте ұзақ іздейтінбіз, ал тіл корпусынан ол мәліметті 2–3 секундта табуға болады. Қысқаша айтқанда, ұлттық тілдік корпус – қазақ тілінің сандық жадысы. Ол тілдің бүгінін түсінуге, болашағын болжауға көмектесетін ең маңызды құрал.

– Ұлттық корпус сонда нақты кім­дерге қажет? Тек ғалымдарға ма?

– Жоқ, тек ғалымдарға емес. Мұға­лімдер, студенттер, аудармашылар, жур­налистер, ІТ мамандары, кез келген сала маманының – бәріне керек. Мыса­лы, корпус нақты бір сөздің түр­лі контексте қалай қолданылаты­­нын көрсетеді. Бұл, әсіресе машиналық аудар­мада, автоматты мәтін өңдеуде өте ма­ңызды. Тіпті автоматтандырыл­ған сөз­дік­тер мен терминологиялық базалар да кор­пусқа сүйеніп жасалады. Бұ­дан бөлек, корпустың қызығын оқыту­шылар мен оқушылар көре алады. Өйт­кені қазақ тілін үйретуде сөздің шы­найы қолданысын көрсету өте ма­ңызды. Корпуста нақты мысалдар жинақ­тал­ғандықтан, оқулықтар мен тапсырмалар жасағанда нақты дереккөз ретінде пайдалануға болады. Егер сала-сала бо­йынша мәтіндік корпустар жасақталса, оны әр маман тұтына алар еді.

– Қазақ тілінің мәтіндік корпустарын құру қазіргі уақытта қарқынды жүргізіліп жатыр ма?

– Иә, соңғы жылдары біршама ілге­рілеу байқалады. Жалпы, отандық тіл корпустарының әзірлену бағыттары мен мақсаттары әр алуан. Осының өзі заман талабына сай еліміздің цифр­лан­дыру жағдайларындағы әлеуетін да­мытуға едәуір үлес қосары анық. Енді елі­міздегі бізге белгілі мәтіндік кор­пус­тарды тізіп айтсақ, А.Байтұрсынұлы атындағы Тіл білімі институтының Қазақ тілінің ұлттық корпусы (https://qazcorpus.kz), Әл-Фараби атындағы Қа­зақ ұлттық университетінің «Алматы қазақ тілі корпусы (http://webcorpora.net/KazakhCorpus/search/?interface_lan­guage=kz), Назарбаев университетінің ISSAI - Қазақ тілі корпусы (https://issai.nu.edu.kz/ ), «Тіл-Қазына» ұлттық ғылыми-практикалық орталығының «Қа­зақ тілі ұлттық корпусының кіші кор­пустары» (https://qazcorpora.kz/ ), Л.Н.Гумилев атындағы Еуразия ұлттық университетінің «Қазақ тілінің функцияларын кеңейту және мәдениетін арттыру үшін ғылыми-лингвистикалық негіздер мен IT ресурстарды әзірлеу» жобасы (https://kazlangres.enu.kz/#/), сон­дай-ақ соңғы жылдарда әзірленген А.Байтұрсынұлының қазақша-орысша параллель корпусы (https://baitursynu­ly-corp.kz/kz ) жұмыс істеп тұр. Бұдан бө­лек, 2021–2023 жылдары «Тіл-Қазына» ұлт­­тық ғылыми-практикалық орталығының ­«Қа­зақ тілі ұлттық корпусының кіші кор­пус­тарын әзірлеу» жобасына же­тек­ші­лік еттік. Ол жоба әлі сол ұйымда жалғасып келеді. Қазіргі уақытта «А.Байтұрсын­ұлы шығармаларының қазақша-орысша параллель корпусын» жасауға қатысып отырмыз.

– Ал басқа елдерде ұлттық корпус қалай дамыған?

– Әлемдік тәжірибеге келсек, шетел­дік тіл корпустарын әзірлеу салыс­тырмалы түрде әлдеқайда ерте бас­талған. Мысалы, Батыс елдерінде кор­пус жасау деген – жай бір жобалық жұ­мыс емес. Бұл – тұтас институттар, зерт­теу орталықтары айналысатын тұ­рақты, мемлекеттік деңгейдегі шаруа. Мә­селен, Ұлыбританияда 1980 жылдары-ақ Британ ұлттық корпусы (BNC) жасалып қойған. Онда 100 миллион сөзден тұратын әрі түрлі жанрдан алынған ауқымды мәтін базасы бар. Қазір бұл корпус арқы­лы оқушыларға тапсырма құрастыру, жасанды интеллектіге ағылшын тілін үйрету сынды жұмыстар істеліп жатыр. Ал орыс тілінің ұлттық корпусы XI ғасырдағы тарихи жазбалардан бастап бүгінгі интернет хаттарға дейінгі деректі қамтиды. Жалпы көлемі – 2 млрд сөз қолданыс, ал құрамында 16 ішкорпус бар. Бұл жерде тілдің тек әдеби нұсқасы емес, ауызекі сөйлеу, диалект, тіпті блогтегі жазбалар да бар. Әрбір сөзге грамматикалық тег, морфологиялық ­сипаттама, уақыт межесі қойылған. Мұның бәрі зерттеушіге, тіл үйренушіге нақты дерек береді.

Чехия да шетте қалып отырған жоқ. 1994 жылы негізі қаланған институт корпусының (https://www.korpus.cz/) қазіргі көлемі – 3 млрд сөз қолданыстан асады. Сондай-ақ корпуста 30 тілдің параллель корпусы жасалған, енді тағы 20 тілді қосу жоспарланған. 2012 жылдан бастап CNC Чехияның Білім, жастар және спорт министрлігінің Ірі зерттеу инфрақұрылымдары бағдарламасы аясында қаржыландырылады. Чех корпусын іске асыруға 200-ден астам маман атсалысыпты. Осыдан-ақ тіл корпусын жасаудың маңыздылығы­мен қатар, жұмыстың ауқымдылығын бай­қауға болады.

– Сіз терминдерді корпус арқылы зерттеп жүрсіз. Бұл тіл саясатына қа­лай әсер етеді?

– Терминтанушы емеспін, алайда осындай зерттеулер де жасалды. Тер­мин­дер – тілдің иммунитеті. Терминді барынша игеріп қабылдау мәселесі тіл мамандарының зерттеулерінде жиі қарас­тырылғанымен, өзектілі­гін әлі де жоймай отыр. Ал тіл саясаты тек қана заңнамалық актілермен шектелмей, қоғамның мәдени және рухани өміріне тереңінен еніп, азаматтар­дың сана-сезіміне ықпал етеді. Біз 2018 жы­лы қазақша нұсқадан қайтадан орыс тіліндегі нұсқаға ауыстырылған тер­­­мин­дердің 42-сін зерттедік. Кор­пус­тық әдіс арқылы бұл терминдер қол­данысы­ның статистикасын, жиілігін, контекстік мәні анықталды. Мәселен, бұл терминдер­дің 23-і әлі де қазақша баламада жиі­рек қолданылатыны бел­гілі болды. Яғни к­орпус арқылы тіл саясатының қаншалықты ықпалды екенін де бағамдауға мүмкіндік бар. Қорыта айтқанда, тіл тек қарым-қатынас құралы ғана емес, ол – ғылым. Қазақты қазақ етіп тұрған оның тілі десек, сол тілдегі әр сөз – ұлттың байлығы. Ал оны жинақтап корпусқа енгізу – қазақ тілін ғылым тіліне, ІТ платформалар мен тех­ника тіліне айналдырудың, әлемдік сұраныстағы тіл деңгейіне көтерудің бас­ты қадамы.

 

Әңгімелескен –

Бекзат ҚҰЛШАР,

«Egemen Qazaqstan»