Тіл корпустарын әзірлеу және жетілдіру ісі – аса маңызды тарихи-мәдени іс-шара

Tilalem.kz

Tilalem.kz

27 маусым, 2024

 

Қазақ тілінің корпус қорын арттыру, ішкі функцияларын жетілдіру ғылыми тұрғыдан да, тіл болашағы тұрғысынан да өте маңызды әрі өзекті.

Әлем қарқынды өзгеріп жатыр. Интернеттің, одан кейін жасанды интеллект өнімдерінің шығуы және озық технологиялардың кең мүмкіндігі тіл саласына да орасан өзгеріс әкелді. Соңғы кездері Қазақстан да осы салаға қатты көңіл бөлуде. Президент Қ.Ж.Тоқаевтың 12 сәуірдегі Ғылым және технологиялар жөніндегі ұлттық кеңестің отырысында  дербес тіл моделін әзірлеу цифрлық дербестіктің алғышарты екенін айтып өткен болатын. Осыған орай Шайсұлтан Шаяхметов атындағы «Тіл-Қазына» ҰҒПО аға ғылыми қызметкері Дана Оспановадан  Қазақстандағы тіл корпусы туралы сұхбат алған едік.

– Құрметті Дана Жаңабекқызы, соңғы жылдары елімізде тіл корпустарын әзірлеу ісіне көп көңіл бөлінуде. Шайсұлтан Шаяхметов атындағы «Тіл-Қазына» орталығы да осы бағытта жұмыс жүргізуде. Ең алдымен, көпшілікке корпус туралы жалпы ақпарат беріп өтсеңіз. Корпус әзірлеу несімен өзекті?

–  Иә, соңғы кезде тіл саласында ғана емес, жалпы ғылымда тіл корпустарының маңызы артып, мүмкіндіктері мойындала бастады. Шетелдік және отандық зерттеулерде тілдегі құбылыстар мен категорияларды корпус негізінде зерттеу кең таралып, оның практикалық-теориялық тиімділігі дәлелденіп келеді. Тіл корпусы – тілдік құбылыстарды, сөздер мен фразаларды іздеу, оған қатысты түрлі ақпарат алуды жеңілдететін әрі жылдамдататын тілдегі жазбаша және ауызша мәтіндердің электронды түрде жинақталған ақпараттық-анықтамалық базасы. Ол іздеу нәтижесін табиғи контексте көрсетеді. Яғни тіл корпусында мәтіндер қоры ғана емес, оны қолдану құралдары бар. Мәселен, корпустың маңызды құралдарының бірі – конкорданс, бұрын бір сөздің қолданысын ондаған кітапты ақтарып, сол сөздің қолданыс сипатын іздейтінбіз, ал тіл корпусынан ол мәліметті 2-3 секундта табуға болады.

Әлемде тіл корпустарын әзірлеу, жетілдіру ісі қазіргі кезеңнің тарихи-мәдени шараларының қатарында тұр. Кең қолданылатын тілдердің ұлттық корпустары жасалған, олар бір-бірінен негізінен мәтіндерді ғылыми өңдеуі, база толықтығы мен ішкорпустарының алуандығымен ерекшеленеді. Сонымен, тіл корпусының маңызы сол, корпус тілдегі мәтіндердің мүмкіндігінше барлық типін, стильдерін (көркем, публицистикалық, оқу, ғылыми, іскери, ауызекі сөйлеу, диалектілік, т.б.) ұсына алады, сәйкесінше кезең-кезеңімен бұл мәтіндер корпусқа енгізіледі. Корпустың сапалық деңгейі мен мүмкіндігі оның сөзқолданыс санының (млн., млрд.) көп болуына, белгіленімдік ерекшеліктеріне тікелей қатысты.

– Жалпы тіл корпусының теориялық-практикалық маңызы жөнінде не айтар едіңіз?

– Қазақ тілінің корпус қорын арттыру, ішкі функцияларын жетілдіру ғылыми тұрғыдан да, тіл болашағы тұрғысынан да өте маңызды әрі өзекті. Қазақ тілі корпусы тілді кодификациялау және стандарттауға мүмкіндік береді. Себебі онда жазба және ауызша тіл максималды репрезентативті түрде беріледі. Корпус арқылы тіл тарихы, даму динамикасы зерттеліп, лексикалық, грамматикалық және стилистикалық тілдік құралдар функциясы, лексикографиялық өнімдер, стандарттау, сөздік, оқулық, анықтамалықтар т.б. жасалады. Басқаша айтқанда, корпус оқулық, құрал, сөздік, IT-жоба, тіл синтезі, жасанды интеллектіге бейімделген өнімдердің негізі бола алады.

Қазір қазақ тілінде жасанды интеллект әзірлеу мәселесі жиі айтылып жүр. Ал осы сияқты жобалар қазақ тіліндегі өңделген деректер қорын қажет етеді.Тіпті мәтіннің қатесін түзеу, аудару, перифраз жасау, роботтық сұрақ-жауап сынды функцияларды қосу үшін тексерілген тілдік модельдер керек. ҚР Ғылым және жоғары білім министрлігі Тіл саясаты комитетінің тапсырысымен «Тіл-Қазына» орталығы әзірлеген «Qazgramma» (https://qazgramma.kz/) жобасын әзірлеуде де осы корпусымыздың материалдары, талдау модельдері жоғары тиімділігін көрсетті.

Жалпы әлемдік корпустарды қарасақ, құзырлы ұйым немесе ғылыми мекеме тілдің бір бағыттағы ішкорпустарына немесе нақты бір ғана ішкорпусқа арнап жоба әзірлейді және ол корпус сол тілдің ұлттық корпусының бір бөлігі ретінде қарастырылып, зерттеулерге, жобаларға негіз болып тұрады. Біздің корпустың да өз бағыты бар, белгіленімдік, мазмұндық ерекшелігі бар корпус ретінде дамып келеді.

– Тіл корпусын әзірлеуде шетелдік, отандық тәжірибеге сүйенесіздер ме?

– Әрине, мүмкіндігінше шетелдік, отандық тіл корпустарын қарастырып, корпусты жетілдіру, дамыту жолдарын іздейміз. Қазіргі таңда Қазақстанда жалпы тіл корпусын әзірлеу тәжірибелерінен Ахмет Байтұрсынұлы атындағы Тіл білімі институтының Қазақ тілі корпусы (https://qazcorpus.kz/), Алматы қазақ тілінің корпусы (http://web-corpora.net/), сондай-ақ KSC2 – бұл өнеркәсіптік ауқымдағы бірінші ашық бастапқы коды бар қазақ тіліндегі сөйлеу корпусы (https://issai.nu.edu.kz/kk) және тағы да басқалар бар. Корпустардың өз бағыты, мазмұндық, белгіленімдік ерекшеліктері бар. Көпшілік қауым өз қажетіне орай берілген сілтемелер арқылы корпустармен толығырақ танысуына болады.

Олар бір-бірінен стильдері бойынша ерекшеленеді. Мәселен, Тіл білімі институтының корпусында көркем әдебиет, публицистикалық, ғылыми, іскери, сөйлеу стильдері қамтылған. Әл-Фараби атындағы ҚазҰУ әзірлеп жатқан корпустарда көркем, ғылыми әдебиет стильдерімен қоса оқу әдебиеті, баспасөз мәтіндері, ресми, журналистік, саяси стильдер бар. Біздің орталық публицистикалық, ғылыми, ауызекі сөйлеу стильдерімен қатар биыл оқу және бала тілі корпустарын жүргізе бастады.

Ал енді әлемдік тәжірибеге келер болсақ, шетелдік тіл корпустарын әзірлеу салыстырмалы түрде біраз ерте басталған. Сол себепті көлемі, мүмкіндіктері тұрғысынан деңгейлері жоғары. Мәселен, функциясы, тиімділігі жағынан көпшілік мойындаған жобалардың бірі – Британ ұлттық корпусы (http://www.natcorp.ox.ac.uk/), көлемі – 100 млн. сөзқолданыс. Бұл корпус қазір басқа жобаларға да негіз болып жатыр. Мысалы, «BNC Baby» бала тілі корпусы, «BNC Sampler» сияқты жақсы жобаларға ұласқан. Әлемде корпусқа, тілге қатысты зерттеу, жоба мүшелері осы корпусты көп пайдаланатынын білеміз.

Сонымен бірге бұл бағыттағы тәжірибелі ұйым ретінде Чех ұлттық корпусы институтын айтар едік. 1994 жылы негізі қаланған институт корпусының (https://www.korpus.cz/) қазіргі көлемі – 3 млрд. сөзқолданысқа жуық. Сондай-ақ корпуста 30 тілге параллель корпус жасалған, енді тағы 20 тілді қосу жоспарланған. Осы орайда Әл-Фараби атындағы ҚазҰУ қазақ-ағылшын, қазақ-орыс параллель корпустарын жүргізіп жатқандығын айтып өткім келеді.

Чех корпусын іске асыруға 200-ден астам маман атсалысқан екен. Осыдан- ақ тіл корпусын жасаудың маңыздылығымен қатар, жұмыстың ауқымдылығын байқауға болады. Бұған қоса шетелдік тіл корпустарынан Орыс тілінің ұлттық корпусының (https://ruscorpora.ru/) да алар орны ерекше, жалпы көлемі – 2 млрд сөзқолданыс, ал құрамында 16 ішкорпус бар.

Түрік тілінің корпустарын әзірлеу тәжірибелері де біз үшін өте маңызды. Себебі түрік тілі – қазақ тілімен құрылымдық тұрғыдан ұқсас, жалғамалы тіл. Түрік тілі корпустарындағы белгіленімдер, контенті, т.б. ерекшеліктерін меңгерсек, тиімді тәжірибе алар едік. Осыған орай корпус мамандары ретінде Түрік тілі ұлттық корпусы (https://www.tnc.org.tr/), TSCorpus (https://tscorpus.com/), Sözlü Türkçe Derlemi (https://std.metu.edu.tr/), METU Corpora Research Group тәжірибелерімен танысып жатырмыз.

Міне, осындай корпустардың тәжірибелеріне сүйенеміз. Осындай көрсеткіштерден Қазақ тіліндегі корпустарды мықтап қолға алу қажеттігін байқаймыз. Себебі қазіргі жаһандану және ақпараттық технология мүмкіндіктері қарқынды дамып жатқан заманда тіл корпустарының көлемі және сапасы жоғары деңгейде болуы шарт. Сонда әзірленіп жатқан, әзірленетін жоба, зерттеулерге тіл моделін, реттелген мәтіндерді, яғни түрлі қажеттілікке сәйкес сапалы контент ұсынатын мүмкіндігіміз болады.

– Шайсұлтан Шаяхметов атындағы «Тіл-Қазына» ҰҒПО әзірлеген корпус құрамында қандай ішкорпустар бар?

– Жалпы тілдің қолданысына орай ұлттық корпусты құраушы ішкорпустардың тақырыптық-мазмұндық түрлері болады: диалектілік, көптілді, параллель, салыстырмалы, тақырыптық (газет, поэтика, авторлық), синтаксистік, мультимедиалық, эмоционалдық, т.б. Ал «Тіл-Қазына» корпусында (Қазақ тілі ұлттық корпусының бес кіші корпусы, https://qazcorpora.kz/) қазіргі қоры 23 миллионнан асады, осы жыл соңындағы меже – 33 миллион сөзқолданыс. Біз корпусты жыл сайын 10 миллион сөзқолданысқа арттырып отырамыз

Корпус құрамында Публицистикалық мәтіндер кіші корпусы, Ауызекі сөйлеу тілі кіші корпусы, Ғылыми мәтіндер кіші корпусы, Бала тілі кіші корпусы (2024), Оқу кіші корпусы (2024) бар. Корпустың сайтын ашатын сілтеме арқылы оқырмандар танысып, қолдануына болады.

Биыл қосылатын жаңа ішкорпустарға қысқаша тоқталар болсақ, Бала тілі корпусы – әр мәтіннің бала жасына сай ерекшелігі, жанры белгіленетін 2 жастан 15 жасқа дейінгі балаларға арналған және балалар шығармашылығын қамтитын корпус. Бұл балаларға да, зерттеушілерге де пайдалы корпус болады деп ойлаймыз. Сондай-ақ Оқу корпусы – қазақстандық оқыту бағдарламаларына сай қазақ тіліндегі негізгі, орта, жоғары мектеп, пәндік және тіл үйретуге қолданылатын мәтіндер жиыны. Корпустың жан-жақтылығы үшін оқыту деңгейлеріне, жасқа сай материалдармен қоса, олар хронотоптық тұрғыдан әртүрлі кезеңдерді қамтиды. Міне, осындай екі жаңа ішкорпус қосылады. Алдағы жылдары корпустың контентін мультимедиалық, әлеуметтік желілер, классикалық әдебиет, аймақтық т.б, ішкорпустармен толықтыру жоспарда бар.

Тіл корпусы арқылы сөздердің қолданыс жиілігін, жазба тіл мен ауызекі тілдің айырмашылықтарын, қай грамматикалық форма жиі қолданылатынын, қазақ тілінің қолданылу және даму динамикасын, тілдің ресми, бейресми қолданысын, жанрлық ерекшеліктерін, тілдегі лингвоэкологиялық элементтерді, мәтіндердің аудиториялық, салалық сипатын көруге болады. Сондықтан осы мүмкіндіктерді сала мамандары, оқытушылар, зерттеушілер, тіл үйренушілер, IT-мамандар, жалпы тілге қызығушылығы бар кез келген адам қолдануы керек.

– Сұхбатымыз тіл саласын зерттеп жүрген мамандарға ғана емес, заманға сай дамығысы келетін қалың көпшілікке де пайдалы болады деген ойдамыз. Еңбектеріңізге сәттілік тілейміз!

–  Рақмет!

Фото: кейіпкердің жеке мұрағатынан

Қайнаркөз:
https://malim.kz/article/society/til-korpustaryn-azirleu-zane-zetildiru-isi-asa-manyzdy-tarixi-madeni-is-sara-22885


Баға беріңіз