AqshamNews.kz - "Алматы-ақшамы" қоғамдық-саяси газеті AqshamNews.kz - "Алматы-ақшамы" қоғамдық-саяси газеті
  • Басты бет
  • Барлығы
    • Ресми бөлім
    • Спорт
    • Керек кеңес
    • Медицина
    • Білім және ғылым
    • Заң мен тəртіп
    • Оқиға
    • Не? Қайда? Қашан?
    • Эксклюзив
    • Алматы көшелері
    • Жолдау
    • Келешек мектептері
  • Жаңа Конституция
Қазақ Qazaq قازاق Русский
Қазақ Qazaq قازاق Русский
AqshamNews.kz - "Алматы-ақшамы" қоғамдық-саяси газеті
  • 🏠 Басты бет
  • Барлығы
    • • Ресми бөлім
    • • Спорт
    • • Керек кеңес
    • • Медицина
    • • Білім және ғылым
    • • Заң мен тəртіп
    • • Оқиға
    • • Не? Қайда? Қашан?
    • • Эксклюзив
    • • Алматы көшелері
    • • Жолдау
    • • Келешек мектептері
  • Жаңа Конституция
  • 📰 Газет архиві

Біз әлеуметтік желілерде:

💱 Валюта бағамы:

Басты бет / Мәдениет / Халықаралық «Қазақ тілі» қоғамы OpenAI серіктестіг...

Халықаралық «Қазақ тілі» қоғамы OpenAI серіктестігінің алғашқы нәтижесі ұсынылды

Мәдениет Бүгін 12:51 47 yakiya
Халықаралық «Қазақ тілі» қоғамы OpenAI серіктестігінің алғашқы нәтижесі ұсынылды

Астанадағы Халықаралық «Қазақ тілі» қоғамының кеңсесінде OpenAI компаниясы өкілдерінің қатысуымен кездесу өтті, – деп хабарлайды aqshamnews.kz тілшісі.

Жиында қазақ тілін цифрлық кеңістікте дамытуға бағытталған бірлескен жобаның іске асу барысы мен алғашқы нәтижелері таныстырылды. Кездесуде қатысушылардың назарына көлемі 10 миллиардтан астам токеннен тұратын қазақ тілінің мәтіндік корпусы (Kazakh Text Corpus), 10 мың сағаттан асатын дыбыстық деректер қоры (Speech Corpus) және үлкен тіл модельдерін бағалауға арналған AI Evaluation Benchmark Suite жинағы ұсынылды.

Бұл ауқымды бастама 2025 жылғы 7 қарашада Вашингтонда Халықаралық «Қазақ тілі» қоғамы мен OpenAI арасында жасалған келісім аясында жүзеге асып жатыр. Жобаның басты мақсаты – сапалы цифрлық контент пен сенімді деректер қорын қалыптастырып, үлкен тіл модельдерінің қазақ тіліндегі жұмыс сапасын арттыру. Бүгінде бастама қазақ тілінің цифрлық экожүйесін дамытуға бағытталған маңызды жобалардың біріне айналды.

Жоба аясында жинақталған қазақ тілінің мәтіндік корпусының (Kazakh Text Corpus) көлемі 10 миллиардтан астам токенді құрады. Тілдік қор толықтай шынайы дереккөздерден алынып, терең тазартудан, жіктеуден және құпия мәліметтер сүзгісінен өтті, сондай-ақ қажетті метадеректермен құрылымданды.

Корпусқа қазақ тілінің тарихи даму кезеңдерін көрсететін мазмұнмен қатар, шетелдегі қазақ диаспораларының тілдік мұрасы да енді. Мұнда білім, ғылым, технология, экономика, құқық, медицина, тарих, этнография, медиа және балалар контенті толық қамтылған.

Сонымен қатар мәтінді оптикалық тану жүйесі (OCR) кирилл қарпіндегі қазақша мәтінді 99% дәлдікпен оқи алатынын көрсетті. Күрделі құрылымды беттер мен бағандарды талдауға арналған құжат құрылымын тану жүйесінің де (Layout Parsing) дәлдігі 99%-ға жетті. Екі жүйе де бір мезетте үлкен көлемдегі топтастырылған деректерді өңдей алады.

Жасанды интеллект жүйелерінің қазақ тілін меңгеру деңгейін тексеретін арнайы AI Evaluation Benchmark Suite бағалау жүйесі әзірленді.

Бұл жүйе үлкен тіл модельдерін бірнеше негізгі бағыт бойынша сынайды: мәтінді түсіну (Reading Comprehension), грамматика (Grammar), тілдің табиғилығы (Kazakh Language Naturalness), мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms), академиялық аударма (Academic Translation), қазақ тілінен ағылшын тіліне аударатын көркем аударма (Literary Translation), балалар әдебиетінің аудармасы (Kids Literature Translation), қауіпсіздік (Safety) және этнографиялық білім (Ethnography). Қазіргі уақытта тоғыз бағыттың жетеуі толық дайын, ал Safety және Ethnography бөлімдері бойынша жұмыс аяқталуға жақын.

Бұл бағалау жүйесі ағылшын тілінен аударылмай, қазақ тілінің тілдік және мәдени ерекшеліктерін ескере отырып, қазақ тілінде құрастырылды. Оның алғашқы қорытындысы бойынша мәтінді түсіну (Reading Comprehension) көрсеткіші – 76,89%, грамматика (Grammar) – 72,24%, мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms) – 71,90% болды. Ал қазақ тілінің табиғилығы (Kazakh Language Naturalness) әзірге 23,08% деңгейінде. Аударма сегментінде жоғары нәтижелер тіркелді: академиялық аударма (Academic Translation) – 85,81%, көркем аударма (Literary Translation) – 86,46%, балалар әдебиетінің аудармасы (Kids Literature Translation) – 89,22%.

Жобаның аудиоқорына қазірдің өзінде 10 810 сағаттық аудио-материал жиналып, тазаланды. Оның ішінде 1000 сағаттық «алтын стандарт» деректер жиыны (Gold Standard Dataset) қолмен транскрипцияланып, сарапшылардың қатаң тексеруінен өтті. Деректердің 70%-дан астамы 44 кГц және одан жоғары жиілікте жазылған, ал қор толықтай табиғи сөйлеу үлгілерінен тұрады.

Қазіргі уақытта қазақ тіліндегі дыбысты мәтінге айналдыру (Speech-to-Text Models) үлгілерінің дәлдігі 92%-дан асады. Дегенмен, кейбір ЖИ жүйелерінің қазақ тілін қырғыз, татар, кейде түрік тілімен шатастырып алатын тұстары анықталды.

Халықаралық «Қазақ тілі» қоғамы тіл модельдерінің қазақша сөйлеу қабілетін тексеретін Automatic Speech Recognition (ASR) бағалау бенчмаркін жасап жатыр. Ол сөздерді тану дәлдігін (WER), таңбаларды тану дәлдігін (CER) және түрлі тақырыптарды қамту деңгейін терең бағалауға мүмкіндік береді.

Алдағы уақытта қазақ тіліндегі дыбысты тану үлгілерінің дәлдігін 99%-ға дейін жеткізу жұмыстары жалғасады. Осы серіктестіктің аясында қазақ тілінде бұрын-соңды болмаған ауқымды мәтіндік және дыбыстық деректер қоры, жоғары дәлдіктегі цифрландыру құралдары және үлкен тіл модельдерінің сапасын бағалайтын кешенді инфрақұрылым жасалды. Бұл жұмыс қазақ тілінің цифрлық әлемдегі өрісін кеңейтіп, оның жасанды интеллект дәуіріндегі бәсекеге қабілетті тілдер қатарынан нық орын алуына жол ашады.

 

Анықтама:

OpenAI, Inc. – жасанды интеллект технологияларын зерттеу және дамытумен айналысатын америкалық компания. Миссиясы — жасанды интеллект игілігін бүкіл адамзатқа тиімді жеткізу.

Телеграм арнаға жазылыңыз
#қазақ тілі
Бөлісу:
Жүктелуде...

Соңғы жаңалықтар

Қазақстан боксшылары World Boxing рейтингінде көш бастап тұр

Бүгін 13:11

Қазақстандық студент Қытайдағы халықаралық WorldSkills турнирінде топ жарды

Бүгін 13:05

Шығыс Қазақстанның жас атлетшілері Азия чемпионатынан жүлделі оралды

Бүгін 13:02

Алматылық спортшы Оңтүстік Кореяда өткен халықаралық турнирдің күміс жүлдегері атанды

Бүгін 12:59

Алматыда №134 және №140 жаңа автобус бағыттары іске қосылады

Бүгін 11:41
Telegram
Жазылыңыз
AqshamNews.kz - "Алматы-ақшамы" қоғамдық-саяси газеті

"Alatau Aqparat" медиахолдингі

Сілтемелер

  • Біз туралы
  • Байланыс
  • Жарнама
  • Жазылу
  • Газет архиві

Байланыс

  • Республика Казахстан. 050022, г. Алматы, Адрес: ул. Шевченко, 106 а
  • +77272930803
Copyright 2026, "Alatau Aqparat" медиахолдингі
Яндекс.Метрика
// SMI24 виджет setTimeout(function() { if (typeof Smi24 !== 'undefined') { Smi24.init('[data-smi-widget-id="130"]'); } }, 1500);