REAL

Типи мовних помилок у текстах, згенерованих штучним інтелектом = A mesterséges intelligencia által generált szövegekben előforduló nyelvi hibák típusai

Kravets, Larysa and Libák, Natálka (2026) Типи мовних помилок у текстах, згенерованих штучним інтелектом = A mesterséges intelligencia által generált szövegekben előforduló nyelvi hibák típusai. ACTA ACADEMIAE BEREGSASIENSIS, PHILOLOGICA, 5 (2). pp. 114-130. ISSN 27866718

[img]
Preview
Text
6_Кравець_Лібак.pdf - Published Version
Available under License Creative Commons Attribution.

Download (492kB) | Preview

Abstract

У статті порушено проблему якості текстів, згенерованих штучним інтелектом. Наголошено, що попри здатність сучасних систем продукувати граматично правильні та стилістично зв’язні тексти, вони неспроможні забезпечити стабільне дотримання мовних норм. Згенеровані тексти часто містять різнотипні мовні девіації, що впливає на точність передавання змісту, знижує рівень довіри до інформації та може розхитувати літературну норму. Вказано на недостатню вивченість українськомовних текстів, згенерованих ШІ. Мета дослідження полягала у встановленні основних типів мовних помилок в українських текстах, створених генеративними моделями, а також аналізі закономірностей їх виникнення з урахуванням специфіки роботи мовних моделей. Матеріалом дослідження стали тексти, згенеровані різними версіями ChatGPT у науковому та науково-популярному стилях на філологічну тематику. Установлено, що найчастотнішими є лексико-семантичні та стилістичні помилки, зокрема калькування, тавтології, надмірна вербалізація, клішованість і штампованість висловлення. Значну частку становлять синтаксичні відхилення, які проявляються у надмірній складності конструкцій, шаблонності структур і схильності до використання пасивних форм. Виявлено також семантичні та логічні помилки, пов’язані з явищем «галюцинування», що зумовлює появу неточної або недостовірної інформації. Водночас морфологічні та орфографічні помилки трапляються порівняно рідко, що свідчить про високий рівень формальної грамотності таких текстів. Основними причинами мовних девіацій визначено імовірнісну природу генерації, вплив неоднорідних і частково некоректних навчальних даних, міжмовну інтерференцію та нерівномірну представленість української мови в навчальних корпусах. Наголошено на необхідності системного вивчення мовних помилок і створення їх типології, що є передумовою для ефективної діагностики та редагування згенерованих текстів. Отримані результати мають практичне значення для розроблення інструментів автоматизованого контролю якості текстів, удосконалення редакторських практик і формування рекомендацій щодо відповідального використання генеративного штучного інтелекту в українськомовному комунікативному просторі. | A tanulmány a mesterséges intelligencia által generált szövegek minőségének problémáját vizsgálja. Hangsúlyozza, hogy bár a korszerű rendszerek képesek nyelvtanilag helyes és stilisztikailag koherens szövegek létrehozására, nem tudják stabilan biztosítani a nyelvi normák következetes betartását. A generált szövegek gyakran különböző típusú nyelvi devianciákat tartalmaznak, amelyek befolyásolják a tartalom pontos közvetítését, csökkentik az információba vetett bizalom szintjét, és megingathatják a standard nyelvi normát. A tanulmány rámutat arra is, hogy a mesterséges intelligencia által generált ukrán nyelvű szövegek vizsgálata mindeddig nem kapott kellő figyelmet. A kutatás célja az volt, hogy feltárja a generatív modellek által létrehozott ukrán nyelvű szövegek főbb nyelvi hibatípusait, valamint elemezze előfordulásuk törvényszerűségeit a nyelvi modellek működési sajátosságainak figyelembevételével. A kutatás anyagát a ChatGPT különböző verziói által generált, filológiai témájú, tudományos és tudományos-ismeretterjesztő stílusú szövegek képezték. Megállapítást nyert, hogy a leggyakoribbak a lexikai-szemantikai és stilisztikai hibák, különösen a tükörfordítások, a tautológiák, a túlzott verbalizáció, a klisészerűség és a sablonos megfogalmazás. Jelentős arányt képviselnek a szintaktikai eltérések is, amelyek a túlzottan bonyolult szerkezetekben, a sablonos struktúrákban és a passzív formák használatára való hajlamban mutatkoznak meg. A tanulmány szemantikai és logikai hibákat is azonosított, amelyek a „hallucináció” jelenségéhez kapcsolódnak, és pontatlan vagy megbízhatatlan információk megjelenéséhez vezetnek. Ugyanakkor a morfológiai és helyesírási hibák viszonylag ritkán fordulnak elő, ami az ilyen szövegek magas szintű formális nyelvi helyességére utal. A nyelvi devianciák fő okaként a generálás valószínűségi természetét, a heterogén és részben hibás tanítóadatok hatását, a nyelvek közötti interferenciát, valamint az ukrán nyelv egyenetlen reprezentáltságát jelöli meg a tanítókorpuszokban. A tanulmány hangsúlyozza a nyelvi hibák rendszerszerű vizsgálatának és tipológiájuk kidolgozásának szükségességét, mivel ez a generált szövegek hatékony diagnosztizálásának és szerkesztésének előfeltétele. Az eredmények gyakorlati jelentőséggel bírnak az automatizált szövegminőség-ellenőrző eszközök fejlesztése, a szerkesztési gyakorlatok tökéletesítése, valamint a generatív mesterséges intelligencia felelős használatára vonatkozó ajánlások kidolgozása szempontjából az ukrán nyelvű kommunikációs térben.

Item Type: Article
Uncontrolled Keywords: mesterséges intelligencia, generált szöveg, nyelvi hibák, ukrán nyelv, nyelvi norma, szövegminőség, szerkesztés, штучний інтелект, згенерований текст, мовні помилки, українська мова, мовна норма, якість тексту, редагування
Subjects: P Language and Literature / nyelvészet és irodalom > P0 Philology. Linguistics / filológia, nyelvészet
Depositing User: Krisztián Váradi
Date Deposited: 01 Jun 2026 15:14
Last Modified: 01 Jun 2026 15:14
URI: https://real.mtak.hu/id/eprint/239249

Actions (login required)

Edit Item Edit Item