Fül-orr-gégészeti tünetorientált kérdésekre adott ChatGPT-válaszok értékelése = Evaluation of ChatGPT’s responses to symptom-oriented questions in otolaryngology

Molnár, Fiona Anna and Ambrus, Andrea and Sándor, Médi and Csanády, Miklós and Perényi-Csáthi, Éva and Rovó, László and Perényi, Ádám (2025) Fül-orr-gégészeti tünetorientált kérdésekre adott ChatGPT-válaszok értékelése = Evaluation of ChatGPT’s responses to symptom-oriented questions in otolaryngology. ORVOSI HETILAP, 166 (42). pp. 1666-1674. ISSN 0030-6002

Preview

Text
650-article-p1666.pdf - Published Version
Available under License Creative Commons Attribution.
Download (916kB) | Preview

Official URL: https://doi.org/10.1556/650.2025.33395

Abstract

Bevezetés: A Chat Generative Pre-Trained Transformer (ChatGPT) egy újonnan kifejlesztett mesterségesintelligencia-alapú nyelvi modell, amely a betegek számára nyújtott könnyű hozzáférhetősége révén egyre gyakrabban jelenik meg egészségügyi információforrásként, azonban válaszainak szakmai pontosságáról és megbízhatóságáról jelenleg korlátozott mennyiségű evidencia áll rendelkezésre. Célkitűzés: A jelen tanulmány célja az volt, hogy megállapítsuk a ChatGPT használhatóságát fül-orr-gégészeti panaszokra adott válaszai alapján. Módszer: 10 fül-orr-gégészeti témakörben, a betegek tünetei alapján összesen 24 kérdést fogalmaztunk meg. A kérdéseket egymás után adtuk meg a ChatGPT 4.0 verziójának, amely minden esetben szöveges választ generált. Nyelvi értékelést követően a válaszokat 6 fül-orr-gégész szakorvos értékelte háromfokozatú skálán: helytelen (1 pont), helyes, de hiányos (2 pont), teljes mértékben elfogadható (3 pont). Eredmények: A nyelvi értékelések alapján a generált válaszok közérthetősége, logikai felépítése és nyelvi szerkezete megfelelőnek bizonyult. A ChatGPT fül-orr-gégészeti kérdésekre adott válaszainak szakmai helyessége 2,00 és 2,83 közötti átlagértékeket mutatott a háromfokozatú skálán. Három kérdés (K4, K9 és K24) esetében azonban szignifikánsan gyengébb lett az eredmény. Négy szakorvos (R1, R2, R4 és R6) pontszámai jól korreláltak egymással, míg R3 és R5 válaszai között statisztikailag szignifikáns eltérés mutatkozott (p<0,001). Következtetés: A ChatGPT által adott válaszok fül-orr-gégészeti témákban nyelvi szempontból alkalmasnak bizonyultak a további orvosszakmai értékelésre, ugyanakkor a szakmai tartalom helyessége változó képet mutatott. Eredményeink alapján a ChatGPT potenciálisan alkalmas lehet laikus felhasználók alapvető tájékoztatására, azonban jelenlegi formájában nem alkalmas a klinikai döntéshozatal támogatására. A jövőben elengedhetetlen a szakterület-specifikus, transzparens és validált mesterségesintelligencia-rendszerek fejlesztése, amelyek megbízható orvosszakmai forrásokon alapulnak, és biztonságosan integrálhatók az egészségügyi ellátórendszerbe. Orv Hetil. 2025; 166(42): 1666–1674. | Introduction: Chat Generative Pre-Trained Transformer (ChatGPT) is a recently developed artificial intelligence (AI)-based language model that has become an increasingly common source of health-related information due to its accessibility. However, there is limited evidence regarding the accuracy and reliability of its responses. Objective: This study aimed to assess ChatGPT’s usability in otolaryngology by analyzing its answers to common patient questions. Method: 24 patient-oriented questions were created across 10 otolaryngological disease categories and submitted sequentially to ChatGPT version 4.0. The generated responses were evaluated from a linguistic perspective and 6 board-certified otolaryngologists using a three-point scale: incorrect (1), correct but incomplete (2), and correct (3). Results: Language evaluations indicated that the responses were generally clear, well-structured, and of good quality for further medical evaluations. ChatGPT’s medical accuracy scores ranged from 2.00 to 2.83. Three specific ques- tions (Q4, Q9, Q24) received significantly lower ratings. Four raters (R1, R2, R4, R6) showed strong agreement in their evaluations, while significant differences emerged between the scores of R3 and R5 (p<0.001). Conclusion: ChatGPT’s responses in otolaryngology were coherent and well-structured, but the accuracy of medical content varied by topic. While the tool may be beneficial for basic patient education, it is not currently reliable enough to support clinical decision-making. Future development of validated, specialty-specific artificial intelligence systems based on trustworthy medical sources will be crucial for safe implementation in healthcare.

Item Type:	Article
Uncontrolled Keywords:	ChatGPT, fül-orr-gégészet, mesterséges intelligencia az egészségügyben, egészségügyi kommunikáció, orvosszakmai helyesség, ChatGPT, otolaryngology, artificial intelligence in healthcare, health communication, medical accuracy
Subjects:	R Medicine / orvostudomány > RF Otorhinolaryngology / orr-, fül-, gégészet
SWORD Depositor:	MTMT SWORD
Depositing User:	MTMT SWORD
Date Deposited:	21 Oct 2025 11:24
Last Modified:	21 Oct 2025 11:24
URI:	https://real.mtak.hu/id/eprint/226993

Actions (login required)

Edit Item