Rakovics, Zsófia (2025) Nagy nyelvmodellek által generált adatok társadalomtudományi használatának kritikai elemzése = Critical analysis of the use of data generated by large language models in the social sciences. STATISZTIKAI SZEMLE, 103 (3). pp. 259-280. ISSN 0039-0690
|
Text
2025_03_259.pdf - Published Version Download (375kB) | Preview |
Abstract
A nagy nyelvmodellek (Large Language Models, LLM) megjelenése új lehetőséget teremt a társadalomkutatás módszerei szempontjából. Minden olyan kutatás esetében, ahol a nyelv közvetíti azempíriát, reális lehetőséggé válik valós személyek helyett vagy mellett LLM-ek által szimulált virtuális válaszadók bevonása adatközlőként. A mesterséges intelligencia által generált adatokban rejlőpotenciál olyan mértékű, hogy annak módszertani és kritikai vizsgálata kiemelt jelentőségű. Pozitivista szemléletben, ha a virtuális adatfelvétel módszertana kidolgozható, azáltal drasztikusan csökkenthető a valós adatgyűjtéshez szükséges idő és az erőforrások mértéke, ami a társadalomkutatásdemokratizálódását és decentralizálódását jelentheti. Ezen gondolat szerint az eljárás a surveyadatokcsökkenő validitásának problémájára is megoldást kínálhat. Azonban be kell azt is látni, hogy ez aprobléma ennél összetettebb, a kritikai szemlélet elengedhetetlen ahhoz, hogy az LLM-ek ismerttorzításainak hatásai ne maradjanak feltáratlanul, és még inkább ahhoz, hogy tudatosan figyelembevegyük az internet nyelvi terében nem reprezentált társadalmi valóságot.A tanulmány a GPT (Generative Pre-training Transformer, az OpenAI által fejlesztett nagynyelvmodell) által generált virtuális válaszadók és a European Social Survey adatfelvétel valós válaszadóinak válaszait hasonlítja össze statisztikai módszerekkel, a különböző promptolási technikák(a nyelvmodellnek megadott bemenetek meghatározása), valamint a modelleknek beadott változatostípusú és gazdagságú kontextuális információk hatását vizsgálva. Az eredmények azt mutatják, hogya GPT élethű válaszokat generálhat, és előhívhatja a társadalmi mintákat a neki megadott korlátozottkontextuális információból, amennyiben megfelelő példákat adunk számára, azonban ezek nélkülnem teljesít elfogadhatóan. Mindezek alapján kétségek merülhetnek fel bennünk a GPT – mint virtuális válaszadó – sikeres szereplésével kapcsolatosan és minden olyan kutatással szemben, amely aGPT általános társadalomtudományi használatának sikerességéről számol be. | The emergence of large language models (LLMs) creates new opportunities for social research methods. For any research where language mediates empiricism, it becomes a realistic possibility to include virtual respondents simulated by LLMs as respondents instead of or in addition to real respondents. The potential of artificial intelligence-generated data is such that methodological and critical analysis is of paramount importance. From a positivist perspective, if a methodology for virtual data collection can be developed, the time and resources required for real data collection can be drastically reduced, which could mean the democratisation and decentralisation of social research. The procedure could offer a solution to the problem of the decreasing validity of survey data. However, it must be acknowledged that this problem is more complex than that, a critical approach is essential to ensure that the effects of the known biases of LLMs do not remain unexplored, and even more so to consciously take into account the social reality not represented in the linguistic space of the Internet. The study compares the responses of virtual respondents generated by GPT (Generative Pretraining Transformer, a large language model developed by OpenAI) and real respondents to the European Social Survey using statistical methods, examining the effects of different prompting techniques (defining inputs for the large language model) and the varying types and richness of contextual information input to the models. The results show that GPT can generate lifelike responses and elicit expected patterns from the limited contextual information it is given if it is provided with appropriate examples, but that it does not perform acceptably without them. All of this leads us to doubt the success of GPT as a virtual respondent and any research that reports on the success of GPT use in general social science applications.
Item Type: | Article |
---|---|
Uncontrolled Keywords: | nagy nyelvmodellek, virtuális válaszadók, GPT, large language models, virtual respondents, GPT |
Subjects: | H Social Sciences / társadalomtudományok > HA Statistics / statisztika H Social Sciences / társadalomtudományok > HM Sociology / társadalomkutatás |
SWORD Depositor: | MTMT SWORD |
Depositing User: | MTMT SWORD |
Date Deposited: | 31 Mar 2025 20:45 |
Last Modified: | 31 Mar 2025 20:45 |
URI: | https://real.mtak.hu/id/eprint/217337 |
Actions (login required)
![]() |
Edit Item |