Na marginesie filozoficznego sporu o halucynacje dużych modeli językowych
Rozpocznijmy od krótkiej historii. Pewien student – dla ustalenia uwagi nazwijmy go Alan – od dłuższego czasu zmagał się z napisaniem eseju filozoficznego. Alan był umysłem ścisłym. Potrafił rekonstruować bardzo skomplikowane rozumowania, przeprowadzać zaawansowane obliczenia, a w wolnych chwilach czytać ze zrozumieniem filozofów analitycznych. Brakowało mu jednak lekkości pióra. Postanowił więc przyspieszyć swoją pracę nad esejem i wykorzystać jeden z dużych modeli językowych. Efekty były bardzo obiecujące. W krótkiej chwili na ekranie komputera otrzymał swoje dzieło: „Transcendentalna hermeneutyka mechaniki kwantowej”. Pełen entuzjazmu postanowił nie tracić czasu na weryfikację i skrupulatną lekturę tekstu i szybo zgłosił go do konkursu organizowanego przez czasopismo „Filozofia w Teorii”.
Na swoje nieszczęście napotkał bardzo skrupulatnych recenzentów, którzy powzięli wątpliwości co do autorstwa tekstu. Ich uwagę przykuły w szczególności nietypowe pozycje w bibliografii Alana. Okazało się, że żadna z cytowanych pozycji nie istniała.
Czym są halucynacje?
Chociaż powyższa historia nie miała miejsca, to obecnie coraz częściej możemy napotkać udokumentowane przypadki podobnych wydarzeń, w których duży model językowy wygenerował fikcyjne treści. Wśród nich na pierwszy plan wysuwają się liczne wpadki prawników, którzy powołali nieistniejące orzeczenia w pismach procesowych [1]. U podłoża tych zdarzeń leży zjawisko nazywane „halucynacjami”. Termin ten służy do opisu wygenerowanych przez duże modele językowe treści, które wydają się prawdopodobne i brzmią spójnie, lecz w rzeczywistości są fałszywe lub pozbawione odniesienia przedmiotowego. Nasuwa się jednak pytanie: czy stosowanie tego terminu jest adekwatne w świetle natury i sposobu działania dużych modeli językowych? Czy może przeciwnie – przyczynia się do poszerzania błędnych wyobrażeń na temat własności jakie posiada ta technologia? I wreszcie, czy akcenty w dyskusji dotyczącej tego niebezpiecznego zjawiska zostały należycie rozłożone? W niniejszym eseju przybliżę filozoficzny spór dotyczący pojęcia „halucynacji” i postaram się nakreślić odpowiedzi na powyższe pytania.
Halucynacje i ich wrogowie
W informatyce termin „halucynacje” stosowany był w kontekście sztucznej inteligencji jeszcze przed pojawieniem się dużych modeli językowych [2]. Co ciekawe, jego znaczenie nie miało pierwotnie pejoratywnych konotacji. Służyło do charakteryzowania zjawiska związanego z tworzeniem obrazów przez sieci neuronowe, które traktowano jako zapewniający ciekawe walory artystyczne feature, a nie wymagający usunięcia bug. Termin nie stał się jednak wówczas przedmiotem rozważań filozoficznych.
Sytuacja uległa zmianie wraz z rozpowszechnieniem się dużych modeli językowych i powiązanym z nimi przesunięciem znaczeniowym terminu. Gdy do społecznej świadomości zaczęły przebijać się zarówno spektakularne możliwości generatywnej sztucznej inteligencji, jak i liczne niedociągnięcia w jej działaniu, dyskusje dotyczące potencjalnych zagrożeń zrodzonych przez nową technologię zaczęły nabierać tempa. Wraz z rozpoznaniem nowych zjawisk pojawiła się naturalna potrzeba ich opisania za pomocą środków językowych.
Jak możemy określić sytuację, która przytrafiła się Alanowi, gdy model językowy umieścił w bibliografii nieistniejące źródła? Czy była to halucynacja modelu? Czy może Alan padł ofiarą kłamstwa? A może to nic więcej niż zwyczajny błąd, których możemy napotkać wiele korzystając z różnorodnych narzędzi technologicznych? Zdaniem Michaela Hicksa, Jamesa Humphriesa i Joe Slatera – autorów głośnego tekstu ChatGPT is Bullshit – wybór siatki pojęciowej ma w tym przypadku niebagatelne znaczenie. Autorzy głośno protestują przeciwko stosowaniu wobec fałszywych i pozbawionych odniesienia przedmiotowego tworów sztucznej inteligencji terminów, które mogą prowadzić do wzmacniania błędnych przekonań opinii publicznej i instytucji nadzorujących co do tego, w jaki sposób działają duże modele językowe [3]. Do takich określeń zaliczają termin „kłamstwo” oraz termin „halucynacje” – w którego stronę skierowana jest główna oś ich krytyki.
Dlaczego nie powinniśmy mówić o „halucynacjach”? Zdaniem Hicksa i spółki stosowanie tego terminu zakłada, że modele mogą przejawiać troskę o prawdziwość generowanych treści. Tymczasem duże modele językowe to nic innego jak bardzo wysublimowane modele obliczeniowe, które dysponując liczbową reprezentacją języka naturalnego potrafią tworzyć spójnie brzmiące teksty. Stosowany w modelach mechanizm generowania treści ma charakter probabilistyczny i jego celem jest przewidywanie najbardziej prawdopodobnego tokenu (czyli fragmentu słowa) na podstawie wcześniejszej sekwencji tokenów odpowiednio zważonych poprzez tzw. mechanizm uwagi, umożliwiający skuteczne uchwycenie kontekstu [4]. Przyglądając się technicznym aspektom działania modeli trudno uznać, że tworzą one teksty z intencją komunikowania zdań prawdziwych i faktualnych. Zdania, które mają prawdopodobny charakter, nie muszą ani z konieczności być prawdziwe, ani w ogóle odnosić się do rzeczywistości.
Krytyka podnoszona przez wspomnianych autorów nie ogranicza się jednak do wskazania, że model nie ma funkcji celu ukierunkowanej na produkcję zdań prawdziwych. Mówienie o „halucynacjach” obarczone jest również implikacjami dotyczącymi samej „natury” modeli językowych. „Halucynacja” jest bowiem terminem opisującym spostrzeżenia zmysłowe, które nie posiadają odpowiadającego im zewnętrznego bodźca. Modele są jednak wyłącznie matematycznymi algorytmami, więc nie przejawiają żadnych własności psychologicznych umożliwiających postrzeganie. Tym samym używanie tego terminu wobec modeli językowych prowadzi do ich nadmiernej antropomorfizacji. O tym jak niebezpieczne mogą być konsekwencje tego zjawiska można się coraz częściej przekonać śledząc historię ludzi, którzy wykształcili z tzw. sztuczną inteligencją nowe formy relacji – taktując modele jako swych przyjaciół [5], ukochanych6, a nawet małżonków [7].
Jaką alternatywę wobec mówienia o „halucynacjach” proponują Hicks, Humphries i Slater? Ich zdaniem uniknięcie antropomorfizującej terminologii jest możliwe za sprawą terminu zaproponowanego przez Harry’ego Frankfurta w jego eseju On Bullshit [8]. Frankfurt chcąc odróżnić intencjonalne kłamstwo od postawy obojętności wobec prawdy, która coraz częściej występuje w przestrzeni publicznej, posłużył się pojęciem bullshit – w języku polskim oddawanym bardziej kurtuazyjnym sformułowaniem „wciskanie kitu”[9]. W przeciwieństwie do kłamcy, „wciskający kit” nie zważa na to, jaka jest rzeczywistość. Cechuje go bowiem obojętność wobec prawdy lub fałszu. Kluczowe jest dla niego wyłącznie w jaki sposób jego działania i słowa będą postrzegane przez odbiorców. Zdaniem Hicksa, Humphriesa i Slatera, określenie to znacznie bardziej odpowiada sposobowi, w jaki działają modele językowe. Ich matematyczny algorytm jest bowiem obojętny na osiągnięcie prawdziwości tworzonych treści [10]. Kluczowe jest, żeby realizował swoje zadanie, jakim jest generowanie spójnych językowo tekstów. Co więcej, proponowany tu termin nie wymaga przyjmowania silnych założeń ontologicznych dotyczących istnienia przekonań czy intencji po stronie modeli językowych.
Dlaczego nie powinniśmy mówić o „wciskaniu kitu”?
Przedstawiona przez Hicksa, Humphriesa i Slatera argumentacja spotkała się jednak z krytyką. Jak wskazują David Gunkel i Simon Coghlan, nazywanie treści generowanych przez modele językowe bullshitem zaciera istotne różnice pomiędzy odpowiedziami poprawnymi i zgodnymi z rzeczywistością, a zmyślonymi [11]. Ten sam mechanizm probabilistyczny modeli odpowiada bowiem za to, że możemy cieszyć się szybko napisanym skryptem w języku programowania, inspiracją do przygotowania wpisu w mediach społecznościowych, czy stworzeniem wielu tekstów użytkowych bez zbędnego wysiłku. Zgodzimy się chyba, że treści te mają niekiedy swoją wartość i nie wszystkie nazwalibyśmy „wciśniętym nam kitem”.
Co więcej, jak podkreślają Gunkel i Coghlan, Frankfurt wypracował pojęcie bullshit, aby scharakteryzować sposoby wypowiadania się i działania ludzi. Dlaczego jest to ważne zastrzeżenie? Aby być „bullshiterem” nie wystarczy tylko nie przejmować się prawdziwością wypowiadanych stwierdzeń, trzeba również móc zdawać sobie sprawę z tego, że prawda jest istotna. Sytuacja ta nie zachodzi w przypadku dużych modeli językowych. Modele nie mają bowiem możliwości rozpoznania prawdy jako istotnej wartości, co przekreśla możliwości uznania ich za odstępujące od prawdy z obojętnością (lub jakimkolwiek innym do niej nastawieniem).
Dlaczego można mówić o „halucynacjach”?
Moim zdaniem można sformułować argumenty, które wskazują, że pojęcie halucynacji nie musi zostać odrzucone. Po pierwsze, przyczyną nieporozumień może być nieprecyzyjne zdefiniowanie dyskutowanych pojęć, a w konsekwencji narażanie się na popełnianie błędu ekwiwokacji. Można zasadnie wskazywać, że stosowane w informatyce pojęcie „halucynacji” wcale nie jest znaczeniowo zbliżone do jego psychologicznego odpowiednika, a tym samym nie pociąga za sobą zobowiązań ontologicznych. „Halucynacje” tworzone przez duże modele językowe są bowiem treściami stworzonymi w odpowiedzi na zapytania kierowane w formie tekstowej przez użytkowników. Nie mają więc wiele wspólnego z psychologicznym rozumieniem tego terminu. Po drugie, w naukach formalnych nierzadko spotyka się zaczerpnięte z języka naturalnego pojęcia, które posiadają swoje precyzyjne definicje. Wystarczy w tym miejscu wskazać na pojęcie „granicy” z analizy matematycznej, albo „grupy” i „pierścienia” w algebrze abstrakcyjnej. Podobnie w informatyce spotkać można formalne podejścia do definiowania „halucynacji”. Przybliżmy je pokrótce.
Proces trenowania modelu składa się z kliku etapów. Na początku model trenowany jest w sposób nienadzorowany na ogromnych korpusach tekstów [12]. Po tym etapie zyskuje on możliwość generowania tekstu. Nie jest to jednak wystarczający proces do zapewnienia, aby odpowiedzi na nawet najprostsze pytania były trafne. Poprawność modelu zwiększana jest podczas etapu trenowania określanego mianem nadzorowanego dostrajania (ang. supervised fine-tuning [13]), podczas którego wykorzystywany jest zbiór danych treningowych składający się z instrukcji i poprawnych odpowiedzi ocenionych przez ludzkich ekspertów. Odpowiedzi generowane przez model językowy możemy zatem rozpatrywać jako wynik funkcji, której argumentami są wejściowe ciągi znaków s podane przez użytkownika [14]. Możemy następnie rozważyć pewną idealną funkcję f, która zwraca poprawny wynik dla dowolnego ciągu, operując w dziedzinie określanej mianem formalnego świata [15]. Świat formalny jest zbiorem składającym się z uporządkowanych par o postaci (s, f(s))(s, fs). W takim formalnym świecie istnieją wyłącznie pary poprawnych wyników np. („Kto był najbardziej znanym uczniem Platona?”, „Arystoteles”), („Ile wynosi suma liczb 5 i 7?”, „12”). Cały formalny świat stanowi jednak idealizację, gdyż niemożliwe jest wyczerpujące zamodelowanie potencjalnie nieskończonego zbioru faktów z rzeczywistego świata. Model językowy dostrajany jest wyłącznie na próbkach pochodzących ze zbioru, jakim jest świat formalny, odpowiednio przygotowanych przez ludzkich ekspertów. Można więc powiedzieć, że model będzie pewną funkcją h(s)h(s), która została wytrenowana na podzbiorze świata formalnego i której zwracane wyniki nie są deterministyczne. Z halucynacją modelu językowego mamy zaś do czynienia w sytuacji, w której h(s)≠f(s)hs≠f(s) [16]. Gdy tak zaprezentujemy definicję „halucynacji” antropomorfizujący kontekst zdecydowanie zanika.
Co pozostaje na marginesie?
Ustalenia pojęciowe mają przełożenie na postrzeganie i porządkowanie otaczającej nas rzeczywistości. Ich niebagatelne znacznie przejawia się w szczególności w prawie, gdzie dobór terminów oraz zastosowana interpretacja mają bezpośredni wpływ na ludzkie życie. Istotne jest jednak, żeby abstrakcyjne spory pojęciowe nie stały się sporami czysto werbalnymi. W sporze o zasadność używania terminu „halucynacje” wydaje się umykać kluczowy komponent tego zjawiska. Są nim przede wszystkim zagrożenia, które czyhają na użytkowników. Podatni są na nie niestety zarówno laicy traktujący modele jako źródło swojej wiedzy, jak i doskonali fachowcy w swoich dziedzinach, którzy w natłoku obowiązków mogą ulec lenistwu poznawczemu i posłużyć się szybkim i łatwym wynikiem dostarczonym przez duży model językowy.
Konsekwencje nadmiernego zaufania do treści tworzonych przez modele językowe mogą być znacznie bardziej dotkliwe niż w przypadku przytoczonej we wstępie fikcyjnej historii Alana. Nie wyczerpują się również w samej problematyce nadmiernej antropomorfizacji chatbotów. Niedawno grupa badaczy opisała przypadek mężczyzny, który chcąc ograniczyć spożycie soli (chlorku sodu) skorzystał z porady dietetycznej udzielonej mu przez ChatGPT. Na jego nieszczęście model zasugerował zastąpienie soli bromkiem sodu, którego przyjmowanie przez 3 miesiące spowodowało u niego ciężki uszczerbek zdrowotny17.
Tymczasem obserwujemy obecnie wyścig technologiczny, w którym dostawcy systemów sztucznej inteligencji nieustannie zapewniają o niesamowitych zaletach tworzonych narzędzi. Podczas premiery GPT-5, prezes OpenAI Sam Altman stwierdził, że ich produkt umożliwi każdemu posiadanie w kieszeni zespołu ekspertów z doktoratami (ang. „team of Ph.D. level experts in your pocket”)18. Skoro tak, to chyba nie powinniśmy mieć żadnych wątpliwości co do jakości treści tworzonych przez modele? Któż nie zaufałby poradom medycznym i analizom prawnym na poziomie doktorskim? W obecnym gąszczu nieustannie bombardujących nas marketingowych narracji wokół tzw. sztucznej inteligencji łatwo o tego rodzaju pochopne wnioski. Konsekwencje nadmiernego zaufania do tej technologii mogą okazać się bardzo tragiczne.
Powyższe rozważania wskazują, że problem halucynacji zdecydowanie nie wyczerpuje się w dyskusji wokół semantycznych presupozycji. Niestety, problemy dotyczące zakresu odpowiedzialności za fałszywe treści wygenerowane przez duże modele językowe oraz granic stosowania technologii w obrocie profesjonalnym i w celach edukacyjnych pozostają na marginesie filozoficznej dyskusji dotyczącej halucynacji. Filozofia zorientowana wokół zagadnień nowych technologii powinna poświęcić im znacznie więcej miejsca.
Bibliografia
- Alonso, M. (09.10.2023). AI Tinder already exists: Real people will disappoint you, but not them. El País, (https://english.elpais.com/technology/2023-10-09/ai-tinder-already-exists-real-people-will-disappoint-you-but-not-them.html, dostęp 10.09.2025).
- Atkinson-Abutridy, J. (2025). Large language models. Concepts, Techniques and Applications, CRC Press.
- Charlotin D., AI Hallucination Cases, (https://www.damiencharlotin.com/hallucinations/, dostęp 10.09.2025).
- Eichenberger, A., Thielke, S., Van Buskirk, A. (2025). A Case of Bromism Influenced by Use of Artificial Intelligence, Annals of Internal Medicine: Clinical Cases, Volume 4, Number 8, https://doi.org/10.7326/aimcc.2024.1260.
- Frankfurt, H. (1986). On Bullshit, Raritan Quarterly Review, 6 (2), s. 81 – 100.
- Frankfurt, H. (2025). On Bullshit, Princeton.
- Frankfurt, H. (2008). O wciskaniu kitu = (On bullshit), tłum. H. Pustuła-Lewicka, Czuły Barbarzyńca Press, Warszawa 2008.
- Gunkel, D., Coghlan, S. (2025). Cut the crap: a critical response to “ChatGPT is bullshit, Ethics Inf Technol 27, 23, https://doi.org/10.1007/s10676-025-09828-3.
- Heritage, S. (12.06.2025). ‘I felt pure, unconditional love’: the people who marry their AI chatbots, 12.06.2025, (https://www.theguardian.com/tv-and-radio/2025/jul/12/i-felt-pure-unconditional-love-the-people-who-marry-their-ai-chatbots, dostęp 10.09.2025).
- Hicks, M. T., Humphries, J., Slater, J. (2024) ChatGPT is bullshit. Ethics and Information Technology, 26 – 38, https://doi.org/10.1007/s10676-024-09775-5.
- Maleki, N., Padmanabhan, B., Dutta, K. (2024). AI Hallucinations: A Misnomer Worth Clarifying, IEEE Conference on Artificial Intelligence (CAI), Singapore, Singapore, 2024, pp. 133-138, doi: 10.1109/CAI59869.2024.00033.
- Pentina, I., Hancock, T., Xie, T. (2023). Exploring relationship development with social chatbots: A mixed-method study of replika. Computers in Human Behavior, 140, 107600. https://doi.org/10.1016/j.chb.2022.107600.
- Raschka, S. (2025). Build a Large Language Model (From Scratch), Shelter Island 2025.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin I. (2017) Attention is All you Need, w: Proceedings of the 31st International Conference of Neural Information Processing Systems Curran Associates Inc., s. 6000–6010.
- Xu, Z., Jain, S., Kankanhalli, M. (13.05.2025). Hallucination is Inevitable: An Innate Limitation of Large Language Models, (https://arxiv.org/pdf/2401.11817, dostęp 10.09.2025).
- Young, A., Cui, J. (07.08.2025). OpenAI releases GPT-5, calling it a ‘team of Ph.D. level experts in your pocket’, NBC News, (https://www.nbcnews.com/tech/tech-news/openai-releases-chatgpt-5-rcna223265, dostęp 10.09.2025).
Jakub Figura – absolwent prawa, student III roku informatyki stosowanej oraz doktorant w Szkole Doktorskiej Nauk Społecznych na Uniwersytecie Jagiellońskim. Interesuje się nurtem badawczym AI & law, uczeniem maszynowym, prawem nowych technologii oraz logiką i metodologią nauk. Prowadzi badania dotyczące komunikacji z dużymi modelami językowymi w ramach projektu NIHAI.
Artykuł otrzymał II nagrodę w konkursie czasopisma „Filozofia w Praktyce” na najlepszy studencki esej dotyczący filozofii praktycznej w roku 2025.
This research has received funding from the European Research Council (ERC) under the European Union’s Horizon 2020 research and innovation programme (grant agreement No 805498).
Photo by Luke Jones on Unsplash
Odwołania
[1] D. Charlotin, AI Hallucination Cases, (https://www.damiencharlotin.com/hallucinations/, dostęp 10.09.2025).
[2] N. Maleki, B. Padmanabhan and K. Dutta, AI Hallucinations: A Misnomer Worth Clarifying, 2024 IEEE Conference on Artificial Intelligence (CAI), Singapore, Singapore, 2024, pp. 133-138, doi: 10.1109/CAI59869.2024.00033.
[3] M. T. Hicks, J. Humphries, J. Slater, ChatGPT is bullshit. Ethics and Information Technology, 26 – 38 (2024). https://doi.org/10.1007/s10676-024-09775-5, s. 1.
[4] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is All you Need, w: Proceedings of the 31st International Conference of Neural Information Processing Systems Curran Associates Inc., 2017, s. 6000–6010. Zob. J. Atkinson-Abutridy, Large language models. Concepts, Techniques and Applications, CRC Press 2025.
[5] I. Pentina, T. Hancock, T. Xie, Exploring relationship development with social chatbots: A mixed-method study of replika. Computers in Human Behavior, 2023, 140, 107600. https://doi.org/10.1016/j.chb.2022.107600
[6] M. Alonso, AI Tinder already exists: Real people will disappoint you, but not them. El País. 09.10.2023, (https://english.elpais.com/technology/2023-10-09/ai-tinder-already-exists-real-people-will-disappoint-you-but-not-them.html, dostęp 10.09.2025).
[7] S. Heritage, ‘I felt pure, unconditional love’: the people who marry their AI chatbots, 12.06.2025, (https://www.theguardian.com/tv-and-radio/2025/jul/12/i-felt-pure-unconditional-love-the-people-who-marry-their-ai-chatbots, dostęp 10.09.2025).
[8] Zob. H. Frankfurt, On Bullshit, Raritan Quarterly Review, 6 (2), 1986, s. 81 – 100.
[9] Takie tłumaczenie zostało przyjęte w polskim wydaniu książki Frankfurta zob. H. Frankfurt, (2008). O wciskaniu kitu = (On bullshit), tłum. H. Pustuła-Lewicka, Czuły Barbarzyńca Press, Warszawa 2008.
[10] M. T. Hicks, J. Humphries, J. Slater, ChatGPT is bullshit…, s. 6.
[11] D. Gunkel, S. Coghlan, Cut the crap: a critical response to “ChatGPT is bullshit, Ethics Inf Technol 27, 23 (2025). https://doi.org/10.1007/s10676-025-09828-3.
[12] S. Raschka, Build a Large Language Model (From Scratch), Shelter Island 2025, s. 6 -7.
[13] S. Raschka, Build a Large Language Model (From Scratch), Shelter Island 2025, s. 6 -7.
[14] Z. Xu, S. Jain, M. Kankanhalli, Hallucination is Inevitable: An Innate Limitation of Large Language Models, 13.05.2025, (https://arxiv.org/pdf/2401.11817, dostęp 10.09.2025), s. 2 – 3.
[15] Z. Xu, S. Jain, M. Kankanhalli, Hallucination is Inevitable…, s. 2 – 3.
[17] Z. Xu, S. Jain, M. Kankanhalli, Hallucination is Inevitable…, s. 2 – 3.
A. Eichenberger, S. Thielke, A. Van Buskirk, A Case of Bromism Influenced by Use of Artificial Intelligence, Annals of Internal Medicine: Clinical Cases, Volume 4, Number 8, https://doi.org/10.7326/aimcc.2024.1260.
[18] A. Young, J. Cui, OpenAI releases GPT-5, calling it a ‘team of Ph.D. level experts in your pocket’, NBC News, 07.08.2025, (https://www.nbcnews.com/tech/tech-news/openai-releases-chatgpt-5-rcna223265, dostęp 10.09.2025).