Problem niespójnych wyników statystycznych

Coraz częściej słyszymy, że wyniki badań, które jeszcze niedawno były powszechnie akceptowane, okazują się fałszywe lub tak przynajmniej twierdzą autorzy nowszych publikacji. Problem niespójnych wyników (ang. conflicting/inconsistent results), gdzie jedno badanie dostarcza przesłanek do stwierdzenia związku pomiędzy dwoma zjawiskami, a drugie sugeruje, że te dwa zjawiska nie są skorelowane, dotyka wielu dyscyplin wykorzystujących modelowanie statystyczne. Niespójne wyniki często występują wśród randomizowanych badań klinicznych w medycynie i eksperymentów psychologicznych oraz analiz danych obserwacyjnych w epidemiologii, ekonometrii i innych dyscyplinach.

Brak zgodności pomiędzy wynikami badań i częstość sytuacji, gdy późniejsze analizy zaprzeczają wcześniej uzyskanym i – wydawałoby się – wiarygodnym rezultatom został nazwany kryzysem replikacji. Niemożność ponownego uzyskania wyników zbliżonych do tych raportowanych przez uprzednio opublikowane badania podważa wiarygodność  nauki i utrudnia formułowanie wniosków z przeglądu literatury empirycznej. Pośród przyczyn kryzysu replikacji podaje się m.in. błędy badaczy polegające na użyciu niewłaściwej metody statystycznej lub obliczeniowej, czy zastosowanie wątpliwych praktyk badawczych w celu uzyskania oczekiwanego wyniku.

Przykładem tych ostatnich może być chęć wykazania efektywności leku ze względu na oczekiwane zyski lub potwierdzenie teorii, którą się popiera. Innym wytłumaczeniem jest odwołanie się do przypadkowych różnic pomiędzy grupą kontrolną i interwencyjną w badaniach randomizowanych. Jeżeli wiele zespołów badawczych testuje pewną hipotezę, to niektóre badania dadzą wyniki fałszywie pozytywne, czyli mimo braku pozytywnych skutków leczenia zaraportują, że lek jest efektywny, ze względu na losowe różnice pomiędzy grupą interwencyjną i kontrolną. Ponieważ wyniki nieistotne statystycznie często nie są publikowane, w wielu przypadkach nie możemy ocenić, ile testów zostało rzeczywiście przeprowadzonych. Taka sytuacja miała miejsce w przypadku badań nad efektywnością leku antymalarycznego (hydroksychlorochiny) na COVID (Maziarz i Stencel 2022).

Jednak może być też tak, że  próby replikacji często istotnie różnią się od oryginalnych badań i nie powinno dziwić, że te różnice przyczyniają się do uzyskania odmiennych wyników (Feest 2019). Niespójne wyniki możemy otrzymać, jeżeli metodologia statystyki i dobre praktyki w określonej dziedzinie badań nie determinują decyzji dotyczących planu badań i technik statystycznych, a nieznacznie różniące się badania lub metody obliczeniowe prowadzą do uzyskania odmiennych lub nawet niespójnych wyników. Wiele wskazuje na to, że wyniki statystyczne przyjmują kształt nadawany przez sposób przeprowadzenia badania i wybory dotyczące estymacji modelu, podobnie jak woda przybiera kształt naczynia, do którego jest wlana (Stegenga 2018; Williamson 2019).

Dla przykładu, przeprowadzenie badania klinicznego wymaga podjęcia decyzji dotyczącej kryteriów kwalifikacji uczestników, dawkowania testowanego leku, leczenia zastosowanego w grupie kontrolnej (np. wybór placebo lub terapii standardowej), sposobów mierzenia efektów itd. Kolejnym krokiem jest analiza statystyczna zebranych danych, która obejmuje wstępne przetwarzanie danych, wybór modelu statystycznego i sposobów jego estymacji oraz określenie dodatkowych zmiennych wyjaśniających. Każdy z tych wyborów ma pewien wpływ na otrzymane wyniki.

Uzyskiwanie niespójnych wyników przy użyciu odmiennych technik statystycznych może podważać wiarygodność nauki, ponieważ – na chłopski rozum – powinno być tak, że jedno pytanie o znak relacji pomiędzy dwoma zjawiskami (zmiennymi) ma tylko jedną odpowiedź. Drugim problemem jest szkodliwy wpływ niespójnych wyników na możliwość podejmowania decyzji na podstawie przesłanek empirycznych. Dla przykładu, chcąc obniżyć ciśnienie krwi pacjenta poprzez podanie leku L, dokonujemy systematycznego przeglądu literatury w celu podjęcia najlepszej decyzji i znajdujemy badania, z których jedne sugerują, że L obniża ciśnienie krwi, a inne wskazują, że L podnosi ciśnienie krwi. W takiej sytuacji nie możemy mieć uzasadnionego przekonania odnośnie do efektu leczenia.

Gdy niespójne wyniki są publikowane chronologicznie i przeciwstawne wnioski nie są dostępne naraz w momencie podejmowania decyzji, może to prowadzić do nagłych zwrotów w zalecanych terapiach, co podważa wiarygodność zaleceń dotyczących leczenia. Z tego powodu ruch medycyny opartej na dowodach (ang., evidence-based medicine, EBM) opracował szereg metod mających na celu usprawnienie wnioskowania z badań empirycznych. To z medycyny wywodzą się koncepcje systematycznego przeglądu literatury i meta-analizy, będącej – ogólnie rzecz ujmując – metodą uśredniania wyników poszczególnych badań. Taka średnia jest uznawana za bardziej wiarygodną od wyników jednego eksperymentu. Jednak pomimo stosowania na szeroką skalę w naukach społecznych i medycynie, meta-analiza była krytykowana ze względu na płynność wyników (Stegenga 2011) (która dotyczy również innych technik statystycznych).

Część badaczy wskazywała, że różnice pomiędzy wynikami poszczególnych badań sugerują istnienie czynnika, który wpływa na oszacowanie efektywności testowanego leku. Przykładem takich czynników mogą być różnice we wchłanianiu leku lub interakcje z określonymi genami. Może być też tak, że pewna część populacji posiada gen lub geny kodujące białko, które wchodzi w interakcję z lekiem i niweluje jego efektywność. W takim przypadku niespójne wyniki mogą być rezultatem testowania efektywności leku raz na całej populacji chorych, a raz tylko na podgrupie podatnej na leczenie.

W przypadkach, gdy istnieje wyjaśnienie różnic pomiędzy wynikami raportowanymi przez badania zaprojektowane w różny sposób lub przeprowadzane na odmiennych populacjach, meta-analiza przypomina uśrednianie wagi jabłek i pomarańczy: wynik nie jest reprezentatywny ani dla jabłek, ani dla pomarańczy (Feinstein 1995). Autorzy argumentu uśredniania jabłek i pomarańczy (znanego również pod nazwą sałatki owocowej) twierdzą, że na różne skutki działania leków wpływają indywidualne lub grupowe różnice między pacjentami. Jeżeli uśredni się te różnice, to może się okazać, że taka średnia jest reprezentatywna dla szerokiej populacji, ale nie dla pojedynczych pacjentów. Może być tak, że nie ma takiego pacjenta, który doświadczy efektu leczenia równego średniej.

Biorąc pod uwagę te i inne problemy wynikające ze stosowania meta-analizy, lepszym podejściem do oszacowania efektywności leczenia u konkretnego pacjenta może być wykorzystanie innych przesłanek do wybrania tego badania, którego wynik jest najbardziej reprezentatywny dla danego pacjenta. Załóżmy, że mamy tylko dwa badania raportujące niespójne wyniki oraz meta-analityczną średnią i rozważamy albo oparcie się na średniej albo wybór jednego z dwóch oszacowań efektu leczenia. W takim przypadku strategia oparta na wyborze jednego z dwóch wyników będzie dawała bardziej trafne predykcje od meta-analitycznej średniej, jeżeli lekarz przyporządkuje trafny wynik częściej niż w co drugim przypadku (Maziarz 2022, sekcja 3.2.). Na czym oprzeć takie przyporządkowania? Przesłanki mechanistyczne (rozumiane jako wiedza o mechanizmie działania leku i jego interakcjach) wydają się bardzo użyteczne do tego celu. Dla przykładu, jeżeli wiemy, że temozolomid jest efektywny tylko u pacjentów nieposiadających genu MGMT (Blunt 2019), to możemy stwierdzić, czy leczenie pacjenta P będzie efektywne na podstawie badania genetycznego, zamiast podejmować decyzję kliniczną na podstawie oszacowania średniego efektu leczenia dla całej populacji. Takie podejście do niespójnych wyników, oparte na próbie ich wyjaśnienia i pogodzenia ze sobą, jest zgodne z integratywnym pluralizmem Sandry Mitchell (2002), która argumentowała, że niespójne wyjaśnienia biologiczne mogą być ze sobą pogodzone.

Jednak sytuacja, gdy wyniki są różne, ponieważ oszacowują efektywność dotyczącą różnych grup pacjentów jest tylko jedną z przyczyn zjawiska niespójnych wyników. Może zdarzyć się też tak, że jeden z pary niespójnych wyników statystycznych opisuje związek statystyczny i nie ma charakteru przyczynowego, ponieważ wyłącza z analizy zmienną będącą wspólną przyczyną dla zaobserwowanej korelacji. Również w takim przypadku przesłanki mechanistyczne są pomocne do wskazania tego modelu statystycznego, który ma charakter przyczynowy. Rozważmy kontrowersję dotyczącą wpływu podniesienia akcyzy na papierosy na zachowanie palaczy (zob. Maziarz 2021).

Do połowy lat dwutysięcznych badania ekonometryczne spójnie pokazywały, że podwyżki opodatkowania papierosów prowadziły do spadku ich konsumpcji. Jednak po włączeniu do modelu poziomu kotyniny (metabolitu nikotyny) u palaczy okazało się, że pomimo negatywnego wpływu wzrostu podatku na liczbę wypalanych papierosów, takie interwencje nie mają wpływu na ilość konsumowanej nikotyny (Adda i Cornaglia 2006). Ten wynik został zakwestionowany przez Abrevaya i Puzzello (2012), którzy wykorzystali zbliżony zbiór danych, ale zastosowali odmienne techniki statystyczne i otrzymali wynik sugerujący, że podatkowa elastyczność popytu na papierosy jest w przybliżeniu równa 0, czyli zwiększenie akcyzy na wyroby tytoniowe nie wpływa ani na ilość zakupionych papierosów, ani na poziom kotyniny u palaczy.

Oba modele ekonometryczne zostały skonstruowane zgodnie ze sztuką (tj. metodologią ekonometrii i statystyki) i można założyć, że nie zawierają istotnych błędów, więc aby stwierdzić, który z tych dwóch modeli ekonometrycznych łącznie sugerujących niespójne wnioski przyczynowe jest trafny, można odwołać się do przesłanek mechanistycznych (tj. wiedzy o mechanizmie wyboru konsumenta). W przypadku omawianej kontrowersji należy rozpatrzeć dwa modele możliwych mechanizmów przyczynowych (Maziarz 2021). Ekonomiści modelują wybór konsumentów papierosów przy pomocy modeli racjonalnego uzależnienia. Takie modele opisują wybór palacza jako racjonalnego konsumenta maksymalizującego użyteczność czerpaną z konsumpcji papierosów i innych dóbr podlegającej ograniczeniu budżetowemu opisującemu dochód rozporządzalny. Zgodnie z klasycznymi modelami racjonalnego uzależnienia (Becker i Murphy 1988), palacze mogą wybrać jedynie ilość papierosów kupowanych w poszczególnych okresach. Adda i Cornaglia (2006) rozszerzają wybór palacza o zmianę intensywności palenia, stawiając hipotezę, że bardziej intensywne palenie jest mniej przyjemne (stanowi źródło ujemnej użyteczności), ale pozwala ekstrahować więcej nikotyny, co przynosi przyjemność uzależnionym.

Jeżeli przeniesiemy te dwa modele mechanistyczne na badania ekonometryczne wykorzystujące modele statystyczne, to okaże się, że badanie Abrevaya i Puzzello (2012) pomija w estymowanej regresji zmienną zakłócającą (ang. confounder), jaką stanowi intensywność palenia. Wyłączenie z modelu zmiennej opisującej intensywność palenia przyczynia się do uzyskania wyniku świadczącego o braku wpływu podwyżek podatków na zachowanie palaczy papierosów. Jednak taki wynik jest jedynie artefaktem decyzji metodologicznych, natomiast wynik Adda i Cornaglia (2006) opisuje relację przyczynową.

Na marginesie warto wspomnieć, że wiedza o mechanizmach w naukach biomedycznych i społecznych pochodzi z badań innego typu. O ile w medycynie poznajemy mechanizmy terapii m.in. za pomocą badań laboratoryjnych (in vitro i na zwierzętach), różnorodnych technik obrazowania i analizy próbek tkanek (Clarke i in. 2014), to ekonomiści zwykle badają matematyczne modele mechanizmów, chociaż warto podkreślić rosnącą rolę badań eksperymentalnych (laboratoryjnych i „polowych”). Same mechanizmy też się różnią. O ile w medycynie na mechanizmy przyczynowe składają się komórki, cząsteczki chemiczne i ich zdolność do wchodzenia w interakcje, to mechanizmy społeczne wynikają z ludzkich zachowań i ich reakcji na określone bodźce (np. uzależnienie od nikotyny lub wzrost cen).

Ze względu na wzrost liczby dostępnych danych wynikający z coraz szerszego stosowania technologii informatycznych i automatyzacji, liczba publikacji naukowych opartych na modelowaniu statystycznym (a nie matematycznym, a priori) będzie rosnąć w naukach społecznych i ścisłych. Coraz częściej więc odbiorcy literatury empirycznej, czy to decydenci zajmujący się polityką gospodarczą, czy lekarze podejmujący decyzje terapeutyczne – jakkolwiek odmienne nie byłyby ich problemy decyzyjne) napotykają na szereg badań odpowiadających na takie same pytania badawcze, lecz dostarczających niespójnych wyników. A to sprawia, że problem niespójnych wyników, będący jednym z aspektów kryzysu replikacji obok kwestionowanych praktyk badawczych (np. nieraportowanie wszystkich mierzonych efektów) i oszustw (np. fabrykowanie danych), będzie stanowił coraz istotniejszy obszar badań z zakresu filozofii nauki.


Bibliografia:

Blunt, C. J. (2019). The Dismal Disease: Temozolomide and the Interaction of Evidence. Available at SSRN 3444926.

Clarke, B., Gillies, D., Illari, P., Russo, F., & Williamson, J. (2014). Mechanisms and the evidence hierarchy. Topoi33(2), 339-360.

Feest, U. (2019). Why replication is overrated. Philosophy of Science86(5), 895-905.

Maziarz, M. (2021). Resolving empirical controversies with mechanistic evidence. Synthese 199, 9957-9978.

Maziarz, M. (2022). Is meta-analysis of RCTs assessing the efficacy of interventions a reliable source of evidence for therapeutic decisions?. Studies in History and Philosophy of Science91, 159-167.

Maziarz, M., & Stencel, A. (2022). The Failure of Drug Repurposing for COVID-19 as an Effect of Excessive Hypothesis Testing and Weak Mechanistic Evidence. History and Philosophy of the Life Sciences. DOI: 10.1007/s40656-022-00499-7

Mitchell, S. D. (2002). Integrative pluralism. Biology and Philosophy17(1), 55-70.

Stegenga, J. (2018). Medical nihilism. Oxford: Oxford University Press.

Stegenga, J. (2011). Is meta-analysis the platinum standard of evidence?. Studies in history and philosophy of science part C: Studies in history and philosophy of biological and biomedical sciences42(4), 497-507.

Williamson, J. (2019). Establishing causal claims in medicine. International Studies in the Philosophy of Science32(1), 33-61.


Mariusz Maziarz – Doktor ekonomii, asystent naukowy w Interdyscyplinarnym Centrum Etyki UJ w projekcie BIOUNCERTAINTY.


This research has received funding from the European Research Council (ERC) under the European Union’s Horizon 2020 research and innovation programme (grant agreement No 805498).


Czytaj powiązane artykuły

Czy ciąża może być zagrożeniem dla zdrowia psychicznego? Argument...

Kiedy 22 października 2020 r. tzw. Trybunał Konstytucyjny ogłosił derogację (zniesienie) przesłanki „ciężkiego uszkodzenia płodu” z...

avatar Dariusz Miękisz 24 Listopada 2022

Kto jest odpowiedzialny w sprawie Lisy Montgomery?

Doprawdy, czy cała ta sprawa z przypisywaniem odpowiedzialności nie jest czymś w rodzaju wykrętu? Chcemy zrzucić...

avatar Szymon Sauer 20 Października 2022

Pół wieku bioetyki i filozofii medycyny: historia cyfrowa

Humanistyka cyfrowa i obliczeniowe nauki społeczne w coraz większym stopniu wykorzystują techniki wypracowane przez informatyków zajmujących...

avatar Tomasz Żuradzki avatar Piotr Bystranowski avatar Vilius Dranseika 04 Października 2022