Najlepsze pytania
Chronologia
Czat
Perspektywa

Odtwarzalność (badania naukowe)

Z Wikipedii, wolnej encyklopedii

Remove ads

Odtwarzalność, inaczej reprodukowalność, wraz z pojęciami pokrewnymi takimi, jak powielalność (replikowalność) i powtarzalność (zdolność repetycyjna)[1][2][3][4][5][6][7][8] – to miary z zakresu metodologii nauk oraz statystyki, stosowane przy weryfikowaniu uczciwości badacza lub zespołu badawczego oraz rzetelności badań poprzez odtworzenie ich wyników w badaniach powtórzonych (przez pierwotnego badacza lub zespół badawczy) albo powielonych (przez innego, niezależnego badacza lub zespół badawczy), w ramach ustawicznego procesu autokorygującego w metodzie badawczej. Słowami filozofa nauki Karla Poppera „niepowtarzalne, jednostkowe wydarzenia nie mają dla nauki żadnego znaczenia”[9]. Statystyk Ronald Fisher napisał: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”[10]

Przekonujące powielenie powinno w miarę możliwości maksymalnie wiernie odtwarzać warunki i narzędzia, jakie zastosowano w oryginalnym badaniu. Dodatkowo, powinno cechować się wysoką mocą statystyczną i transparentnością. W przypadku gdy projekt pierwotnego badania jest uznany za wadliwy, można również przeprowadzić powielenie konceptualne, rozszerzające oryginalny cel i wyniki, przy użyciu lepszych narzędzi[11][12].

W standardowej procedurze weryfikacji hipotez statystycznych w podejściu częstościowym, z samej definicji progu istotności 5% wynika, że 5% wyników przekracza go przez przypadek. W praktyce założenia modeli statystycznych i metodologii badań mogą nie być dokładnie przestrzegane, w związku z czym liczba „fałszywych alarmów” może być wyższa, niż sugeruje ta nominalna wartość. Z tego powodu wartość dowodowa nieodtworzonych badań jest silnie ograniczona.

Narzędziem, które służy agregacji danych i wyników ze zbioru powieleń jest metaanaliza. Pozwala ona na zbiorcze rozpatrzenie wartości dowodowej badań, oraz wykrycie tendencyjności publikacji[13].

Remove ads

Kryzys odtwarzalności

Podsumowanie
Perspektywa

Presja instytucjonalna wywierana na badaczy, gdy ocena ich pracy uzależniona jest od takich kryteriów, jak liczba publikacji i istotnych statystycznie wyników, zachęca naukowców do nadużywania metod weryfikacji hipotez statystycznych. W ocenie Gelmana, wskutek niezrozumienia lub celowego naruszania zasad metodologii, badacze i wydawcy czasopism naukowych przywiązywali w praktyce nadmierną wagę do uzyskiwania wyników istotnych statystycznie, niezależnie od tego czy są one prawdziwe, czy nie[14]. Badania które przekroczyły ten próg były publikowane kilkukrotnie częściej[15]. Biagioli, opisując ten problem, nawiązał do prawa Goodharta: ocena pracy naukowej skupiona na prostych wskaźnikach, takich jak istotność statystyczna, sprawia, że zaczynają być one traktowane jak cel sam w sobie, i podważa wiarygodność i rzetelność nauki[16]. Jak zademonstrował zespół statystyków w 2011, przy pomocy zbioru różnego rodzaju drobnych nadużyć metodologicznych, można uzyskać istotność statystyczną na nominalnym poziomie 5%, przy realnym prawdopodobieństwie błędu I rodzaju ponad 50%[17].

W latach 2010. opublikowano szereg badań i raportów, sugerujących że zjawisko to ma poważną skalę, i wymaga ściślejszego traktowania. W ankiecie obejmującej ok. 1500 naukowców z różnych dziedzin, 90% respondentów stwierdziło, że nauki są dotknięte kryzysem odtwarzalności – większość opublikowanych wyników nie jest ponownie testowana, a jeśli do tego dochodzi, wyników często nie udaje się odtworzyć[18]. Przykładowo, zależnie od dziedziny, większość naukowców deklarowała, że przynajmniej raz nie powiodło im się odtworzenie cudzej pracy, w:

  • chemii: 90%,
  • biologii: 80%,
  • fizyce i inżynierii: 70%,
  • medycynie: 70%,
  • naukach o Ziemi i środowisku: 60%.

W metaanalizie ankiet z 2009 r., ok. 14% badaczy przyznało, że osobiście dopuściło się dowolnych drobnych nadużyć metodologicznych w karierze, a 72% wiedziało, że dopuścił się ich inny znajomy badacz. Do dosłownego fabrykowania danych i wyników przyznało się 2% respondentów[19].

Pod wpływem tych dyskusji, zespoły naukowców z różnych dziedzin psychologii, koordynowane w ramach Open Science Collaboration, przeprowadziły i opublikowały w 2015 r. wyniki powieleń 100 badań psychologicznych opublikowanych w 2008 r. w prestiżowych czasopismach naukowych. Udało się im odtworzyć oryginalne wnioski w 36% przypadków, uzyskując z reguły mniejsze oszacowania wielkości efektu[20]. Grupa ta rekomendowała szereg środków zaradczych w obliczu debatowanego kryzysu, między innymi prerejestrację planów badań, udostępnianie pełnych danych o narzędziach, procedurach i wynikach, dbałość o wystarczającą moc statystyczną, i dalsze, częstsze wykonywanie i publikowanie powieleń[21][22]. Inni autorzy zwrócili uwagę, że powielenia były niedoceniane i publikowane bardzo rzadko (w jednym z przeglądów w psychologii, stanowiły 1% publikacji[23]), w związku z czym proponuje się również systemy premiowania za wykonywanie takich badań[24].

Statystycy, którzy wspólnie z Ronaldem Fisherem stworzyli fundamenty podejścia częstościowego weryfikacji hipotez statystycznych, Neyman i Pearson, zaznaczyli już w 1928 r.: „metody statystyczne powinny być używane z rozwagą i zrozumieniem, a nie jako narzędzia które same w sobie udzielają ostatecznych odpowiedzi[25]”.

Remove ads

Odtwarzalność a moc statystyczna

Thumb
Nawet przy mocy 80%, szansa na trzy udane odtworzenia badań istniejącego zjawiska to jedynie 51%

Efektywności odtworzeń i procesu naukowego może przeciwdziałać zaniedbywanie mocy statystycznej badań (w szczególności, stosowanie zbyt małych prób badawczych)[26]. Nawet przy stosowaniu mocy na rekomendowanym poziomie 80%, prawdopodobieństwo że na trzy próby odtworzenia badania, każde się powiedzie, wynosi zaledwie 51%. W praktyce częściej spotykane są jednak niższe wartości mocy testów. W związku z tym, naturalne jest że nawet w przypadku badania rzeczywiście istniejących zjawisk, w literaturze występować będą nieudane odtworzenia. Według statystyków, ocena wartości dowodowej zbioru badań nie powinna w związku z tym polegać na prostym „liczeniu głosów” badań za i przeciwko hipotezie – do wyciągania ogólnych wniosków z wielu badań służą techniki metaanalityczne[27].

Remove ads

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads