p-hacking

nekorektní použití statistických testů

p-hacking, jinak známý jako data dredging, data fishing, data snooping, data butchery, significance chasing, significance questing nebo selective inference, je užívání analýzy dat za účelem cíleného hledání výsledků či korelací, které potvrdí nějakou hypotézu. Tím se rapidně zvyšuje možnost tzv. falešně pozitivního výsledku zkoumání.[1]

Získávání těchto výsledků se dosahuje například zahrnováním pouze těch dat z celého experimentu, která se hodí pro potvrzení hypotézy. Vypouští se tedy podstatná část všech získaných dat a tím  je ovlivňován zkoumaný vzorek. Další situace, kdy k p-hackingu dochází, nastává v případě, že se vypočtená p-hodnota všech zkoumaných dat výrazně blíží předem stanovené hranici p-hodnoty, ale nedostává se pod ní. Pouhé přidání dalšího množství dat do celkové analýzy často vede k pokoření této hranice, a tedy k zdánlivému zisku statisticky významného výsledku.[2]

p-hacking v praxiEditovat

Prostředkem p-hackingu je tzv. p-hodnota, číselná hodnota, jež se užívá při statickém testování hypotéz. Typicky se jako hranice pro určení relevance získaných dat stanovuje hodnota 0,05. Pokud je p-hodnota menší než 0,05, má se za to, že mezi zkoumanými vzorky existují rozdíly. Na druhou stranu pokud je p-hodnota větší než 0,05, nelze tvrdit, že by mezi vzorky existovala prokazatelná rozdílnost. p-hodnota potvrzuje či vyvrací možnost rozdílů mezi vzorky, ale neurčuje, jak velké tyto rozdíly jsou.[3]

  • Pokud budou získaná data opakovaně podrobována stejnému zkoumání, nevyhnutelně mezi nimi dříve či později statistický rozdíl vznikne, jedná se ale o tzv. falešně pozitivní výsledek. V tomto případě se jedná o p-hacking ve smyslu, že se tentýž experiment provádí stále dokola, dokud nedojde k potvrzení dané hypotézy.
  • Dalšího způsobu p-hackingu může být užito v případech, kdy experiment vyústí v p-hodnotu blížící se hranici 0,05, nicméně stále vyšší. Pokud je po získání prvotních dat uměle jejich objem zvětšen o data dodaná následně, pravděpodobně se autor výzkumu dopracuje k hodnotě nižší, než 0,05. Takovýto výsledek se ovšem nemůže považovat za směrodatný, neboť se jedná o p-hacking. Ve správném případě musí být předem známo co, do jaké míry a jakým způsobem se zkoumá a pro validitu experimentu se musí těchto předem vytyčených hranic držet, i přes riziko vyvrácení hypotézy.
  • Alternativně pokud výzkumník začne vyhodnocovat získaná data již v procesu jejich kolekce, vyhodnotí z nich požadovaný výsledek a na základě toho předčasně ukončí sběr dat, jedná se také o p-hacking. [4]
  • Nelze opomenout fakt, že p-hackingu se lze dopouštět i neúmyslně. Například se toho může omylem dopustit výzkumník v momentě, kdy získaná data předá k analýze svému asistentovi. Lze předpokládat, že ten bude hledat výsledky analýzy, o kterých bude soudit, že s nimi jeho nadřízený bude spokojen. Ač fyzické ovlivnění dat učinil asistent, právě výzkumník samotný mohl předpokládat, že k tomuto může dojít, a tedy se bez svého vědomí dopustil p-hackingu.[4]

Ve skutečnosti je p-hacking velice častým jevem. Lze to ilustrovat prostřednictvím výzkumu Leslie K. John a kol[5]. Výzkum spočíval ve sběru dat skrze dotazníky. Respondenti byli dotazováni, zda se někdy ocitnuli v situaci, kdy došli při výzkumu k řadě pochybných výsledků a pokud ano, zdali si myslí, že jejich skutky byly na stupnici 0-2 (0 = ne, 1 = možná, 2 = ano) obhajitelné. Přes 50 % účastníků dotazníku se přiznalo k “selhání v nahlášení všech měření závislých na příslušné studii” a k “rozhodování se, zda sbírat více dat po tom, co se již podívali, zda jsou pro ně výsledky podstatné,” tyto výsledky ale ovšem dosáhly průměrného hodnocení vyššího než 1,5.”[3]

Prvotním varováním před potenciálním p-hackingem by čtenáři mělo být podezřele vysoké množství p-hodnot v analýzách dat na dané téma, které se pohybují těsně kolem hranice 0,05, typicky lehce pod ní. Často se tento jev projevuje ve studiích, které se dotýkají subjektivně vnímaných podnětů a pocitů lidí: typicky výzkumy spojené se zdravím, životosprávou, psychikou a psychologií člověka.[2]

OdkazyEditovat

ReferenceEditovat

  1. STARBUCK, William H. 60th Anniversary Essay: How Journals Could Improve Research Practices in Social Science. Administrative Science Quarterly. 2016, roč. 61, čís. 2, s. 165–183. Dostupné online [cit. 2021-11-19]. ISSN 0001-8392. 
  2. a b NUZZO, Regina. Scientific method: Statistical errors. Nature. 2014-02-13, roč. 506, čís. 7487, s. 150–152. Dostupné online [cit. 2021-11-19]. ISSN 0028-0836. DOI 10.1038/506150a. (anglicky) 
  3. a b HEAD, Megan L.; HOLMAN, Luke; LANFEAR, Rob. The Extent and Consequences of P-Hacking in Science. PLOS Biology. 2015-03-13, roč. 13, čís. 3, s. e1002106. Dostupné online [cit. 2021-11-19]. ISSN 1545-7885. DOI 10.1371/journal.pbio.1002106. PMID 25768323. (anglicky) 
  4. a b HARVEY, CAMPBELL R. Presidential Address: The Scientific Outlook in Financial Economics. The Journal of Finance. 2017-08, roč. 72, čís. 4, s. 1399–1440. Dostupné online [cit. 2021-11-19]. ISSN 0022-1082. DOI 10.1111/jofi.12530. 
  5. JOHN, Leslie K.; LOEWENSTEIN, George; PRELEC, Drazen. Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science. 2012-04-16, roč. 23, čís. 5, s. 524–532. Dostupné online [cit. 2021-12-04]. ISSN 0956-7976. DOI 10.1177/0956797611430953. 

Související článkyEditovat

Externí odkazyEditovat