Przedział ufności to jedna z najbardziej znanych technik tworzenia estymatora przedziałowego, które to pojęcie zostało zaproponowane przez statystyka polskiego pochodzenia Jerzego Spławę-Neymanna wraz z Egonem Pearsonem w latach 30. XX wieku. Przedział ufności to statystyczny sposób przedstawiania niepewności związanej z estymacją pewnego parametru populacyjnego na podstawie uzyskanych estymatorów w próbie.
Definicja przedziału ufności jest mało intuicyjna i w związku z tym dość trudna w zrozumieniu. Wynika to z faktu, że pojęcie to jest elementem podejścia częstościowego (NHST) do wnioskowania statystycznego, które było tworzone jako narzędzie do długotrwałej kontroli błędów, a nie bezpośredniego szacowania parametrów w pojedynczym badaniu. Podobnie z resztą, nieintuicyjne w interpretacji są inne pojęcia związane z NHST, takie jak błąd I rodzaju, błąd II rodzaju, poziom istotności czy wartość p.
Często przywoływana definicja przedziału ufności to „prawdopodobieństwo z jakim w danym przedziale znajduje się wartość szacowanego parametru”. Przykładowo, zgodnie z tą definicją przedział ufności 95% odnosiłby się do tego, że z 95% prawdopodobieństwem w wyznaczonym przedziale znajduje się szacowany parametr (czyli wartość np. średnia w populacji którą chcemy oszacować).
Powyższa definicja jest błędna, ponieważ założenia dotyczące tego prawdopodobieństwa opierają się na teoretycznych rozkładach prawdopodobieństwa, a tym samym na symulacyjnym podejściu do analizy wyników badań (symulację tego rodzaju możemy zobaczyć tutaj). Oznacza to, że owo prawdopodobieństwo (np. 95%) odnosi się do pewnej idealnej sytuacji – przedział ufności konstruuje się zatem „wtórnie” na bazie teorii prawdopodobieństwa, a nie wyznacza a priori z zebranych danych. W rzeczywistości, prawdopodobieństwo związane z tym że w danym przedziale mieści się wartość estymowanego parametru nigdy nie jest znane i w rzeczywistość jego wartość wcale nie musi być zgodna z założeniami. Przykładowo Cumming i in. (2004) wskazują na to, że dla utworzonego przedziału ufności 95% w pojedynczym badaniu prawdopodobieństwo że zawiera ono wartość parametru wynosi ok 83,4%. Czym innym jest zatem określany % przedziału ufność, a czym innym prawdopodobieństwo otrzymania wyniku „prawdziwego”.
Do czego odnosi się zatem właściwa definicja przedziału ufności? Na przykładzie przedziału ufności 95%: Przedział ufności 95% oznacza, że gdybyśmy powtórzyli nasze badanie wielokrotnie (czego nigdy nie zrobimy) to SPODZIEWAMY SIĘ (a zatem jedynie zakładamy, na bazie teorii prawdopodobieństwa, bo nie wiemy bowiem jak jest na prawdę), że 95% tych przedziałów będzie zawierało mierzony parametr. Prawidłowa definicja przedziału ufności uwzględnia zatem kontekst prawdopodobieństwa odnoszącego się do wielu powtórzeń badania charakterystyczny dla NHST. Nie odnosi się więc do oszacowania rzeczywistego prawdopodobieństwa z jakim w wyznaczonym przedziale zawiera się parametr. Taka definicja jest jedynie uproszczeniem
Powyższe wyjaśnienie uzupełnijmy przykładem. Wyobraźmy sobie, że z populacji wszystkich ryb z jeziora Mamry pewien wędkarz wyłowił 50 ryb. Jak to wędkarz ma w zwyczaju, waży osobnika żeby móc się kolegom pochwalić, po całym dniu uzyskał średnią M = 1,5kg dla wszystkich 50 ryb. I wędkarz zaczął się zastanawiać: „czy to oznacza, że średnia wszystkich ryb wyniesie 1,5kg?” Bardzo wątpliwe. Oznacza to, że łowiąc ryby w jeziorze Mamry, masz największą szansę złowić rybę 1,5kg (o ile waga ryb w jeziorze ma rozkład normalny). Zatem ile wynosi parametr dla średniej wszystkich ryby w tym jeziorze? To może wiedzieć tylko stwórca wszystkich ryb w jeziorze Mamra lub badacz który uznał że, zgodnie z hasłem kultowej bajki, złapie je wszystkie. Póki nie możemy przebadać wszystkich możliwych próbek pochodzących z całej populacji (tutaj: każdej ryby z całego jeziora), dopóty możemy jedynie szacować w jakim przedziale średnia wyników się wacha, bazując na zebranej próbce. W ten sposób można na powyższym przykładzie ustalić, że przy 95% przedziale ufności możemy stwierdzić iż średnia waga wszystkich ryb, na podstawie tego jednego badania, w jeziorze Mamra waha się w przedziale <1,1kg – 1,9kg>. Tylko co to tak naprawdę oznacza? Mianowicie, 95% przedział ufności mówi o tym, że jeśli całe nasze życie poświęcimy na łowienie 50. elementowych grupek ryb, będziemy to powtarzać tyle razy ile tylko nam się uda i za każdym razem wyznaczać przedział ufności (praktycznie zawsze będzie on trochę inny od pozostałych) to 95 takich przedziałów na 100 będzie zawierało prawdziwą średnią z populacji wszystkich ryb z jeziora Mamry. Co warto zapamiętać: estymacja przedziałowa nie mówi nam że z 95% prawdopodobieństwem średnia waha się w przedziale np. 1,1kg – 1,9kg. Estymacja przedziałowa mówi nam, że możemy szacować że powtarzając badanie wielokrotnie otrzymamy przedział z wynikiem prawdziwym w 95 przypadkach na 100. Jednak wynik prawdziwy jest stały i niezmienny (np. 1,3 kg), a z uwagi że „zgadzamy się” na 5% błąd pomiaru, może ten wynik wynosić tak naprawdę 2,5kg lub 0,2kg, ale przyjmujemy tak niewielką szansę na pomyłkę z godnością i wierzymy że przedział obliczony w naszym badaniu zawiera w sobie wynik prawdziwy, gdyż zadbaliśmy o reprezentatywną próbę czy to przez dobór losowy, czy kwotowy.
Tworzenie przedziału ufności jest nierozłącznym elementem estymacji przedziałowej stosowanej podczas wykonywania testów statystycznych weryfikujących hipotezy badawcze. W takiej sytuacji przedział ufności stosuje się np. określania estymacji przedziałowej uzyskanej różnicy średnich (w tekście t Studenta dla prób niezależnych). Jednocześnie, metoda ta ma również zastosowanie podczas diagnozy indywidualnej opartej na stosowaniu psychologicznych testów diagnostycznych.
Wartość przedziału ufności związana jest z przyjętym poziomem istotności α (alfa), czyli przyjętym dopuszczalnym ryzykiem popełnienia błędu I rodzaju i wynosi dokładnie 1 – α. Oznacza to, że dla α = 0,05 przedział ufności to 95%, dla α = 0,01 przedział ufności to 99%, itd.
Oto kroki do wyznaczenia przedziału ufności:
1. Wybór Poziomu Ufności: Wybieramy poziom ufności, na przykład 90, 95 lub 99%. Zależnie od tego jak bardzo „ufamy swoim danym”, im bardziej jesteśmy przekonani o dobroci danych, tym mniejszy poziom można wybrać.
2. Obliczenie średniej i błędu standardowego: Na podstawie zebranych danych obliczamy wartość średnią oraz błąd standardowy, który jest szacowaną miarą rozproszenia wyników w populacji.
3. Obliczenie wartości krytycznej: Na podstawie wybranego poziomu ufności, obliczamy wartość krytyczną z odpowiedniego rozkładu (np. t, Z, F, χ2). Wartość krytyczna to granica na rozkładzie statystyki testowej, po przekroczeniu której hipoteza zerowa jest odrzucana.
4. Obliczenie marginesu błędu: poprzez pomnożenie błędu standardowego przez wartość krytyczną oblicza się margines błędu. Ta operacja matematyczna dostosowuje błąd standardowy tak, aby odzwierciedlał wybrany poziom ufności.
5. Wyznaczenie Przedziału: Na podstawie obliczonego marginesu błędu wyznacza się przedział ufności. Jego zakres to +/- wartość marginesu błędu od średniej. Te wartości graniczne to dolna i górna granica przedziału ufności.
Przykład konstruowania przedziału ufności: Jeśli średnia wzrostu w próbce wynosi 170 cm, błąd standardowy 5 cm, a wartość krytyczna dla 95% poziomu ufności wynosi 1,96 (jest tak dla rozkładu normalnego) to przedział ufności wynosi od (170 – 1,96 * 5) do (170 + 1,96 * 5), czyli od 160,2 cm do 179,8 cm.
Warto pamiętać, że „szerokość” danego przedziału ufności w różnych badaniach może znacząco się różnić. Wynika to z faktu, że:
Zakres popularnych przedziałów ufności 99%, 95% oraz 90% dla rozkładu normalnego przedstawiono poniżej:
Literatura:
Cumming, G., Williams, J., Fidler, F. (2004). Replication and researchers’ understanding of confidence intervals and standard error bars. Understanding Statistics, 3(4), 299–311. https://doi.org/10.1207/s15328031us0304_5