Rangowanie – to proces przypisywania porządkowych numerów (rang) elementom zbioru danych w zależności od ich wielkości lub innej cechy. Procedura ta jest szeroko stosowana w statystyce do analizy danych. Istnieje kilka różnych metod rangowania, w zależności od konkretnego kontekstu i wymagań analizy.
Przykładowo spójrzmy na tabelę 1, w której przedstawiono różne przykłady rangowania w zależności od kontekstu i celu analizy danych.
Tabela 1
Przykład rangowania danych ilościowych
Cel | Zadanie | Pomiar | Badany 1 | Badany 2 | Badany 3 | Badany 4 |
Wyłonienie najszybszego biegacza |
Bieg na 100 m | Czas | 8,5 sek. | 7,7 sek. | 8,2 sek. | 7,1 sek. |
Ranga | 4 | 2 | 3 | 1 | ||
Wyłonienie najlepszego nurka |
Wstrzymywanie oddechu |
Czas | 85 sek. | 77 sek. | 82 sek. | 71 sek. |
Ranga | 1 | 3 | 2 | 4 |
Obserwując przypisane rangi w tabeli 1, możemy zauważyć iż uzyskanie pierwszego miejsca było zależne w całości od celu jakiemu rangowanie przyświecało – w przypadku biegu na 100% rangę ‘1’ (miejsce pierwsze) uzyskał zawodnik o najniższym wyniku, a w przypadku wstrzymywania oddechu – zawodnik o najwyższym wyniku. Warto zatem pamiętać o tym, że cel ma pierwszeństwo przed metodą!
W statystyce rangowanie polega zazwyczaj na transformacji danych ilościowych na dane porządkowe w celu przeprowadzenia testów nieparametrycznych (np. testu Manna-Whitneya) którego przykładowy schemat zaprezentowano w tabeli 2.
Tabela 2
Proces transformacji danych ilościowych na rangi
Osoba badana |
Pojedynczy wynik w grupie I |
Pojedynczy wynik w grupie II |
Rangi grupa I |
Rangi grupa II |
1 | 48 | 52 | 9 | 10 |
2 | 29 | 33 | 3,5 | 7 |
3 | 30 | 44 | 5 | 8 |
4 | 10 | 27 | 1 | 2 |
5 | 29 | 31 | 3,5 | 6 |
Jak można zauważyć na przykładzie tabeli 1, proces transformacji na rangi nie bierze pod uwagę podziału na grupy, a przypisuje rangi od najniższego wyniku do najwyższego (tak jak robimy w przypadku testów nieparametrycznych). Dlatego też wynik równy 10 na skali średniej u osoby nr 4 w pierwszej grupie uzyskał rangę 1, a następny w kolejności najniższy wynik (badany nr 4 w grupie 2) otrzymał rangę 2. Taki zabieg rangowania pozwala zachować oryginalne rozumienie skali np. że wyższy wynik średniej oznacza lepszy wynik.
W przypadku rangowania, warto wspomnieć o rangach wiązanych, które w przykładzie zawartym tabeli 1 reprezentuje ranga o wartości 3,5. Rangi wiązane pojawiają się w sytuacji gdy nasze wyniki ilościowe u dwóch lub większej liczby osób są identyczne. W takiej sytuacji stosuje się uśrednioną rangę dla dwóch następujących po sobie rang w kolejności np. (3 + 4)/2 = 3,5. Gdyby trzy wyniki pod rząd były identyczne, wtedy nasz wzór wyglądałby przykładowo tak: (3 + 4 + 5)/2 = 4, dzięki czemu każda osoba otrzymałaby rangę wiązaną równą 4.
Wartości rangi są mało intuicyjne gdy chodzi o ich interpretację przy porównaniach dwóch lub większej liczby próbek, gdyż wtedy testy statystyczne dają nam zazwyczaj informację o „średniej randze” lub „sumie rang”. Utarło się, że dobrą i bardziej intuicyjną alternatywą jest korzystanie z mediany oraz rozstępu ćwiartkowego, jako miary dobrze opisujące relacje między różnicami opartymi o rangi.
Podsumowując rangi są szczególnie przydatne w przypadku danych niemetrycznych (porządkowych) lub danych, które nie spełniają warunków rozkładu normalnego. Pozwalają nam na zastosowanie alternatywnych metod statystycznych, kiedy nie możemy opierać się na średniej i odchyleniu standardowym.