Brak danych to sytuacja, w której niektóre wartości dla danej zmienne z jakiegoś powodu są nieobecne lub nieznanie. Zazwyczaj są to po prostu puste pola w komórkach arkuszu kalkulacyjnego, ewentualnie oznaczenia, takie jak “NA” lub “NaN”, lub inne formy braków danych. Poszczególne pakiety statystyczne mogą posiadać również własne reguły dotyczące kodowania braków danych. Przykładowo, w pakiecie IBM SPSS można kodować braki danych według własnej reguły, gdzie częstym wyborem są wartości ’99’ lub ‘999’.
Braki danych mogą występować z różnych powodów, takich jak błędy w gromadzeniu danych, niechęć respondentów do udzielania odpowiedzi, przypadkowe utraty danych lub inne czynniki.
Braki danych mogą mieć wpływ na wyniki statystycznej analiz danych, szczególnie w sytuacji gdy zbiór danych jest stosunkowo niewielki, ponieważ mogą wprowadzać zakłócenia i utrudniać uzyskanie dokładnych wyników. Istnieje kilka podejść do radzenia sobie z brakami danych:
Wybór odpowiedniej metody radzenia sobie z brakami danych zależy od wielu czynników, takich jak charakterystyka danych, stopień braków danych i cel analizy. Ważne jest również dokładne dokumentowanie i raportowanie podejścia do braków danych, aby zapewnić wiarygodność wyników analizy.