Dobór Danych I Interpretacja Median

2018-10-16 [wersja do druku]
Pisząc posty zawsze staram się wszystko dokładnie wyjaśniać, ale jednak pewne rzeczy pomijam, żeby zanadto nie przedłużać. Ponieważ jeden z Czytelników zarzucił mi manipulację danymi, śpieszę wyjaśnić zagadnienia, które sprawiły mu trudność.

Komentarz dotyczy wpisu HISTORIA ODRY W POLSCE - MEDIANY.
Rysunek 1
źródło: komentarz na Facebook'u
UWAGA: Odpowiedź na ten komentarz umieściłam na Facebook'u, ale od razu zablokowano mi konto i przestał być widoczny. To trwa już kilka dni, więc zaczynam powątpiewać, czy w ogóle mnie odblokują i odpowiedź się pojawi. Niemniej jednak informuję, że wkradły się tam małe błędy, których w niniejszym poście już nie ma.

Ten wpis dotyczy zagadnień matematycznych, więc odniosę się tu do dwóch problemów:
1. Czytelnik uważa, że moje zdziwienie niższą medianą jest niedorzeczne, bo przecież celowo użyłam median, by pominąć lata epidemiczne. Po pierwsze źle zrozumiał, z czego wynikało moje zdziwienie, po drugie użycie median zostało mi niejako narzucone, bo tak dane zapisywane są w książkach. Jest to powszechna praktyka, a nie moja manipulacja.
2. Odrzucenie jednych danych i przybliżenie innych nie jest podyktowane wygodą, a dbałością o jednolitość i możliwie najlepszą zgodność z prawdą.

Odpowiedzi na pozostałe zarzuty zostały już albo omówione, albo są w przygotowaniu:
1. Opinia, że dane sprzed roku 1955 są zbiorczymi z kilku lat z powodu problemów z rejestracją, jest chybiona. Są one reprezentowane przez mediany ze względu na dużą odległość czasową. Dane roczne na szczęście są dostępne (z kilkoma wyjątkami) i uzupełniłam je we spisie HISTORIA ODRY W POLSCE - PODSUMOWANIE. W artykułach Przeglądu Epidemiologicznego mediany podawane są już z lat 90.
2. Eksperymentalne szczepienia w 1967 roku nie miały wpływu na obniżenie mediany. Pokazałam to już we wpisie ZAPADALNOŚĆ NA ODRĘ W POLSCE A POZIOM WYSZCZEPIENIA POPULACJI, ale jeszcze jeden post na ten temat jest w przygotowaniu.
3. Czytelnik ma niewątpliwie rację co do jednego: dane sprzed kilkudziesięciu lat nie są wiarygodne (niestety obecne również). Będzie o tym jeszcze kilka wpisów, które całkowicie zmienią pogląd na sytuację epidemiologiczną odry w Polsce. Tymczasem sprawdzam, czy z tych samych danych statystycznych, którymi dysponuje PZH, wynikają te same wnioski, które wyciąga PZH.

Natomiast wniosek mówiący, że liczba zachorowań zaczęła maleć z powodu wprowadzenia szczepień oczywiście napiszę, gdy tylko uda mi się to udowodnić :) Nie ukrywam przecież, że szczepienia prawdopodobnie miały wpływ na przyspieszenie zmniejszania się liczby zachorowań.

1. przybliżenia

Mogłam sobie pozwolić na uzupełnienie danych o ludności sąsiednimi latami, ponieważ liczba ludności była bardzo duża, a jej zmiany bardzo małe. To są te trzy przypadki, gdy uzupełniłam dane roczne sąsiednimi wartościami.
W pierwszym przypadku mamy roczny przyrost 340000-740000, w drugim 357000-564000, w trzecim 114000-457000. To bardzo mało w porównaniu z 20-30mln populacją. Rozważmy pierwszy przykład, bo tam jest największy przyrost, i weźmy tę większą wartość, czyli 740000.

W 1920 roku było 10 831 zachorowań na odrę. Jeśli przyjmiemy taką samą liczbę ludności, jak w roku 1921, to otrzymamy zapadalność 39,89 na 100tys. ludności. Jeśli przyjmiemy ludność mniejszą o 740000, czyli 26410000, to otrzymamy zapadalność 41,01 na 100tys. ludności. Nawet jeśli ludność byłaby mniejsza o 1480000, czyli wynosiła 25670000, to zapadalność byłaby równa 42,19 na 100tys. ludności. Na wykresie zapadalność rozciąga się od 0 do 600. Słupki o wysokości 39,89, 41,01 i 42,19 byłyby wizualnie takie same.
Wykres 1
Od ludności zależy również umieralność. W 1920 roku było 405 zgonów. Jeśli przyjmiemy taką samą liczbę ludności, jak w roku 1921, to otrzymamy umieralność 1,49 na 100tys. ludności. Jeśli przyjmiemy ludność mniejszą o 740000, czyli 26410000, to otrzymamy umieralność 1,53 na 100tys. ludności. Nawet jeśli ludność byłaby mniejsza o 1480000, czyli wynosiła 25670000, to zapadalność byłaby równa 1,58 na 100tys. ludności. Na wykresie umieralność rozciąga się od 0 do 5. Słupki o wysokości 1,49, 1,53 i 1,58 byłyby wizualnie prawie takie same.
Wykres 2
Na mediany te zmiany nie wpływają, gdyż są zbyt małe (nie zmieniają kolejności uszeregowanych rosnąco wartości z poszczególnych lat).

2. weryfikacja danych

Z drugiej strony usunęłam niepełne mediany. Źródła podają medianę zachorowań z lat 1935-39 w wysokości 40004 i medianę zgonów 279, ale, jak dowiedzieliśmy się z książki Kostrzewskiego, są to mediany tylko z 3 lat, bo brakuje danych z lat 1938 i 1939. Z tego samego powodu musiałam też usunąć mediany zapadalności, umieralności i śmiertelności z tych lat.

Ostatnią zmianą było pozbycie się niepełnych danych. Znowu źródła podają medianę zgonów z lat 1945-49 na 69, ale z książki Kostrzewskiego dowiadujemy się, że jest to mediana z 3 lat i na dodatek dane są niepełne. Zniknęła więc mediana zgonów, umieralności i śmiertelności z tych lat. Tutaj już różnice byłyby zauważalne, bo w następnych latach notowano 300-500 zgonów, a wcześniej używaliśmy wielkości 69.

Z powodu niepełnych danych straciliśmy kilka median. Gdybym pominęła również te, gdzie nie było liczby ludności, niewiele by zostało. Korzystniej było więc zgodzić się na przybliżenia, gdzie błąd jest bardzo mały. Także nie ma tu żadnych czarów i nie dobieram sobie danych tak, jak mi wygodnie.

3. dlaczego jedna mediana jest niższa od drugiej?

Najpierw odrobina matematyki. Co wynika z tego, że jedna mediana jest niższa od drugiej?
Weźmy uszeregowane wartości ze zbioru X, gdzie medianą jest x3:
x1 < x2 < x3 < x4 < x5,
i inny zbiór Y, gdzie medianą jest y3:
y1 < y2 < y3 < y4 < y5.
Niech mediana x3 będzie większa niż mediana y3:
y3 < x3.
Co nam to mówi o pozostałych wartościach?
y3 jest większe od y2 i y1, więc możemy dopisać z lewej strony:
y1 < y2 < y3 < x3,
z kolei x3 jest mniejsze niż x4 i x5, więc możemy dopisać z prawej strony:
y1 < y2 < y3 < x3 < x4 < x5.
Wynika stąd, że mediana y3 jest mniejsza od mediany x3, gdy przynajmniej trzy wartości zbioru Y są mniejsze od przynajmniej trzech wartości zbioru X. Jeśli ponad połowa wartości jest mniejsza, to świadczy to o ogólnej tendencji malejącej.

Nie wiemy, jaka jest wzajemna relacja między wartościami x1 i x2 oraz wartościami y1, y2 i y3, ale nie jest to istotne, ponieważ zarówno x2 jak i y3 są mniejsze niż x3:
x1 < x2 < x3 < x4 < x5,
y1 < y2 < y3 < x3 < x4 < x5.
Możliwe są więc takie sytuacje, gdy
y1 < y2 < y3 < x1 < x2
lub
x1 < x2 < y1 < y2 < y3
oraz wszelkie inne przetasowania z zastrzeżeniem, że numeracja w obrębie zbioru zawsze musi się zwiększać, a więc np.:
x1 < y1 < y2 < x2 < y3.

Z drugiej strony jest dokładnie tak samo. Nie wiemy, jaka jest wzajemna relacja między wartościami x3, x4 i x5 oraz y4 i y5, ale nie jest to istotne, ponieważ zarówno x3 jak i y4 są większe niż y3:
y1 < y2 < y3 < y4 < y5,
y1 < y2 < y3 < x3 < x4 < x5.
Możliwe są więc takie sytuacje, gdy
x3 < x4 < x5 < y4 < y5
lub
y4 < y5 < x3 < x4 < x5
oraz wszelkie inne przetasowania z zastrzeżeniem, że numeracja w obrębie zbioru zawsze musi się zwiększać, a więc np.:
x3 < x4 < y4 < y5 < x5.

Wynika stąd, że warunkiem koniecznym, aby mediana x3 była większa niż mediana y3 jest, aby ponad połowa wartości ze zbioru X była większa niż ponad połowa wartości ze zbioru Y - w naszym przypadku jest to 3. Warunkiem wystarczającym jest, by 4 wartości ze zbioru X były większe niż 4 wartości ze zbioru Y. Również warunkiem wystarczającym jest, by 5 wartości ze zbioru X było większych niż 5 wartości ze zbioru Y - a więc wszystkie. Nie jest natomiast możliwe, by tylko 2 (lub 1, lub 0) wartości ze zbioru X były większe, niż 2 (lub 1, lub 0) wartości ze zbioru Y.

Z warunku koniecznego wynika też, że wartości y4 i y5 mogą być dowolnie duże, bo i tak nie zmienią wzajemnych relacji median x3 i y3. Stanowią one mniejszość - 2 wartości z 5 - i zostaną potraktowane jako epizod/przypadek.

Teraz możemy przejść od teorii do praktyki. Przyjrzyjmy się w dużym przybliżeniu zapadalności przed wprowadzeniem obowiązkowych szczepień. To są ostatnie trzy 5-lecia, gdzie wyraźnie widać już punkt przegięcia. Przypominam, że w 1967 zaszczepiono 451 dzieci, a kolejne dopiero w 1972.
Wykres 3
Uszeregujmy słupki rosnąco, w każdym 5-leciu osobno. Zbiór X to lata 1960-64, zbiór Y - lata 1965-69, zbiór Z - lata 1970-74.
Wykres 4
Mediana z lat 1965-69 jest wyższa od tej z lat 1960-64, ponieważ 3 słupki z drugiego zbioru są wyższe, niż 3 słupki ze zbioru pierwszego. Mediana z lat 1970-74 jest niższa od tej z lat 1965-69, ponieważ 3 słupki z trzeciego zbioru są niższe, niż 3 słupki ze zbioru drugiego. Możemy też zauważyć, że mediana z lat 1970-74 jest niższa od tej z lat 1960-64.

A teraz zrobimy coś ciekawego, czyli nałożymy zbiory na siebie. Najpierw pierwszy z drugim:
Wykres 5
Słupki 3, 4 i 5 z drugiego zbioru są większe, niż słupki 1, 2, i 3 ze zbioru pierwszego, dlatego mediana z drugiego zbioru jest większa (przewaga ponad połowy nad ponad połową). Jednak w tym konkretnym przypadku każdy słupek zbioru drugiego jest wyższy, niż odpowiadający mu słupek zbioru pierwszego. Mamy tu spełniony warunek wystarczający:
x1 < y1, x2 < y2, x3 < y3, x4 < y4, x5 < y5.

Teraz drugi i trzeci zbiór:
Wykres 6
Słupki 3, 4 i 5 z drugiego zbioru są większe, niż słupki 1, 2, i 3 ze zbioru trzeciego, dlatego mediana z drugiego zbioru jest większa (przewaga ponad połowy nad ponad połową). W tym przypadku również mamy spełniony warunek wystarczający - 4 słupki zbioru drugiego są wyższe niż 4 słupki zbioru trzeciego:
y1 > z1, y2 > z2, y3 > z3, y4 < z4, y5 > z5.

A teraz najtrudniejszy przypadek: kiedy porównamy zbiór trzeci z pierwszym, to wydaje się, że trzeci przeważa. Takie właśnie odnosimy wrażenie, gdy patrzymy na wykres zapadalności, ponieważ te dwa lata epidemiczne bardzo mocno rzucają się w oczy.
Wykres 7
Jednak nawet tu mamy spełniony warunek konieczny - 3 słupki zbioru pierwszego są wyższe, niż 3 słupki zbioru trzeciego - dlatego również mediana x3 jest większa, niż z3. Bez znaczenia, czy porównujemy słupki tak, jak w nierówności, czy po prostu parami:
x1 > z1, x2 > z2, x3 > z3, x4 < z4, x5 < z5.
Nie ma również znaczenia, jak bardzo wysokie są słupki z4 i z5 (a więc nasze epidemie), ponieważ nie zmieniają wartości środkowych. Po prostu traktowane są jako nietypowe i będące w mniejszości.

Moje zdziwienie wynikało z tego, że dwie duże epidemie tworzą złudzenie, że zapadalność nadal rosła. Skoro wszyscy mówią, że tak właśnie było i dopiero szczepienia powstrzymały rozprzestrzenianie się odry, spodziewałam się, że również mediana z tych lat będzie większa niż poprzednia. Okazało się, że jest zupełnie inaczej. Okazało się, że pomimo występowania dużych epidemii, tendencja była już malejąca.

Dzięki wykresom porównującym poszczególne lata w sąsiednich 5-leciach przyszedł mi do głowy ciekawy pomysł, jak w inny sposób pokazać, że przyrost zapadalności zwalniał. Bez utraty informacji, którą fundują nam mediany.

ŹRÓDŁA DANYCH
Dane użyte w niniejszym wpisie znajdują się w postach:
HISTORIA ODRY W POLSCE - MEDIANY,
HISTORIA ODRY W POLSCE - PODSUMOWANIE,
ZAPADALNOŚĆ NA ODRĘ W POLSCE A POZIOM WYSZCZEPIENIA POPULACJI.
comments powered by Disqus