Dobór Danych I Interpretacja Median
2018-10-16 [wersja do druku]
Komentarz dotyczy wpisu HISTORIA ODRY W POLSCE - MEDIANY.
Rysunek 1
źródło: komentarz na Facebook'u
źródło: komentarz na Facebook'u
Ten wpis dotyczy zagadnień matematycznych, więc odniosę się tu do dwóch problemów:
1. Czytelnik uważa, że moje zdziwienie niższą medianą jest niedorzeczne, bo przecież celowo użyłam median, by pominąć lata epidemiczne. Po pierwsze źle zrozumiał, z czego wynikało moje zdziwienie, po drugie użycie median zostało mi niejako narzucone, bo tak dane zapisywane są w książkach. Jest to powszechna praktyka, a nie moja manipulacja.
2. Odrzucenie jednych danych i przybliżenie innych nie jest podyktowane wygodą, a dbałością o jednolitość i możliwie najlepszą zgodność z prawdą.
Odpowiedzi na pozostałe zarzuty zostały już albo omówione, albo są w przygotowaniu:
1. Opinia, że dane sprzed roku 1955 są zbiorczymi z kilku lat z powodu problemów z rejestracją, jest chybiona. Są one reprezentowane przez mediany ze względu na dużą odległość czasową. Dane roczne na szczęście są dostępne (z kilkoma wyjątkami) i uzupełniłam je we spisie HISTORIA ODRY W POLSCE - PODSUMOWANIE. W artykułach Przeglądu Epidemiologicznego mediany podawane są już z lat 90.
2. Eksperymentalne szczepienia w 1967 roku nie miały wpływu na obniżenie mediany. Pokazałam to już we wpisie ZAPADALNOŚĆ NA ODRĘ W POLSCE A POZIOM WYSZCZEPIENIA POPULACJI, ale jeszcze jeden post na ten temat jest w przygotowaniu.
3. Czytelnik ma niewątpliwie rację co do jednego: dane sprzed kilkudziesięciu lat nie są wiarygodne (niestety obecne również). Będzie o tym jeszcze kilka wpisów, które całkowicie zmienią pogląd na sytuację epidemiologiczną odry w Polsce. Tymczasem sprawdzam, czy z tych samych danych statystycznych, którymi dysponuje PZH, wynikają te same wnioski, które wyciąga PZH.
Natomiast wniosek mówiący, że liczba zachorowań zaczęła maleć z powodu wprowadzenia szczepień oczywiście napiszę, gdy tylko uda mi się to udowodnić :) Nie ukrywam przecież, że szczepienia prawdopodobnie miały wpływ na przyspieszenie zmniejszania się liczby zachorowań.
1. przybliżenia
Mogłam sobie pozwolić na uzupełnienie danych o ludności sąsiednimi latami, ponieważ liczba ludności była bardzo duża, a jej zmiany bardzo małe. To są te trzy przypadki, gdy uzupełniłam dane roczne sąsiednimi wartościami.W 1920 roku było 10 831 zachorowań na odrę. Jeśli przyjmiemy taką samą liczbę ludności, jak w roku 1921, to otrzymamy zapadalność 39,89 na 100tys. ludności. Jeśli przyjmiemy ludność mniejszą o 740000, czyli 26410000, to otrzymamy zapadalność 41,01 na 100tys. ludności. Nawet jeśli ludność byłaby mniejsza o 1480000, czyli wynosiła 25670000, to zapadalność byłaby równa 42,19 na 100tys. ludności. Na wykresie zapadalność rozciąga się od 0 do 600. Słupki o wysokości 39,89, 41,01 i 42,19 byłyby wizualnie takie same.
Wykres 1
Wykres 2
2. weryfikacja danych
Z drugiej strony usunęłam niepełne mediany. Źródła podają medianę zachorowań z lat 1935-39 w wysokości 40004 i medianę zgonów 279, ale, jak dowiedzieliśmy się z książki Kostrzewskiego, są to mediany tylko z 3 lat, bo brakuje danych z lat 1938 i 1939. Z tego samego powodu musiałam też usunąć mediany zapadalności, umieralności i śmiertelności z tych lat.Ostatnią zmianą było pozbycie się niepełnych danych. Znowu źródła podają medianę zgonów z lat 1945-49 na 69, ale z książki Kostrzewskiego dowiadujemy się, że jest to mediana z 3 lat i na dodatek dane są niepełne. Zniknęła więc mediana zgonów, umieralności i śmiertelności z tych lat. Tutaj już różnice byłyby zauważalne, bo w następnych latach notowano 300-500 zgonów, a wcześniej używaliśmy wielkości 69.
Z powodu niepełnych danych straciliśmy kilka median. Gdybym pominęła również te, gdzie nie było liczby ludności, niewiele by zostało. Korzystniej było więc zgodzić się na przybliżenia, gdzie błąd jest bardzo mały. Także nie ma tu żadnych czarów i nie dobieram sobie danych tak, jak mi wygodnie.
3. dlaczego jedna mediana jest niższa od drugiej?
Najpierw odrobina matematyki. Co wynika z tego, że jedna mediana jest niższa od drugiej?Weźmy uszeregowane wartości ze zbioru X, gdzie medianą jest x3:
y3 jest większe od y2 i y1, więc możemy dopisać z lewej strony:
Nie wiemy, jaka jest wzajemna relacja między wartościami x1 i x2 oraz wartościami y1, y2 i y3, ale nie jest to istotne, ponieważ zarówno x2 jak i y3 są mniejsze niż x3:
Z drugiej strony jest dokładnie tak samo. Nie wiemy, jaka jest wzajemna relacja między wartościami x3, x4 i x5 oraz y4 i y5, ale nie jest to istotne, ponieważ zarówno x3 jak i y4 są większe niż y3:
Wynika stąd, że warunkiem koniecznym, aby mediana x3 była większa niż mediana y3 jest, aby ponad połowa wartości ze zbioru X była większa niż ponad połowa wartości ze zbioru Y - w naszym przypadku jest to 3. Warunkiem wystarczającym jest, by 4 wartości ze zbioru X były większe niż 4 wartości ze zbioru Y. Również warunkiem wystarczającym jest, by 5 wartości ze zbioru X było większych niż 5 wartości ze zbioru Y - a więc wszystkie. Nie jest natomiast możliwe, by tylko 2 (lub 1, lub 0) wartości ze zbioru X były większe, niż 2 (lub 1, lub 0) wartości ze zbioru Y.
Z warunku koniecznego wynika też, że wartości y4 i y5 mogą być dowolnie duże, bo i tak nie zmienią wzajemnych relacji median x3 i y3. Stanowią one mniejszość - 2 wartości z 5 - i zostaną potraktowane jako epizod/przypadek.
Teraz możemy przejść od teorii do praktyki. Przyjrzyjmy się w dużym przybliżeniu zapadalności przed wprowadzeniem obowiązkowych szczepień. To są ostatnie trzy 5-lecia, gdzie wyraźnie widać już punkt przegięcia. Przypominam, że w 1967 zaszczepiono 451 dzieci, a kolejne dopiero w 1972.
Wykres 3
Wykres 4
A teraz zrobimy coś ciekawego, czyli nałożymy zbiory na siebie. Najpierw pierwszy z drugim:
Wykres 5
Teraz drugi i trzeci zbiór:
Wykres 6
A teraz najtrudniejszy przypadek: kiedy porównamy zbiór trzeci z pierwszym, to wydaje się, że trzeci przeważa. Takie właśnie odnosimy wrażenie, gdy patrzymy na wykres zapadalności, ponieważ te dwa lata epidemiczne bardzo mocno rzucają się w oczy.
Wykres 7
Moje zdziwienie wynikało z tego, że dwie duże epidemie tworzą złudzenie, że zapadalność nadal rosła. Skoro wszyscy mówią, że tak właśnie było i dopiero szczepienia powstrzymały rozprzestrzenianie się odry, spodziewałam się, że również mediana z tych lat będzie większa niż poprzednia. Okazało się, że jest zupełnie inaczej. Okazało się, że pomimo występowania dużych epidemii, tendencja była już malejąca.
Dzięki wykresom porównującym poszczególne lata w sąsiednich 5-leciach przyszedł mi do głowy ciekawy pomysł, jak w inny sposób pokazać, że przyrost zapadalności zwalniał. Bez utraty informacji, którą fundują nam mediany.
ŹRÓDŁA DANYCH
Dane użyte w niniejszym wpisie znajdują się w postach:
HISTORIA ODRY W POLSCE - MEDIANY,
HISTORIA ODRY W POLSCE - PODSUMOWANIE,
ZAPADALNOŚĆ NA ODRĘ W POLSCE A POZIOM WYSZCZEPIENIA POPULACJI.
comments powered by Disqus