Tegnap 50 látogatóm volt. Pontosabban 50 oldalletöltés 4 látogatótól. Mi történhetett? :-)
Lehet ez véletlen? (Na, most nem tudom, mit fogok csinálni, de értelme valószínűleg nem sok lesz...)
Próbáljunk meg rájönni! Papír-ceruza helyett: szoftver:
Number of values: 47 (47 nap letöltéseiről van adatom)
Minimum: 0,0 (volt 0 db "letöltéses" nap)
25% Percentile: 3,000
Median: 5,000 (Közép: 5 letöltés, annyi kevesebb volt, amennyi több; ez lényegtelen adat most...)
75% Percentile: 9,000
Maximum:50,00
Mean: 7,426 (Átlagosan napi 7,426 letöltés)
Std. Deviation: 8,687 (a variancia négyzetgyöke, a szóródást jellemzi; ez nagy)
Std. Error: 1,267 (a "középérték közepes hibája", arra utal, hogy mennyire jó az átlagom)
Sum: 349,0 (összesen ennyi letöltés történt a vizsgált időszakban)
Az 50-es letöltés-szám szignifikánsan magasabb az átlagnál (mekkora eséllyel a véletlen műve?)?
One sample t test
Theoretical mean: 50,00 (Ezt én adtam meg önkényesen, "hipotézis")
Actual mean: 7,426
Discrepancy: 42,57
95% CI of discrepancy-45,13 to -40,02 t, dft=33,60 df=46
P value (two tailed)< 0,0001
Significant (alpha=0.05)? Yes
Kérdés, hogy az adatok normál eloszlást (pl. Gauss görbével jellemezhető) mutatnak-e (ekkor érvényes a tesztem. Persze amúgy is azt adtam meg, hogy legyen a várt értékem az 50...)?
Nézzük meg, hogyan oszlik el a letöltések száma (haranggörbét várunk). Természetesen nem az lett... Látjuk, hogy az első érték 3 (azaz 0 db letöltés/ nap 3 esetben fordult elő). A leggyakoribb napi oldalletöltés a 4, ez hétszer fordult elő. Nem tűnik normál eloszlásnak... Ha az lenne a "mean"-nek és "median"-nak egybe kellene esnie. Így tehát az előbbi "szignifikanciavizsgálat" ebből a szempontból sem megfelelő. Valójában a túl magas SD láttán abba kellett volna hagyni az egészet. Kevés a mintám (csak 47 nap adatait látom).
Gauss-görbe szerűt kapunk, ha a látogatók számának eloszlását nézzük. Ez sem az, hiszen itt is a 0 db látogatás is több alkalommal történt. A "mean" ( 2,87234) és "median" (3,000) csaknem egybeesik. Egész pontosan az jellemzi a Gauss-eloszlást, hogy a median és "modus" (a leggyakrabban előforduló elem, ami itt 3) egybeesik. (Még "konyhább" nyelven a leggyakoribb van középen.) Ez teljesült.
A statisztikáknak is megvannak a limitációik. Könnyen vezet téves eredményhez egy nem megfelelően alkalmazott statisztika (mint itt a t-próba nem normál eloszlásra alkalmazva; mint itt, az ilyen kis mintaszám; mint itt az önkényesen kijelölt 50-es "várt" érték). Mint sok helyen (az amúgy mindig kisebb) SEM ábrázolva SD helyett. Mint a sokszor meg sem ismételt kísérlet...
Nem értek a statisztikához... :-) És nem is tudtam meg, hogy mi történt...
Feltehetően valaki(k) többször megnéztek valamit. 4-en végeztek tizenegynéhány letöltést. Vagy ketten 20-at-20-at. Vagy egy ember 47-et, a többi egyet. Valakinek durván duplaklikkes volt az egere. Vagy akadozott az internetkapcsolata. Vagy csak a macska mászkált a billentyűzeten...