Anscombeov kvartet je zbirka štirih naborov izmišljenih podatkov, med katerimi osnovne statistične metode ne pokažejo praktično nobenih razlik, zgleda pa vsak zelo drugače, ko se jih predstavi grafično. Vsak nabor podatkov sestavlja po 11 točk s koordinatama x in y.
Koordinate točk so sledeče:[1]
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10,0 | 8,04 | 10,0 | 9,14 | 10,0 | 7,46 | 8,0 | 6,58 |
8,0 | 6,95 | 8,0 | 8,14 | 8,0 | 6,77 | 8,0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8,0 | 7,71 |
9,0 | 8,81 | 9,0 | 8,77 | 9,0 | 7,11 | 8,0 | 8,84 |
11,0 | 8,33 | 11,0 | 9,26 | 11,0 | 7,81 | 8,0 | 8,47 |
14,0 | 9,96 | 14,0 | 8,10 | 14,0 | 8,84 | 8,0 | 7,04 |
6,0 | 7,24 | 6,0 | 6,13 | 6,0 | 6,08 | 8,0 | 5,25 |
4,0 | 4,26 | 4,0 | 3,10 | 4,0 | 5,39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9,13 | 12,0 | 8,15 | 8,0 | 5,56 |
7,0 | 4,82 | 7,0 | 7,26 | 7,0 | 6,42 | 8,0 | 7,91 |
5,0 | 5,68 | 5,0 | 4,74 | 5,0 | 5,73 | 8,0 | 6,89 |
Za vse štiri nabore velja med drugim:[1]
značilnost | vrednost |
---|---|
povprečje po osi x | 9 (točno) |
varianca po osi x | 11 (točno) |
povprečje po osi y | 7,50 (na 2 decimalni mesti točno) |
varianca po osi y | 4,122 ali 4,127 (na 3 decimalna mesta točno) |
korelacija med x in y | 0,816 (na 3 decimalna mesta točno) |
linearna regresija | (na 2 oz. 3 decimalna mesta točno) |
Z grafikonov je že na prvi pogled očitna razlika med nabori. Prvi (levo zgoraj) ima približno normalno porazdelitev in jasno korelacijo med spremenljivkama. Drugi (zgoraj desno) ni porazdeljen normalno; opazna je povezava med spremenljivkama, vendar ta ni linearna, zato je vrednost Pearsonovega koeficienta korelacije nerelevantna. Tretji nabor (levo spodaj) je porazdeljen linearno, vendar z drugačno regresijsko premico, ki jo en osamelec premakne na »pravo« vrednost in zniža koeficient korelacije z 1 na 0,816. Nasprotno je pri zadnjem naboru (desno spodaj), kjer en osamelec zadošča za visok koeficient korelacije.
Anscombeov kvartet je sestavil britanski statistik Francis Anscombe za ponazoritev, kako pomembno je podatke preučiti tudi grafično, saj je lahko rezultat osnovnih statističnih metod sam po sebi zavajajoč oz. ne pove dovolj o preučevanem pojavu. Objavljen je bil leta 1973 v reviji American Statistician.[1] Še danes ga pogosto uporabljajo kot zgled pisci učbenikov statistike.[2][3][4][5]