3 La statistica

3. La statistica

3.1 l’analisi dei dati

Una volta raccolti i dati attraverso le procedure che abbiamo visto, occorre analizzarli per trasformarli in materiale utile a rispondere alle nostre domande di ricerca e a confermare o meno le ipotesi teoriche. Possiamo interpretare i dati da due diversi punti di vista, che possono essere integrati tra loro per svolgere una ricerca più completa:

  • qualitativo, cioè con l’obiettivo di ottenere quante più informazioni possibili su un determinato aspetto o argomento, senza avere la pretesa di avere grandi numeri oppure poter prevedere dei fenomeni attraverso formule matematiche. Il focus group, per esempio, è una procedura di raccolta di dati generalmente qualitativi;
  • quantitativo, quando i dati numerici che si raccolgono con un test possono essere elaborati attraverso una serie di procedure e analisi matematiche che consentono così di avere una conferma ripetibile di ipotesi di ricerca.

La statistica è la scienza che si occupa di analizzare dati relativi a fenomeni collettivi attraverso metodi matematici e grafici. Viene largamente usata in tutte le scienze, comprese le scienze umane; in psicologia prende il nome di psicometria.

La statistica può essere:

  • descrittiva, quando sintetizza i dati raccolti in numeri e fattori in grado di descrivere in modo chiaro e sintetico il campione analizzato;
  • inferenziale, quando viene usata per fare previsioni e valutazioni più elaborate.

  esperienze attive

Le indagini ISTAT L’ISTAT (Istituto Nazionale di Statistica) fornisce ai cittadini la possibilità di consultare banche dati che raccolgono informazioni su diversi aspetti della vita quotidiana.

Insieme ai tuoi compagni prova a cercare informazioni online sul sito Istat e potrete scoprire, per esempio, quanti bambini sono nati in Italia con i vostri nomi nell’ultimo anno.

 >> pagina 548 

3.2 CARATTERI

Nel condurre un’inchiesta o una ricerca, possiamo rilevare o misurare un insieme di caratteristiche di un oggetto, di un fenomeno o di una persona a seconda della situazione, ovvero dei caratteri. Per esempio, possiamo essere interessati a studiare come varia l’altezza nei ragazzi dei licei nel corso degli anni: in questo caso misuriamo il carattere “altezza” nei vari studenti. Oppure possiamo concentrarci su altri caratteri: colore degli occhi, titolo di studio dei genitori, rendimento scolastico e così via. È importante sottolineare come questi esempi di caratteri in realtà ci obbligano a trattarli in maniera differente tra di loro: l’altezza è un dato quantitativo numerico, il colore degli occhi è invece una qualità rilevabile ma che non possiamo misurare secondo una scala numerica, il titolo di studio dei genitori è un dato qualitativo che non ci consente delle misurazioni, seppure sia possibile definire un titolo superiore a un altro. Non possiamo certo sommare tra di loro i caratteri relativi al colore degli occhi, mentre possiamo farlo per l’altezza.

I caratteri, pertanto, possono essere:

  • qualitativi, quando non consentono misurazioni ma possono essere rilevati così come si presentano, senza definire quantità. Sono caratteri molto utilizzati in ricerca, soprattutto per aspetti anagrafici come il genere, lo stato civile, il titolo di studio e così via. Alcuni caratteri qualitativi sono ordinabili, possono essere cioè classificati secondo una gerarchia (maggiore-minore, inferiore-superiore);
  • quantitativi, ovvero quando possono essere misurabili. A loro volta possono essere continui, se sono ammessi i numeri decimali, oppure discontinui, quando i decimali sono impossibili: se, per esempio, ci riferiamo al numero di studenti di una classe, non esistono elementi “a metà”; gli studenti possono essere 25, non 25,72.

3.3 FREQUENZE

Una volta definiti i caratteri, è possibile studiare quante volte compaiono le diverse modalità di presentazione del carattere nel campione individuato.

esempio: vogliamo studiare il numero di interrogazioni di italiano in una classe. Una volta raccolti i dati del carattere “interrogazioni di italiano” risulta che su 25 studenti, 15 sono stati interrogati una volta, 6 studenti due volte e 4 alunni non hanno ancora alcun voto in italiano. Possiamo affermare che il carattere si presenta in 3 modalità (una sola interrogazione, due interrogazioni, nessuna interrogazione) e che queste modalità si ripetono più volte nella classe: in particolare la ripetizione (15, 6, 4) indica la frequenza, cioè il numero di volte in cui un valore di un carattere si ripete nelle rilevazioni.

Se dovessimo effettuare la stessa indagine anche in un’altra classe più numerosa, potremmo avere una situazione di questo tipo: su 30 studenti, 20 sono stati interrogati una volta, 6 hanno svolto due interrogazioni e 4 nessuna. Le frequenze sono quindi 20, 6 e 4: gli studenti con due interrogazioni e quelli che non sono ancora stati interrogati hanno la stessa frequenza di quelli della prima classe. Tuttavia non possiamo ignorare che le classi hanno un diverso numero di alunni (25 contro 30).

In questi casi si distingue tra:

  • frequenza assoluta, in cui si considera il valore della frequenza come numero assoluto, senza valutare il numero di alunni della classe;
  • frequenza relativa, quando si esprime un rapporto tra numero di ripetizioni del valore e numero di osservazioni, che in questo caso coincide con il numero di studenti. La frequenza relativa del nostro esempio riferita agli studenti con due interrogazioni, pertanto, sarà 6/25 per la prima classe e 6/30 per la seconda, ovvero 0,24 e 0,2. Per esprimere in percentuale questi valori è sufficiente moltiplicarli per 100: 24% e 20% sono le frequenze percentuali relative agli studenti che nelle due classi hanno sostenuto due interrogazioni di italiano.

Riassumendo, le frequenze sono utili per sintetizzare le modalità in cui un carattere si manifesta nel nostro campione, ma è importante ricordarsi che spesso è necessario “pesare” i dati in modo che esprimano al meglio la composizione del campione stesso.

 >> pagina 549 

3.4 DISTRIBUZIONI STATISTICHE

Ogni popolazione si caratterizza per un proprio modo di presentare un carattere al suo interno: la distribuzione statistica (o di frequenze) esprime, attraverso una rappresentazione, le modalità e le frequenze di espressione di un carattere.

 >> pagina 550 
Le tabelle

Le distribuzioni vengono generalmente sintetizzate in tabelle che mettono in evidenza in una colonna le modalità di presentazione del carattere e nell’altra colonna le relative frequenze. Ecco un esempio relativo allo studio degli strumenti utilizzati per la navigazione in Internet.


Strumento usato per la navigazione in Internet

Frequenza (%)

PC e notebook

63%

Smartphone

31%

Tablet e altri dispositivi

6%

Fonte: Ricerca condotta nel 2016 da We Are Social.


In alcuni casi le tabelle possono riportare un numero maggiore di colonne, fornendo così più informazioni: è il caso delle tabelle a doppia entrata, che sintetizzano la distribuzione di due o più caratteri. Ecco un esempio di una indagine sull’età in cui si inizia a fumare divisa per genere.


Uomini Donne Totale 

Prima dei 15 anni

17,9%

7,8%

13,8%

15-17 anni

45,8%

39%

43%

18-20 anni

23,9%

34,2%

21,1%

21-24 anni

4,5%

7,1%

5,5%

Dopo i 24 anni

6,8%

9,4%

7,4%

Non ricordano

1,1%

2,5%

9,2%

Fonte: Indagine Doxa 2016.


Per quanto si tratti di modalità semplici e riassuntive, è importante prestare la dovuta attenzione alla lettura delle tabelle, soprattutto quando sono presenti più colonne, così da evitare di analizzare il contenuto per riga anziché per colonna o viceversa.

I grafici
Un metodo di rappresentazione più immediato delle distribuzioni statistiche delle frequenze prevede l’utilizzo di una figura che sintetizzi in maniera simbolica e grafica i dati: un grafico o diagramma.

Esistono diversi tipi di grafici, che vengono scelti in base al tipo di dati da rappresentare. Quelli principali sono i seguenti.

  • Areogramma: le distribuzioni delle frequenze sono rappresentate in porzioni di spazio proporzionali al “peso” del proprio valore. Il più diffuso è il cosiddetto diagramma “a torta” ed è molto utile con la maggior parte dei tipi di caratteri.
  • Cartogramma: molto usato quando si vuole rappresentare la distribuzione territoriale di una variabile, prevede l’utilizzo di una mappa geografica nella quale vengono distinte le varie aree grazie a colori diversi o a simboli illustrati nella legenda riportata.
  • Istogramma: questo tipo di grafico utilizza il piano cartesiano e distribuisce i dati lungo due assi. Per la distribuzione delle frequenze, i valori percentuali vengono generalmente riportati su un asse, mentre sull’altro compaiono le modalità di variazione del carattere. Ogni valore è poi rappresentato attraverso una colonna. Viene anche definito grafico a colonne. Le altezze delle colonne pertanto definiscono le diverse percentuali: più è alta una colonna, più sarà elevata la frequenza. La larghezza delle colonne, invece, definisce quanto è varia quella modalità di presentazione del carattere: se per esempio abbiamo fasce d’età di diversa ampiezza, le colonne saranno di larghezze diverse.
  • Curva di Gauss: a volte la forma dell’istogramma può assumere un andamento caratteristico: con alcune serie di dati quantitativi continui, tracciando una linea che segue i vertici delle colonne del grafico si ottiene una curva particolare. Tale curva, detta gaussiana dal nome del suo scopritore Carl F. Gauss, ha un tipico andamento “a campana”, con un apice centrale e due branche opposte (una iniziale che sale e una che scende dopo l’apice), che terminano nelle relative code. Le parti terminali si avvicinano all’asse orizzontale senza mai toccarlo. Tracciando inoltre una linea verticale immaginaria dall’apice, è evidente la simmetria delle due aree, perfettamente speculari. La curva di Gauss rappresenta graficamente una distribuzione di frequenze nella quale i valori centrali presentano la maggior parte delle frequenze, mentre verso le code troviamo le modalità meno frequenti nel campione. Tale rappresentazione è anche definita “normale” ed è molto frequente nei fenomeni naturali: considerando il peso o l’altezza delle persone, troveremo la maggior frequenza di soggetti con un peso intermedio, ovvero nelle parti centrali della gaussiana, mentre soggetti molto alti oppure obesi rappresenteranno la minoranza.

 >> pagina 552 

3.5 INDICI STATISTICI

È possibile arricchire la lettura dei dati ricavati da una ricerca con alcuni valori particolarmente utili per completare il quadro del fenomeno analizzato: gli indici statistici, capaci di esprimere in modo sintetico ed efficace le caratteristiche di una distribuzione statistica.

Gli indici statistici descrittivi più utilizzati sono:

  • gli indici di tendenza centrale (moda, media e mediana), utili per descrivere la parte centrale della distribuzione;
  • gli indici di dispersione (range, varianza e deviazione standard), realizzati per comprendere come i valori si posizionano rispetto al centro (dispersione).

Indici di tendenza centrale
La moda rappresenta il valore che compare il maggior numero di volte, quello più rappresentato: in altre parole è il valore della variabile con il più alto tasso di frequenza.

Non necessariamente la moda assume un unico valore: se due o più valori sono i più rappresentati nella stessa misura, si parla di distribuzione polimodale. Si tratta dell’unico indice utilizzabile per descrivere caratteri qualitativi, mentre per quelli quantitativi si utilizzano anche media e mediana.

esempio: se in una scuola il professore di educazione fisica chiede agli studenti delle classi prime quali sport praticano regolarmente e ottiene le seguenti risposte:

  • 45 studenti calcio;
  • 45 studenti basket;
  • 15 studenti nuoto;
  • 11 studenti pallavolo;
  • 10 studenti ginnastica artistica;
  • 8 studenti tennis.

Ciò significa che basket e calcio sono i due sport più praticati. Si tratta, quindi, di una distribuzione polimodale, dove la moda è rappresentata dai due sport citati.

La media, nel caso di variabili quantitative, è un prezioso indice statistico che si ottiene sommando tutti i valori della distribuzione e dividendo la somma per il numero dei valori stessi:


m = x1 + x2 + ... + xn/n


esempio: se la professoressa di italiano vuole valutare l’andamento di uno studente prima del colloquio con i genitori, calcolerà la media dei voti ottenuti fino a quel momento. Ipotizziamo che lo studente abbia preso 7 in un tema, 5 in un’interrogazione e 8 in una seconda interrogazione. Alla professoressa sarà sufficiente sommare i voti e dividerli per il numero di votazioni (3): (7 + 6 + 8)/ 3 = 7. La media in italiano dello studente è appunto 7.

La mediana rappresenta il punto centrale della distribuzione: con una variabile quantitativa possiamo dividere la distribuzione in due parti uguali, una con valori inferiori e una con valori superiori. Il valore centrale che consente questa suddivisione è appunto la mediana ed è calcolabile matematicamente con la seguente formula: (n + 1)/2. In altre parole, la mediana è il valore che si ottiene aumentando di un’unità la popolazione e dividendola per due: il valore espresso in quella posizione è l’elemento mediano.

esempio: consideriamo il caso di un professore che vuole valutare il rendimento scolastico della classe e rileva i seguenti voti:

  • 10 studenti hanno una media del 6;
  • 8 una media del 7;
  • 5 una media del 5;
  • 2 una media dell’8.

La media della classe è 6,28.

Per calcolare la mediana, invece, dovremo mettere in ordine crescente le rilevazioni e identificare il valore centrale in questo modo:


5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 8 8


Se la variabile si distribuisce normalmente, la media corrisponderà anche al valore più frequente (moda) e a quello che occupa il posto centrale se i dati vengono ordinati in modo crescente (mediana).

È buona norma studiare e confrontare sempre media, moda e mediana, così da comprendere se un indice ci stia fuorviando nella lettura del nostro campione.

Un esempio molto evidente è legato al reddito annuo medio degli italiani: in molte rilevazioni di questo tipo la mediana è inferiore alla media. Questo si verifica perché il reddito di una piccola parte del campione è molto superiore a quello della maggior parte degli italiani: questo basta a tenere la media elevata. Se però analizzassimo solo la media, perderemmo alcune preziose informazioni, come per esempio il fatto che, pur essendo il reddito annuo medio nel 2017 in Italia di 20 690 euro, ben il 45% guadagna meno di 15 000 euro, ben al di sotto della media nazionale.

 >> pagina 554 
Indici di dispersione
Per capire quanto è ampio e variabile un campione, non bastano gli indici di tendenza centrale descritti finora, ma occorre valutare anche gli indici di dispersione, dove con dispersione si intende quanto i valori sono lontani tra loro. Tali indici sono il range, la varianza e la deviazione standard.

All’interno del campione il range equivale alla differenza tra il valore massimo e il valore minimo della distribuzione, ovvero il campo di variazione. Più è ampio e più la media aritmetica da sola sarà poco efficace nel descrivere adeguatamente il campione.



Per spiegare il concetto di deviazione standard è necessario introdurre prima il concetto di varianza. La formula aritmetica per il calcolo della varianza è complessa e prevede che si eseguano alcuni passaggi:

  • calcolare la differenza di ogni valore del campione dalla media aritmetica del campione stesso;
  • elevare al quadrato i valori ottenuti e sommarli tra loro;
  • dividere la somma per il numero degli elementi nel campione.

Ovvero:


VAR (x) = (x1 - m)2 + (x2 - m)2 + ... + (xn - m)2/n

Dove x1, x2, , xn sono i valori che compongono il campione, m è la loro media, e n è il numero totale degli elementi del campione.


Semplificando, la varianza esprime quanto la media è precisa: se essa è alta, la forbice dei valori del nostro campione è ampia e ci sono molti valori che si allontanano dalla media; se invece è bassa, la maggior parte dei valori saranno vicini alla media.

Una volta ottenuta la varianza è possibile calcolare la deviazione standard, l’indicatore di dispersione più utilizzato. Essa è la radice quadrata della varianza:


DEV ST(x) = √VAR(x)


esempio: i due insegnanti di matematica, Francesca e Camilla, vogliono confrontare i risultati dei loro allievi in due classi diverse. Le insegnanti possono sottoporre alle due classi le stesse prove, valutarle e poi confrontare i risultati. Immaginiamo ora che per fare questo confronto le due insegnanti decidano di basarsi sulla media e scoprano, alla fine, che in entrambe le classi la media è 6. Giungono perciò a concludere che le prestazioni delle due classi sono state equivalenti. Nella classe di Francesca, tuttavia, metà degli alunni hanno preso 3 e metà 9. Nella classe di Camilla invece tutti hanno preso 6. Come è facile calcolare, la media è sempre 6 ma le situazioni sono molto diverse. Nella classe di Francesca i risultati degli allievi sono molto eterogenei: alcuni hanno voti molto alti, altri molto bassi. Tutti i risultati si discostano profondamente dalla media, per cui la deviazione standard è molto alta. Nella classe di Camilla, invece, i risultati sono omogenei, nessun risultato si discosta dalla media e pertanto la deviazione standard è pari a zero. Perciò, anche se le medie sono uguali, le deviazioni standard sono molto diverse. In effetti, calcolare la deviazione standard serve proprio a capire quanto i risultati si discostino dalla media. Si tratta di un’informazione molto utile perché è evidente che le due classi non possono essere gestite allo stesso modo: la classe di Francesca è divisa in due e necessiterà di un lavoro più complesso di quello della classe di Camilla dove, invece, il gruppo è omogeneo.

 >> pagina 555 
Confrontare le distribuzioni
Proviamo a fare un passo avanti: immaginiamo che Francesca, la nostra insegnante di matematica, voglia confrontare i risultati della sua classe in matematica con quelli ottenuti sempre dalla sua classe ma in scienze. Questa volta il confronto è un po’ più complesso. Gli studenti sono sempre gli stessi ma le materie sono diverse e naturalmente cambiano anche le prove sottoposte dalle insegnanti. Tuttavia, quello che Francesca potrebbe chiedersi è questo: “Esiste un rapporto fra le capacità dei miei allievi in matematica e quelle in scienze? I risultati delle due prove variano insieme o, invece, non esiste nessuna relazione? E se facessi lo stesso confronto con le prove di italiano la relazione sarebbe la stessa o cambierebbe? Gli studenti bravi in matematica vanno bene anche in scienze o in italiano?”.

Per trovare risposta a questi interrogativi dobbiamo confrontare le distribuzioni dei voti delle due materie (matematica e scienze) all’interno dello stesso campione (la stessa classe). Potremmo affidarci a una semplice osservazione grossolana per capire l’andamento generale e valutare cioè se a buoni voti in una materia corrispondono buoni voti nell’altra. Tuttavia, questo non ci consente di stimare in modo accurato e preciso se esista effettivamente una relazione; in particolare, nel caso di un campione molto ampio, sarebbe quantomeno difficile fare una stima accurata. Si tratta di trovare un modo scientificamente affidabile per capire se le due variabili (i voti di matematica e i voti di scienze) seguono una distribuzione talmente simile da risultare in qualche misura collegate tra loro. Esistono alcune procedure statistiche che vengono definite bivariate, perché consentono di analizzare l’andamento di due variabili differenti in una stessa popolazione, come nel nostro esempio.

Una delle possibili procedure è calcolare la covarianza, che si esprime con la seguente formula:


COV(x,y) = (x1 - mx )(y- my ) + (x2 - mx)(y2 - my) + ... + (x- mx)(yn - my)/n

Dove x1, x2, , xn sono i valori che compongono la prima serie di dati (i voti in matematica), mx è la loro media; y1, y2, , yn sono i valori che compongono la seconda serie di dati (i voti in scienze), my è la loro media, e n è il numero totale degli elementi del campione (gli studenti della classe).


La covarianza può essere positiva (superiore a 0), negativa (inferiore a 0) o nulla (uguale a 0).

Da un punto di vista qualitativo una covarianza positiva può indicare che le due serie di dati seguono un andamento simile: nel nostro esempio, questo significa che gli studenti che vanno bene in matematica tendono ad avere buoni voti anche in scienze. In altri termini, una covarianza positiva indica che le due serie di dati hanno un comportamento concorde. Viceversa, una covarianza negativa indica che i dati hanno comportamenti discordi: nel nostro caso, gli studenti con voti più alti in matematica hanno voti bassi in scienze. In questo caso si parla di correlazione inversa o anticorrelazione. Se invece la covarianza risulta uguale a zero, questo indica che i dati non sono in relazione diretta tra loro, ovvero il rendimento in matematica e quello in scienze sono sostanzialmente indipendenti.

Per valutare la covarianza da un punto di vista quantitativo è utile introdurre un’altra grandezza: l’indice di correlazione di Pearson r.

Facciamo prima un passo indietro. Il valore della covarianza dipende dal range di riferimento, dal campione da cui è stato calcolato, dall’unità di misura. Potremmo, per esempio, ottenere come covarianza 127. Ma cosa significa 127? Indica che la covarianza c’è, non ha valore 0, ma quanto è forte? Quanto significativo è il legame tra la variabile x e la variabile y? L’indice di correlazione serve a rispondere proprio a questa domanda: calcolare il valore di r è utile in quanto esso indica con precisione il livello di relazione tra due fenomeni.

Per calcolarlo è necessario applicare la seguente formula:


r= COV(x,y)/√VAR(x)VAR(y)

Dove COV (x, y) indica la covarianza tra la variabile x e la variabile y, VAR (x) sta per la varianza della variabile x, VAR (y) sta per la varianza della variabile y.


L’indice di correlazione r può assumere valori compresi tra -1 e 1. Se la correlazione è uguale a 0, significa che le due variabili non sono collegate tra di loro e il loro andamento sarà indipendente. Più il valore di r si avvicina a 1, più il legame sarà forte e le variabili saranno fortemente associate: per esempio, se la covarianza di 127 ha come codice di correlazione 0,8, questo vuol dire che il legame tra le due serie di dati è significativo; se invece il valore è di 0,2, cioè più vicino a 0, questo indica che il legame non è così forte.

Diversamente, valori negativi di r indicano l’esistenza di una correlazione inversa, che tanto è più forte più ci si avvicina a -1.

Possiamo rappresentare graficamente la correlazione avvalendoci di un piano cartesiano in cui su un asse riportiamo i valori di una variabile e sull’altro quelli dell’altra variabile, per esempio i voti di scienze sull’asse orizzontale e i voti di matematica su quello verticale. Questo tipo di diagramma, detto diagramma di dispersione, consente di rappresentare il tipo di relazione intercorrente tra le due variabili.

Le figure A, B e C mostrano tre possibili casi. Riprendiamo il nostro esempio: i colleghi di Francesca si sono incuriositi alla sua ricerca e decidono di calcolare l’indice di correlazione anche all’interno delle loro classi. Nelle tre immagini, corrispondenti a tre classi, ogni quadratino blu indica i voti di uno studente in matematica e scienze.

Nella figura A i dati tendono a disporsi intorno a una retta che parte dall’origine (in basso a sinistra) e punta in alto a destra. La pendenza della retta è positiva: nella prima classe i voti alti in matematica si accompagnano a voti alti in scienze e l’indice di correlazione è positivo.

Nella figura B i dati sono ancora disposti intorno a una retta ma con pendenza opposta. Nella seconda classe voti alti in matematica corrispondono a voti bassi in scienze e viceversa, l’indice di correlazione è negativo.

Nella figura C, che rappresenta la terza classe, i dati sono sparsi: in questo caso non c’è correlazione tra i voti di matematica e i voti di scienze e l’indice di correlazione è molto vicino a 0.

Infine, è importante evidenziare come l’indice r di correlazione non sintetizzi un rapporto causa-effetto, ma si limiti a “fotografare” un andamento comune delle due distribuzioni: non sarà l’aumento del rendimento in scienze a provocare un aumento dei voti di matematica in caso di correlazione positiva, o viceversa. O meglio, non possiamo escludere questa ipotesi, ma nemmeno confermarla. Per sbilanciarsi in quel senso occorreranno ulteriori analisi statistiche più avanzate.

 >> pagina 558 

3.6 INTERPRETARE I RISULTATI STATISTICI

La statistica è una risorsa preziosa per la ricerca, ma non dobbiamo dimenticare che si tratta di calcoli che, per quanto precisi ed evoluti, servono a dare una rappresentazione della realtà. Non significa cioè che esprimono una verità assoluta, ma che, in maniera comunque molto affidabile, possono fornire un quadro molto vicino alla realtà che ci circonda. Sono procedure in grado di evitare di indagare ogni elemento della popolazione, ma che consentono di testare campioni più piccoli con un margine di errore il più contenuto possibile. Oltre a utilizzare tecniche e calcoli più complessi di quelli visti finora, in grado di ridurre sensibilmente questo errore, non esiste alcuna procedura che possa sostituire la bontà di un adeguato ragionamento sui risultati ottenuti. Ciascuna analisi statistica produce, infatti, dei risultati che devono essere interpretati alla luce delle teorie e delle conoscenze: i dati possono confermarle, smentirle o aprire la strada a nuove ricerche, ma, soprattutto nelle scienze umane, occorre ricordare che, ad oggi, non esistono ancora procedure che possano riprodurre la complessità dell’uomo e della sua realtà.

Una buona ricerca in ambito psicologico, per esempio, dovrebbe sempre integrare aspetti quantitativi e qualitativi, oggettivi e soggettivi: ogni questionario è inevitabilmente una sintesi, una riduzione dell’enorme numero di variabili che possono determinare chi siamo, che cosa sentiamo e perché agiamo in un certo modo. Assolutizzare un indice, un dato o un calcolo e pretendere che da solo sia in grado di spiegare la realtà produrrebbe ricerche e teorie insensate: se generalizzassimo la media a tutta la popolazione, per esempio, non avremmo un quadro chiaro e realistico. Basti pensare al rendimento scolastico: se, per ipotesi, l’andamento medio in Italia di matematica è sul 6, non significa certo che ogni studente italiano ha la media del 6. Può apparire scontato, ma è bene ricordarsi di questi aspetti in ogni ricerca.

CITTADINI RESPONSABILI

La statistica e le disuguaglianze

Nel gennaio 2018 l’Oxfam (Oxford Committee for Famine Relief), confederazione di organizzazioni non profit che si dedicano allo studio e all’implementazione di progetti e attività volte a ridurre la povertà globale, ha rilasciato i risultati di un’indagine secondo la quale nell’anno 2017 l’1% della popolazione mondiale detiene più ricchezza del restante 99%. Inoltre, questo rapporto Oxfam evidenzia come la disuguaglianza nella distribuzione mondiale della ricchezza segua un trend in crescita, dal momento che 7 cittadini su 10 vivono in un paese in cui la disuguaglianza è aumentata negli ultimi 30 anni.

 >> pagina 559 

  INVITO ALLA LETTURA 
TRILUSSA E LA STATISTICA

Il poeta e scrittore satirico Carlo Alberto Camillo Mariano Salustri (1871-1950), conosciuto come Trilussa, descriveva così, ironicamente e in dialetto romanesco, la statistica.


Sai ched’è la statistica? È ’na cosa

che serve pe fa’ un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che spósa.


Ma pe’ me la statistica curiosa

è dove c’entra la percentuale,

pe’ via che lì la media è sempre eguale

puro co’ la persona bisognosa.


Me spiego: da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:


e se nun entra nelle spese tue

t’entra ne la statistica lo stesso

perché c’è un antro che ne magna due.

per lo studio

1. Alcuni ragazzi intervistati hanno indicato i loro generi musicali preferiti: rock, indie, trap, rock, pop, indie, rock, indie, trap, trap, rock, trap, hip-hop, pop, rock, trap, trap, pop. Calcola la frequenza relativa e quella percentuale di chi preferisce il genere trap.

2. Durante la lezione di educazione fisica si misurano i tempi in una prova di corsa, ottenendo i seguenti dati:


Tempo

10,9

11,1

11,2

11,4

11,6

11,7

12

Studenti

1

4

6

8

6

4

1


Rappresenta con un grafico la distribuzione: che tipo di curva ottieni?


  Per discutere INSIEME 

1. Dividetevi in piccoli gruppi e raccogliete un carattere riferito agli studenti della vostra classe (statura, peso o altro a scelta); costruite un grafico appropriato dei dati raccolti e determinate la media, la mediana e la moda dei dati. Indicate anche una misura di dispersione della distribuzione.

2. Raccogliete in classe le informazioni relative al numero di amici che ciascuno ha su Facebook (se non si ha un account indicare 0), scegliete il tipo di grafico più adatto a rappresentare la distribuzione delle frequenze e calcolate gli indici statistici che ritenete adeguati a descrivere il campione della classe.

Dialoghi nelle Scienze umane - volume 2
Dialoghi nelle Scienze umane - volume 2
Antropologia, Sociologia, Psicologia – Secondo biennio del liceo delle Scienze umane