Con la partecipazione della più celebre coppia di Hollywood in veste di mascotte.

venerdì 3 aprile 2015

E' possibile dimostrare la predisposizione genetica di qualsiasi cosa?

DNA
FUSILLO
Malattie, certo, ma anche celiachia, epilessia, obesità, autismo, omosessualità, tossicodipendenza, talento artistico, tendenza a tradire il coniuge, a diventare serial killer... Ogni giorno troviamo alla ribalta su giornali e agenzie un nuovo gruppo di ricercatori, con la dimostrazione dell'origine genetica di questo e di quello... Anche delle cose più strampalate! Altrettanto spesso, però, avviene che nuovi studi non confermino i risultati dei precedenti, cosicché moltissime di queste presunte scoperte restano incerte. Come mai? Fino a che punto ha senso esaminare correlazioni tra le caratteristiche genetiche (o di altro tipo) di un dato gruppo di persone? Può qualche considerazione di matematica far luce sulla questione? In questo articolo giocheremo a costruire un modello matematico in grado di rappresentare la ricerca di caratteristiche comuni all'interno di un dato insieme di individui. Arriveremo a conclusioni sorprendenti e paradossali. Meno male che è solo un gioco! Ma... lo è?

La familiarità di alcune caratteristiche fisiche e della predisposizione a contrarre certe malattie sono sostanzialmente dei dati di fatto. Ma possiamo davvero dar retta a chi fa compilare un questionario a un certo numero di persone e conclude che cose come la predisposizione a tradire il coniuge o la predilezione per il colore blu hanno origine genetica? 

Proviamo a costruire un modello matematico della situazione. Ciascun individuo del campione sotto studio può essere rappresentato da una "stringa" alfanumerica, ovvero una sequenza di segni o simboli, ciascuno in una posizione ben precisa. Due individui avranno una caratteristica comune se presenteranno lo stesso simbolo nella stessa posizione. Partiamo però, dall'ipotesi di lavoro che in ogni posizione della stringa possa comparire uno qualsiasi di m caratteri possibili con ugual probabilità degli altri: stiamo cioè esaminando un campione di individui perfettamente casuale. Nel più semplice dei casi sarà m=2, cioè Vero o Falso, rispetto a ogni specifica caratteristica associata a una specifica posizione. Indichiamo con n la dimensione del campione (ovvero il numero di individui considerati) e con N la lunghezza della stringa (ovvero il numero di caratteristiche analizzate).

E ora ecco il mio fantastico teorema! Non essendo un esperto di statistica, non posso escludere che in realtà si tratti di un caso particolare di un risultato ben noto, o addirittura banale, ma, se anche fosse, questo non sminuisce minimamente la mia soddisfazione per aver intuito questa proprietà ed esser poi riuscito a dimostrarla.


TEOREMA. Siano date n stringhe ordinate, ciascuna formata da N caratteri, disposti in N posizioni numerate, ognuno dei quali può assumere m valori distinti. Fissato n, la probabilità che si riscontri una correlazione, ovvero che vi sia almeno una posizione in cui tutte le n stringhe assumono il medesimo carattere, tende a 1 (cioè all'evento certo) al crescere di N. Viceversa, fissato N, tale probabilità tende a 0 al crescere di n. 

Poiché non tutti avranno la pazienza di seguire la dimostrazione del teorema, o forse non ricorderanno i concetti matematici necessari per farlo, riporto la dimostrazione in appendice, per chi è interessato, alla fine del post. Amici matematici, statistici, ecc... aspetto le vostre critiche, confutazioni, ecc... Ora però vorrei commentare il risultato. Molto semplicisticamente, se ne potrebbe trarre le seguenti conseguenze:


COROLLARIO. Dato un gruppo di qualsivoglia individui, si può essere pressoché certi di trovare una caratteristica che li accomuna, pur di prendere in considerazione un numero sufficientemente grande di caratteristiche. In particolare, dato un gruppo di individui accomunati da qualcosa, si può essere pressoché certi di trovare anche una caratteristica genetica che li accomuna, pur di prendere in considerazione un numero sufficientemente grande di caratteristiche genetiche.


Questo significa che è possibile dimostrare la predisposizione genetica di qualsiasi cosa? Beh, andiamoci piano. Si può davvero far tendere N all'infinito, ovvero aumentare a piacere il numero delle caratteristiche genetiche prese in esame? E l'ipotesi che gli m caratteri siano equiprobabili è realistica? Certo, è chiaro che non tutto quel che dicono gli studi statistici sull'origine genetica di questo e di quello va preso per oro colato. Ma se n (cioè il numero di soggetti sotto studio) è molto grande, con il che la correlazione è di per sé improbabile, se invece si verifica, questo fatto qualcosa dovrà significare. 


Quel che è certo è che, in base a questo teorema, dobbiamo esser cauti: se uno studio prende in esame un campione umano molto ampio e si focalizza su alcune caratteristiche genetiche ben precise, e trova una correlazione, si può essere fiduciosi sulla fondatezza delle sue conclusioni. Se invece prende in esame un campione umano numericamente esiguo, e/o scandaglia a tappeto l'intero genoma umano, allora probabilmente sarà meglio non fidarsi troppo delle sue conclusioni! Ricordate: non tutti gli scienziati sanno sempre quello che fanno!


APPENDICE: LA DIMOSTRAZIONE DEL TEOREMA.


Per cominciare, consideriamo il caso in cui su hanno solo N=1 caratteri, quindi una sola posizione. Ogni stringa è quindi formata da un solo carattere, che può assumere m valori diversi, e poiché le stringhe sono n, si hanno mn configurazioni diverse. Se invece N=2, si avranno m2n configurazioni diverse. Infatti a ciascuna delle mn configurazioni corrispondenti al primo carattere può essere associata una qualsiasi delle mn configurazioni corrispondenti al secondo carattere, e (mn)2=m2n. Similmente si riconosce che in generale le configurazioni possibili sono mNn.


E' piuttosto facile verificare che, per n fissato, al crescere di N la probabilità di riscontrare una correlazione aumenta. Infatti, se indichiamo con fN il numero di casi favorevoli (ovvero di configurazioni in cui c'è una correlazione), e con fN-1 il numero di casi favorevoli che si riscontra limitandosi a considerare le prime N-1 posizioni, è chiaro che a ogni caso favorevole di fN-1 corrispondono mn casi favorevoli di fN. Per completare fN bisogna poi aggiungere i casi favorevoli che si riscontrano precisamente nella N-esima posizione, che quindi sono esattamente uno per ciascuno di quelli sfavorevoli per tutte le posizioni precedenti, cioè m(N-1)n-fN-1. In pratica, quindi, si ha:


f= fN-1 mn  +  A


avendo indicato con A=m(N-1)n - fN-1 >0. Dalla relazione precedente, dividendo per mNn, ovvero per il numero di tutti i casi possibili, si ottiene la seguente formula ricorsiva per la probabilità: 

pN = pN-1 + A/mNn

Pertanto è evidente che pN  >  pN-1, ovvero: la probabilità di trovare una correlazione in un dato gruppo di individui cresce al crescere del numero delle caratteristiche che vengono prese in esame, cosa abbastanza intuitiva.

Vediamo ora di ottenere una formula precisa per valutare la probabilità di una correlazione.


Nel caso N=1 le configurazioni favorevoli ovvero quelle in cui gli n caratteri sono tutti uguali tra loro, sono f1=m (tante quanti i caratteri stessi). 

Per N=2 tra le configurazioni favorevoli vanno contate tutte quelle associate ad una configurazione favorevole per il primo carattere, qualunque sia il secondo carattere: in tutto quindi mnm=mn+1 configurazioni. A queste vanno aggiunte le configurazioni in cui l'evento favorevole si registra nel secondo carattere e non nel primo, e queste sono precisamente m per ciascuna di quelle in cui non si è verificato per il primo carattere, ovvero in tutto m(mn-m)=mn+1-m2. Pertanto le configurazioni favorevoli in tutto sono:  f2=mn+1+mn+1-m2=2mn+1-m2

Per N=3 le favorevoli saranno tutte quelle per cui il caso favorevole si è verificato fino al secondo carattere, che sono mn(mn+1+mn-m), e tutte quelle per cui il caso favorevole si è verificato nel terzo carattere e non precedentemente, che sono m2n-mn+1-mn+m. Pertanto i casi favorevoli sono: f3=mn(mn+1+mn-m)+m2n-m^n+1-mn+m= 4m3n+1-6m2n+2+4mn+3-m4.

Proseguendo in questo modo, e riconoscendo la struttura della potenza di un binomio, si riconosce che in generale si ha:



fN=mNn-(mn-m)N

e, dividendo per mNn, di ottiene finalmente la formula non ricorsiva per la probabilità:



pN=1-(1-m1-n)N

Dalla formula precedente si evince che, per N fissato, al crescere di n il termine tra parentesi tende a 1, e quindi la probabilità di una correlazione tende a zero. Viceversa, fissato n, il termine tra parentesi è minore di 1, per cui al crescere di N la sua potenza tende a zero, e di conseguenza la probabilità tende a 1. Il teorema è dimostrato. CVD.

4 commenti:

  1. La genetica è una materia complessa, si serve della matematica,della statistica e della probabilità degli eventi; questo perchè l'origine di un carattere è quasi sempre multifattoriale. Hai scritto tutto bene e fatto un gioco ma..."sutor ne ultra crepidam...

    RispondiElimina
  2. E infatti io, da bravo ciabattino matematico, ho dimostrato un risultato matematico. Lì finiscono le mie certezze. Tutto il resto diciamo che è un gioco.

    RispondiElimina
  3. Bravo ,"noli miscere sacra profanis"...OK...

    RispondiElimina