42 Un data base a fini conoscitivi per il GAB

(Ultima modificazione 20140310 alle 15:19)

Facciamo seguito al post precedente per accennare ad un uso statistico dell’ Analisi Transazionale, al fine di ottenere dati concreti sui campioni (soggetti, clienti, pazienti) esaminati: 

Al fine di ottenere nell’illustrazione una maggiore efficacia, procediamo passo dopo passo.
Supponiamo di avere il software X che analizza 400 pazienti, dei quali sappiamo alcune cose, ma non tutte queste verranno comunicate al software X. Esempio dal testo precedente:

Id. GA GN BS BC(PP) BAS BAR A Nato Sesso Copione Categ.
#25 30 70 50 30 10 10 80 1950 F (1) 14  
#26 35 65  
 
#400 49 51  

 

Decidiamo di comunicare al software, ad esempio, il GAB, l’età, il gioco critico (che genera i problemi), la posizione di vita (opportunamente codificata), il copione (opportunamente codificato), la professione del padre e tutto quel che si vuole: tali variabili saranno state trasformate (tutte) in quantitative, con particolari accorgimenti. Supponiamo pure di conoscere il luogo di nascita dei vari soggetti e che questo dato, invece, NON venga comunicato al software X.

 Diciamo al software X di suddividere i 400 pazienti in categorie e che queste debbano essere al massimo 20 ( di solito, radice di 400). Il computer si mette al lavoro (vedremo meglio sotto in Cenni sull’Algoritmo).

Suddividerà pertanto i 400 soggetti in un numero massimo di 20 categorie: supponiamo che ne trovi quindici. Il software scriverà sull’ultima colonna (Categ.) la categoria assegnata, per ognuno dei 400 soggetti. 

Id.

GA

GN

BS

BC(PP)

BAS

BAR

A

Nato

Sesso

Copione

Categ.

#25

30

70

50

30

10

10

80

1950

F (1)

14

15

#26

35

65

3

 

#400

49

51

2

 

Ora supponiamo di aggiungere, ad ognuno dei 400 soggetti, il Codice di Avviamento Postale :

Id.

Categ.

Cap

#25

15

31046

#26

3

70415

#400

2

42425

 A questo punto si potrebbe investigare se ci siano delle correlazioni: ad esempio, se in misura statisticamente rilevante avessimo scoperto che la categoria 8 è popolata da soggetti nati in Toscana, avremmo scoperto che il GAB standardizzato della Toscana ha un profilo particolare. In buona sostanza, se il software X è cieco su certi argomenti, eventuali correlazioni su tali argomenti hanno un altissimo grado di attendibilità. 

Si può anche creare un profilo medio o mediano o modale per la regione Toscana e inoltre calcolare le deviazioni standard relative (SQM): sarà facile attribuire delle etichette di riconoscimento a nuovi soggetti oppure, ovviamente, rilanciare il software X con un nuovo elenco (o con lo stesso elenco ampliato) di soggetti.

Non comparendo nomi né altri elementi d’identificazione, è chiaro che più professionisti possono unire i loro archivi per mettere in comune i dati al fine di una migliore analisi.  

 Cenni sull’Algoritmo

L’ algoritmo esiste da vent’anni e funziona perfettamente. Il limite dei soggetti inseribili è 65536 e il numero delle colonne disponibili è 256: in realtà questi sono i limiti di un foglio Microsoft Excel che serve da contenitore.
L’algoritmo principalmente utilizzato e l’algoritmo di Teuvo Kohonen (Self-organizing Map): Algoritmo Genetico Non Parametrico.

Supponiamo ora che le dimensioni siano tre e che pure i soggetti siano tre: Il soggetto primo (2,2,2) sarà molto più vicino al soggetto terzo (2,4,6) che non al soggetto secondo (14,25,8). In tale ipotesi, se avessi richiesto non più di due categorie, avrei  certamente il primo soggetto e il terzo soggetto in una categoria e il secondo soggetto in un’altra categoria. Le due categorie saranno numerate col numero 1 e col numero 2 ma non è dato sapere (e in realtà non importa assolutamente) quale sarà la categoria 1 e quale sarà la categoria 2.

 In questo caso appena illustrato  la risposta è banale e non serve nessun software, tuttavia…

Supponete ora di avere 400 soggetti (oppure 6000), ognuno con 32 valori diversi per 32 variabili discrete diverse, per il quale insieme sia stata chiesta la divisione in non più di 20 categorie.
Si tratta di uno spazio a venti dimensioni, che per il calcolatore non è un problema ma per noi umani invece lo è.

Il software X, con una macchina non banale, offre una soluzione accettabile dopo  un’ora circa nell’ipotesi di volere un risultato molto accurato. Può variare da mezz’ora a tre ore, a seconda delle variabili.

 Quasi mai, nel mondo reale, il software riesce a completare il lavoro al cento per cento: rimangono infatti (ad esempio) il soggetto #35 e il soggetto #41 che si disturbano a vicenda: quando inserisco il #35 nella categoria 15, gli spazi vettoriali cambiano e a quel punto il #41 si trova perfettamente equidistante (come vettorialità) dalla categoria 15 e dalla categoria 27.

Il computer prova ora a spostare il #35 nella categoria 27 ma la nuova vettorialità ripete il problema: questo succede di solito alla fine del processo genetico, quando dei soggetti potrebbero essere inseriti altrettanto bene in più categorie. Troncando l’ottimizzazione, ci troveremo coi nostri due ultimi soggetti in due categorie arbitrarie, ma queste saranno equidistanti tra loro dai soggetti ancora in predicato e quindi, trattandosi di soggetti esattamente nei territori di confine, possono essere attribuiti a qualsiasi categoria tra le confinanti. 

Lascia un commento

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...