Home Hardware Networking Programmazione Software Domanda Sistemi
Conoscenza Informatica >> Programmazione >> Computer Programming Languages >> .

Introduzione alle tecniche di classificazione in Bioinformatica

Bioinformatica è l'applicazione di tecniche informatiche nel campo della biologia . Gli scopi della bioinformatica sono di assistere gli scienziati della vita nell'organizzazione dati biologici e di sviluppare gli strumenti informatici necessari per la scoperta di nuove ipotesi scientifiche . Tecniche di classificazione , noto anche come tecniche di clustering , sono importanti in bioinformatica in quanto consentono la separazione dei vari dati biologici con attributi simili in gruppi distinti . Storia

La dimensione dei dati biologici è cresciuto in modo esponenziale , con il raddoppio delle informazioni osservato ogni 15 mesi. Come risultato , l'informatica e le tecniche informatiche vengono utilizzate intensivamente nella elaborazione e gestione dei dati biologici . Il concetto fondamentale in bioinformatica è che i dati più biologiche condividono caratteristiche simili e può essere suddivisa in cluster . Per esempio , i geni di un organismo possono essere classificati in gruppi funzionali o loro vie metaboliche . Le proteine ​​possono anche essere classificati in base ai geni che sono espressi . Tecniche di classificazione o raggruppamento sono necessarie nella gestione di enormi database di dati genetici e biologici . Ci sono due tipi principali di tecniche di classificazione in bioinformatica : . Delle tecniche di classificazione gerarchica e il K -Means
classificazione gerarchica

La tecnica di classificazione gerarchica organizza i dati biologici in un struttura di dati ad albero. I geni sono espressi come nodi dell'albero , mentre ogni sotto- albero di nodi rappresenta un cluster o raggruppamento di geni . L'albero può essere sia radicato o senza radici . Un albero radicato è definito come un albero con un solo nodo superiore . Al contrario, un albero senza radice ha più nodi più in alto .
K - Means Classificazione

Una tecnica di classificazione più complessa è la classificazione K -Means , che tenta di trovare una serie di centri che riducono al minimo la distorsione errore quadratico tra i set di dati in uno spazio multidimensionale . Un cluster è classificato raggruppando i punti relativi al loro centro più vicino . L'algoritmo di Lloyd è spesso usato nella tecnica di classificazione K- Means . In questo algoritmo , i punti dati sono disposti in modo casuale in gruppi separati, che vengono successivamente ottimizzate per produrre le minime distorsioni errore quadratico locali.
Importanza

Dopo proteine ​​correlate sono stati classificati in gruppi simili , gli scienziati della vita possono utilizzare queste informazioni per predire le proprietà di alcune proteine ​​meno studiate . Ciò è applicabile ad altri aspetti della struttura delle proteine ​​anche . Un altro uso di tecniche di classificazione è quello di risolvere il problema di determinare l'albero evolutivo di alcuni organismi in base alle loro sequenze genetiche . L'albero evolutivo è costruito dalla sequenza del DNA dell'organismo utilizzando gerarchico o k- Means tecniche di classificazione .
Considerazioni

tecnica di classificazione gerarchica è relativamente semplice ed efficace modo di clustering di dati biologici . Al contrario, nessun algoritmo efficiente esiste al momento della scrittura che è in grado di eseguire la tecnica di classificazione k- Means efficacemente la dimensione dei dati aumenta biologiche . Ciò suggerisce che una grande potenza di calcolo è spesso richiesto di eseguire la classificazione K -Means , che è un fattore importante da considerare quando si seleziona la tecnica di classificazione da utilizzare in applicazioni di bioinformatica .

 

Programmazione © www.354353.com