Introduzione alle tecniche di classificazione in Bioinformatica

Bioinformatica è l'applicazione di tecniche informatiche nel campo della biologia . Gli scopi della bioinformatica sono di assistere gli scienziati della vita nell'organizzazione dati biologici e di sviluppare gli strumenti informatici necessari per la scoperta di nuove ipotesi scientifiche . Tecniche di classificazione , noto anche come tecniche di clustering , sono importanti in bioinformatica in quanto consentono la separazione dei vari dati biologici con attributi simili in gruppi distinti . Storia

La dimensione dei dati biologici è cresciuto in modo esponenziale , con il raddoppio delle informazioni osservato ogni 15 mesi. Come risultato , l'informatica e le tecniche informatiche vengono utilizzate intensivamente nella elaborazione e gestione dei dati biologici . Il concetto fondamentale in bioinformatica è che i dati più biologiche condividono caratteristiche simili e può essere suddivisa in cluster . Per esempio , i geni di un organismo possono essere classificati in gruppi funzionali o loro vie metaboliche . Le proteine possono anche essere classificati in base ai geni che sono espressi . Tecniche di classificazione o raggruppamento sono necessarie nella gestione di enormi database di dati genetici e biologici . Ci sono due tipi principali di tecniche di classificazione in bioinformatica : . Delle tecniche di classificazione gerarchica e il K -Means
classificazione gerarchica

La tecnica di classificazione gerarchica organizza i dati biologici in un struttura di dati ad albero. I geni sono espressi come nodi dell'albero , mentre ogni sotto- albero di nodi rappresenta un cluster o raggruppamento di geni . L'albero può essere sia radicato o senza radici . Un albero radicato è definito come un albero con un solo nodo superiore . Al contrario, un albero senza radice ha più nodi più in alto .
K - Means Classificazione

Una tecnica di classificazione più complessa è la classificazione K -Means , che tenta di trovare una serie di centri che riducono al minimo la distorsione errore quadratico tra i set di dati in uno spazio multidimensionale . Un cluster è classificato raggruppando i punti relativi al loro centro più vicino . L'algoritmo di Lloyd è spesso usato nella tecnica di classificazione K- Means . In questo algoritmo , i punti dati sono disposti in modo casuale in gruppi separati, che vengono successivamente ottimizzate per produrre le minime distorsioni errore quadratico locali.
Importanza

Dopo proteine correlate sono stati classificati in gruppi simili , gli scienziati della vita possono utilizzare queste informazioni per predire le proprietà di alcune proteine meno studiate . Ciò è applicabile ad altri aspetti della struttura delle proteine anche . Un altro uso di tecniche di classificazione è quello di risolvere il problema di determinare l'albero evolutivo di alcuni organismi in base alle loro sequenze genetiche . L'albero evolutivo è costruito dalla sequenza del DNA dell'organismo utilizzando gerarchico o k- Means tecniche di classificazione .
Considerazioni

tecnica di classificazione gerarchica è relativamente semplice ed efficace modo di clustering di dati biologici . Al contrario, nessun algoritmo efficiente esiste al momento della scrittura che è in grado di eseguire la tecnica di classificazione k- Means efficacemente la dimensione dei dati aumenta biologiche . Ciò suggerisce che una grande potenza di calcolo è spesso richiesto di eseguire la classificazione K -Means , che è un fattore importante da considerare quando si seleziona la tecnica di classificazione da utilizzare in applicazioni di bioinformatica .

Informazioni correlate

Articoli consigliati

C /C + + Programming

Computer Programming Languages

Delphi Programming

Java Programming

Programmazione Javascript

PHP /MySQL Programmazione

Perl Programming

Python Programming

rubino Programmazione

Nozioni di base di Visual Programming