FASTA Formato Descrizione

December 30

FASTA Formato Descrizione


Un file FASTA-formato contiene una o più sequenze di nucleotidi nel DNA. Il formato FASTA origine con il pacchetto software FASTA per il sequenziamento del DNA, anche se è diventato un formato standard per la rappresentazione di sequenze di DNA in bioinformatica. FASTA è un formato semplice che rende facile da analizzare sequenze utilizzando linguaggi di scripting come Perl e Python.

Panoramica

La base di un file è una linea che iniziano con il carattere ">" e seguito da testo identificare l'origine della sequenza. La riga di intestazione è in genere meno di 80 caratteri. La linea seguendo questa linea di intestazione contiene una serie di caratteri che rappresentano nucleotidi residui di DNA o di amminoacidi in una sequenza peptidica.

Personaggi DNA ammessi

Solo i caratteri significativi sono consentiti come parte di una sequenza FASTA. Le sequenze possono consistere di A, C, T, G o U, corrispondenti rispettivamente alla nucleotidi adenosina, citosina, timidina, guanina o uracile. Tuttavia, l'esatta identità del nucleotide può non essere sempre presente dal sequenziamento. FASTA contiene anche codici che rappresentano i possibili nucleotidi quando l'incertezza è presente. Il codice N viene usato quando nessun determinazione può essere fatta e X quando il nucleotide è mascherato da altre molecole. Il "-" codice viene utilizzato per rappresentare un intervallo di lunghezza indeterminata.

Ammessi i caratteri Peptide

Un codice alfanumerico può anche essere utilizzato per rappresentare gli amminoacidi 24 presenti in una sequenza peptidica. Se un peptide non può essere determinato, il codice X viene utilizzato, in modo simile a una sequenza di DNA. Un "*" viene usato per indicare il terminale o la traduzione sequenza di arresto di un peptide. A "-" è usato anche per rappresentare una lacuna nei dati di sequenziamento per i peptidi.

Altre informazioni

Il NCBI stabilisce un ID standard di successione, o SeqID, per l'uso in righe di intestazione FASTA, anche se non esiste uno standard definitivo per l'inclusione nella riga di intestazione FASTA. Un file FASTA che contiene più sequenze è noto come un file multi-FASTA. file FASTA possono avere l'estensione del file ".fasta," ".fna," ".ffn," ".faa", ".frn" o ".fas".