Come convertire un file TXT per FASTA

February 1

Come convertire un file TXT per FASTA


Gli studi clinici sono eseguiti per analizzare i dati di sequenza di proteine ​​e di trovare cure per le malattie. Dati sequenza proteica viene messo in FASTA (veloce-tutti) formato in modo che i programmi software capire come elaborare la sequenza di dati. Il formato FASTA ha fino a 80 caratteri per riga dei dati di sequenza e utilizza il IUB / IUPAC (International Union of Biochemistry / Unione internazionale di chimica pura e applicata) standard di codice. Conversione di un TXT (testo) file in formato FASTA comporta la modifica o l'aggiunta di dati di sequenza FASTA-formattato in un file di testo esistente con le linee di dati di sequenza della proteina. Testo programmi di editor come Notepad rendono semplice da fare.

istruzione

1 Aprire il file di testo sequenza della proteina che si desidera modificare un programma di editing di testo come Blocco note.

2 Modificare o aggiungere la riga di descrizione di seguire il formato FASTA. Ad esempio,> gi | 129.295 | sp | P01013 | OVAX_CHICK GENE PROTEINA X (ovalbumina-correlati) è una descrizione FASTA linea valida. Questa linea fornisce una descrizione unica per le linee dati di sequenza che seguono. Il formato FASTA richiede l'uso del simbolo di maggiore (>) quindi il programma software in grado di identificare le informazioni descrittive unico ed evitare di elaborare la descrizione come una linea sequenza di dati proteine.

3 Premere il tasto "Enter" per inserire un'interruzione di riga una volta che la linea di descrizione viene modificato.

4 Modificare o aggiungere il formato di linea dati sequenza della proteina per conformarsi ai codici standard IUB / IUPAC. Lo standard IUB / IUPAC usa le lettere dell'alfabeto per rappresentare codici accettabili o sequenze di query per gli amminoacidi o acidi nucleici nel formato FASTA. Ad esempio, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
rappresenta una linea di dati di sequenza validi perché inizia con la lettera "Q", che rappresenta glutammina, e termina con la lettera "E", che rappresenta glutammato.

5 Aggiungere più linee di dati di sequenza, modificare linee di dati di sequenza esistenti o aggiungere interruzioni di riga dopo 80 caratteri a seconda delle necessità. Aderendo agli standard della linea dati della sequenza FASTA e interruzioni di riga assicura che il programma segue le istruzioni relative al glutammina, glutammato e altri codici alfabetici. Le lettere dello standard IUB / IUPAC sono semplicemente le istruzioni per il programma software che elabora i dati FASTA formattati.

6 Fai clic su "File", selezionare "Salva", quindi fare clic sul pulsante "Salva". Il file TXT è ora in formato FASTA.