Hvordan konvertere en TXT-fil til FASTA

Kliniske studier utføres for å analysere proteinsekvensdata og finne behandlinger for sykdommer. Proteinsekvensdata settes i FASTA-formatet (fast-all) slik at programvarene forstår hvordan man behandler datasekvensen. FASTA-formatet har opptil 80 tegn per sekvensdatalinje og bruker kodestandarden IUB / IUPAC (International Union of Biochemistry / International Union of Pure and Applied Chemistry). Konvertering av en TXT-fil (ren tekst) til FASTA-format innebærer redigering eller tilsetning av FASTA-formatert sekvensdata til en eksisterende tekstfil med proteinsekvensdatalinjer. Tekstredigeringsprogrammer som Notepad gjør dette enkelt å gjøre.

Åpne proteinsekvenstekstfilen du vil redigere i et tekstredigeringsprogram som for eksempel Notisblokk.

Rediger eller legg til beskrivelseslinjen for å følge FASTA-formatet. For eksempel er> gi | 129295 | sp | P01013 | OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) en gyldig FASTA-beskrivelseslinje. Denne linjen gir en unik beskrivelse for sekvensdatalinjene som følger. FASTA-formatet krever bruk av symbolet større enn (>), slik at programvaren kan identifisere den unike beskrivende informasjonen og unngå å behandle beskrivelsen som en proteinsekvenslinje.

Trykk på "Enter" -tasten for å sette inn et linjeskift når beskrivelseslinjen er redigert.

Rediger eller legg til datalinjeformatet for proteinsekvensen for å overholde IUB / IUPAC-standardkodene. IUB / IUPAC-standarden bruker bokstavene i alfabetet til å representere akseptable koder eller spørresekvenser for aminosyrer eller nukleinsyrer i FASTA-format. For eksempel representerer QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE en linje med gyldige sekvensdata siden den begynner med bokstaven "Q", som representerer glutamin, og slutter med bokstaven "E", som representerer glutam.

Legg til flere sekvensdatalinjer, rediger eksisterende sekvensedatalinjer eller legg til linjeskift etter 80 tegn etter behov. Overholdelse av FASTA-sekvensens datalinjestandarder og linjeskift sørger for at programmet følger instruksjonene relatert til glutamin, glutamat og andre bokstavkoder. Bokstavene i IUB / IUPAC-standarden er ganske enkelt instruksjoner til programvaren som behandler FASTA-formaterte data.

Klikk på "File", velg "Save" og deretter på "Save" -knappen. TXT-filen din er nå i FASTA-format.