FASTQ

FASTQ je textový soubor sloužící k uchování biologické sekvence (typicky nukleotidové sekvence) a také nese informace o skóre kvality jednotlivých nukleotidů. Samotné báze sekvence, tak i skóre kvality je zakódováno jedním ASCII znakem. Skóre kvality udává, s jakou pravděpodobností byla konkrétní báze určena chybně.

Formát byl původně vytvořen ve Welcome Trust Sanger Institute, aby do jednoho souboru bylo možno uložit informaci jak o sekvenci, tak i o kvalitě dat. Díky tomu se stal standardem pro uchovávání výstupů z high-throughput sekvenátorů.^[1]

FASTQ soubory mohou obsahovat až několik milionů znaků a mohou dosahovat velikosti až několik gigabytů, což je často dělá moc velkými na to, aby mohly být otevřeny v běžném textovém editoru. FASTQ soubory totiž typicky obsahují velké množství sekvencí. Často je ale není potřeba otevírat, protože jsou vstupními soubory pro následné analýzy jako je například alignment k referenčnímu genomu nebo de novo sestavování genomu. Pokud by ale uživatel chtěl soubor zobrazit je vhodné k tomu použít systém Unix nebo Linux které umožňují zobrazení velkých souborů přes příkazovou řádku.

FASTQ soubor se skládá ze 4 řádků:

Pole 1 začíná znakem @ a je následováno identifikátorem sekvence a volitelným popisem jako jsou třeba informace o sekvenaci.
Pole 2 je složeno z písmen samotné sekvence.
Pole 3 začíná znakem + a také může být také následováno stejným identifikátorem či různým popisem.
Pole 4 nese informaci o skóre kvality jednotlivých písmen ze řádku 2. Musí obsahovat stejný počet znaků jako řádek 2.

FASTQ soubor obsahující jednu sekvenci může vypadat takto:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

↑ COCK, Peter J. A.; FIELDS, Christopher J.; GOTO, Naohisa; HEUER, Michael L.; RICE, Peter M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. S. 1767–1771. Nucleic Acids Research [online]. 2010-04. Roč. 38, čís. 6, s. 1767–1771. Dostupné online. doi:10.1093/nar/gkp1137.

[1] COCK, Peter J. A.; FIELDS, Christopher J.; GOTO, Naohisa; HEUER, Michael L.; RICE, Peter M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. S. 1767–1771. Nucleic Acids Research [online]. 2010-04. Roč. 38, čís. 6, s. 1767–1771. Dostupné online. doi:10.1093/nar/gkp1137.

[1]

Our website is made possible by displaying online advertisements to our visitors. Please consider supporting us by disabling your ad blocker.

FASTQ

Our website is made possible by displaying online advertisements to our visitors.
Please consider supporting us by disabling your ad blocker.