SAMフォーマットの注意点

あんまり需要はない知識ですが、SAMファイルをSAMToolsなどを使わずに直接いじくったときに引っかかったことをメモ。

The SAM Format Specification (v1.4-r962)(pdf)

multiread(複数の箇所にマップされたリード)を除きたい場合

  • あるリードが複数の箇所にマップされる時、その数だけSAMの行がつくられる。
  • 複数の箇所にマップされている場合、第二カラム(FLAG) の自然数を16進数 0x100とビット演算すると、1になる(ただし、ある一つの行にはそれがない)。
  • multireads を除きたい時には、後ろの方のカラムにある IHタグの値が2以上の行を除けばいい。

unmapped reads を除きたい場合

  • 第二カラム(FLAG) の自然数を16進数 0x4とビット演算すると1になる行を除けばいい。

マップされたのがどちら側の鎖か(forward か reverse か)を知りたい場合

  • 第二カラム(FLAG) の自然数を16進数 0x10とビット演算すると1になる行は、reverse strand にマップされている。

レファレンスとの編集距離(edit distance)を知りたい場合

  • 後ろの方のカラムにある NMタグの値が編集距離。

SEQがreverse complimentとは

  • reverse compliment というのは、reverse strand にマップされていたら、元の配列ではなくて相補鎖を表示するようという意味。

RefSeq

The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for a species. It should be noted, though, that RefSeq has been built using data from public archival databases only.

RefSeq biological sequences (also known as RefSeqs) are derived from GenBank records but differ in that each RefSeq is a synthesis of information, not an archived unit of primary research data. Similar to a review article in the literature, a RefSeq represents the consolidation of information by a particular group at a particular time. RefSeqs are available without restriction and can be retrieved in several different ways such as: searching NCBI's databases including Nucleotide, Protein, Gene, and Map Viewer; searching with a sequence via BLAST; doing an FTP download; or through links from other NCBI resources including Gene, Map Viewer, and PubMed.

The Reference Sequence (RefSeq) Database - The NCBI Handbook - NCBI Bookshelf

Entrez Gene と RefSeq の関係

Entrez Gene は「遺伝子の辞書」

Entrez Gene は、遺伝子を中心に据えて*1ゲノム地図、配列、発現、タンパク質構造、機能、相同性といった多様な情報を統合したデータベースです。すべてをまとめる、というよりは色んなところに飛んでいけるハブを提供するようなイメージです。

Entrez Geneの各エントリには、固有のID( GeneID )が割り当てられています。このGeneIDは他の様々なデータベースにおいても、使われていることがあります。

RefSeq はレファレンスとなる配列のデータベース

RefSeq (Reference Sequence database) は、DNA、RNA、タンパク質のレファレンス(参照、基準)となる配列を集めたデータベースです(何がちがうかは後で)。
RefSeqに入っている個々のエントリはGenBankに登録してされている配列をもとしています。GenBankも配列データベースです。
レファレンス配列のみを集めているので、組み換えや突然変異によって生じた「普通でない」配列はRefSeqには含まれません。もちろんalternative splicingで生じたisoformなどはRefSeqに入っています。

RefSeqは「まとめサイト

GenBankは一次情報としての配列データベースですが、RefSeqは配列だけでなく様々な情報を統合した二次情報データベースです。
例えば、ある遺伝子のDNA配列・mRNA配列・タンパク質のアミノ酸配列がGenBankではバラバラに登録されていますが、RefSeqではこれらを互いに関連させています。
また、DNA配列のエントリには、dbSNPに登録されている変異に関する情報が付加されていることがあります。
さらに、 Human Protein Reference Database (HPRD) に登録されている翻訳後修飾部位に関する情報がアミノ酸配列のエントリに付加されたり。

RefSeqのID

RefSeqのエントリひとつひとつには、IDが割り当てられています。GenBankのIDと異なり、RefSeqのIDにはアンダースコア( _ )が含まれています。
以下のように、配列の種類ごとに異なる接頭辞がIDの頭につきます。

Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly
NC_ Genomic Complete genomic molecule, reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa
NW_ Genomic Contig or scaffold, primarily WGSa
NS_ Genomic Environmental sequence
NZ_b Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_c mRNA Predicted model
XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein
YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records

http://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.the_refseq_accession_number_forma/?report=objectonly

*1:'Gene-centered' と称されます。NCBIのデータベースでは、他にもUniGene、OMIM、GEOなどがそうです。