Entrez Gene と RefSeq の関係

Entrez Gene は「遺伝子の辞書」

Entrez Gene は、遺伝子を中心に据えて*1ゲノム地図、配列、発現、タンパク質構造、機能、相同性といった多様な情報を統合したデータベースです。すべてをまとめる、というよりは色んなところに飛んでいけるハブを提供するようなイメージです。

Entrez Geneの各エントリには、固有のID( GeneID )が割り当てられています。このGeneIDは他の様々なデータベースにおいても、使われていることがあります。

RefSeq はレファレンスとなる配列のデータベース

RefSeq (Reference Sequence database) は、DNA、RNA、タンパク質のレファレンス(参照、基準)となる配列を集めたデータベースです(何がちがうかは後で)。
RefSeqに入っている個々のエントリはGenBankに登録してされている配列をもとしています。GenBankも配列データベースです。
レファレンス配列のみを集めているので、組み換えや突然変異によって生じた「普通でない」配列はRefSeqには含まれません。もちろんalternative splicingで生じたisoformなどはRefSeqに入っています。

RefSeqは「まとめサイト

GenBankは一次情報としての配列データベースですが、RefSeqは配列だけでなく様々な情報を統合した二次情報データベースです。
例えば、ある遺伝子のDNA配列・mRNA配列・タンパク質のアミノ酸配列がGenBankではバラバラに登録されていますが、RefSeqではこれらを互いに関連させています。
また、DNA配列のエントリには、dbSNPに登録されている変異に関する情報が付加されていることがあります。
さらに、 Human Protein Reference Database (HPRD) に登録されている翻訳後修飾部位に関する情報がアミノ酸配列のエントリに付加されたり。

RefSeqのID

RefSeqのエントリひとつひとつには、IDが割り当てられています。GenBankのIDと異なり、RefSeqのIDにはアンダースコア( _ )が含まれています。
以下のように、配列の種類ごとに異なる接頭辞がIDの頭につきます。

Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly
NC_ Genomic Complete genomic molecule, reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa
NW_ Genomic Contig or scaffold, primarily WGSa
NS_ Genomic Environmental sequence
NZ_b Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_c mRNA Predicted model
XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein
YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records

http://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.the_refseq_accession_number_forma/?report=objectonly

*1:'Gene-centered' と称されます。NCBIのデータベースでは、他にもUniGene、OMIM、GEOなどがそうです。