如果有一天我要去流浪:什么是Genbank,它的主要用途是什么?

来源：百度文库编辑：高考问答时间：2024/04/27 21:37:57

GenBank序列数据库

GenBank是美国国立卫生研究院(NIH)维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个纪录代表了一个单独的、连续的、带有注释的DNA或RNA片段。目前GenBank中所有的纪录均来自于最初作者向DNA数据库的直接提交。

蛋白质数据库：
60年代初，Dayhoff和他的同事们收集了所有当时已知的氨基酸序列，这就是《蛋白质序列与结构图册》。这一蛋白质数据库后来成为蛋白质信息资源PIR。

核苷酸数据库：
1982年在欧洲分子生物学实验室(EMBL)诞生，随即就开始了一个数据库爆炸的时代。后来NIH搞了GenBank。日本的DNA数据库(DDBJ)加入了数据收集的合作。国际DNA序列数据库合作计划。规定了数据记录和更新的规则。

国际核苷酸序列数据库合作成员GenBank--DDBJ--EMBL。GenBank指的是DDBJ/EMBL/GenBank

开发利用这些信息的工具（如NCBI的信息检索系统 Entrez http://www.ncbi.nlm.nih.gov/Entrez/）

编码序列(CDS)：
大多数蛋白质序列都不是直接由实验确定的，而是通过DNA序列得到的。这种方法需要进行大量的实验、计算以及相似性比对工作。他也赋予一个产物名称，或者功能说明(通过主观的对相似性比对的分析)。

数据库的格式与内容：

数据库被用来存放原始数据和一系列附加的信息。不同的检索工具和程序利用了这些信息中的不同部分。

FASTA 格式：广泛应用于许多分子生物学软件包之中。作为最简单的情况，大于号(>)表示一个新文件的开始。通常60个字符一行。

>gb|AF150991|AF150991 Trichoplusia ni single capsid nuclear polyhedrosis virus.ensures greater occlusion body stabilityproduct--p10 / p10 protein
aatcgtttaacatatcgcgatctacctagaaatattgccatttttcacaataaaaaagagagaaagccatctctttggtggaaggcgaatacgaaatacacagatttagattggacggctccgttgattgtccctcaataaaattacatataataagtataaatccatttatcgtataaatattaaaaaaaattaaaacatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproduct--e66-like protein (partial DNA sequence)
ctaatgtacgtatggaatgctggcaactatcaacgtctcagcaaaaatctcgaacccagtgtgatcaactactacggcgatgttaaaccttggcaaatcgtggacgataataaaatattgtacatggatctgttcatttggaagtattttagaatgctaatggaaagagacatgaaataagtattatacgcgaatacattatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.complementproduct--p13
tggatcttttcgttcgaaacgagccgtaatattttgctaataattaattcatgccacacccaaattatattatatgagataacattgtaacttcatgacatcatttgtttgaaaaggtccgggcaacatttgataaattacaaaaaagtgcgggcaaagtttgattggtattcgcgtacaattgttaaggagatatcggaatg
>gb|AF275264|AF275264 Helicoverpa zea nuclear polyhedrosis virus.product--Orf50-like protein
attaaaaatatgatgcaataaaaaaaatgatgtcatctagttgacgttgctttggcgcaaattattttggtaattttccatgcatatttcgttatgatatcatcgttatatacgtgattgtctaaaatcgatctttgcggacaattttatatcaaaatgccggcaaatatcgattaactgaataagcaagcgtaccatcatg

ASN.1
Genbank flatfile:

头部：

始于LOCUS行---LOCUS名称，序列长度，生物分子的类型(ss或ds DNA,RNA,tRNA,rRNA, mRNA)，GenBank分类码，数据公开日期
DEFINITION行---总结纪录的生物意义。
检索号---是从数据库中检索一个记录的主要关键词。格式：1+5或2+6。所有的GenBank记录都只有一个单独的ACCESSION行。
NID---行表示核苷酸序列的gi号码(geninfo identifier)。一个gi号码对应于一个核苷酸序列。当序列改变时，gi号也改变，但检索号不变。
KEYWORDS---
SOURCS---
ORGANISM---
REFERENCE---
AUTHORS---
TITLE---
JOURNAL---

GenBank 概述

· 什么是GenBank？ GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

· 纪录样本 - 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。

· 增长统计 - 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank增长）小节。

· 公布通知，最新 - 最近和即将有的变化，GenBank 的分类，数据增长统计，GenBank 的引用。

· 公布通知，旧 - 同上相同，是过去公布的统计。

· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

· 关于提交序列数据，收到 accession number，和对纪录作更新的一般信息。

· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用 VecScreen 去除载体）

· Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以懒⑹褂茫?蛘哂没?赥CP/IP的"network aware"模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）

· ESTs - 表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。

· GSSs - 基因组调查序列，短的、单次（测序）阅读的cDNA序列，exon trap 获得的序列，cosmid/BAC/YAC 末端，及其他。

· HTGs - 来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。（注意：完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。）

· STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列，用于产生作图位点。

· 注：SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

国际核苷酸序列数据库合作组织

· GenBank，DDBJ，EMBL - 合作计划的概述，并链接到相应的主页。GenBank，DDBJ（DNA Data Bank of Japan），and EMBL （European Molecular Biology Laboratory）数据库共享的数据是每天都交换的，因此他们是相等的。数据纪录的格式和搜索方式可能会不一样，但是accession number，序列数据和注解都是一模一样的。即，你可以用accession number U12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等。

· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank 及每日更新

· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

· ASN.1格式 - 摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

· FASTA格式 - 定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z（每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST, STS, GSS, or HTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

http://www.bioon.com/biology/Print.asp?ArticleID=1256

什么是Genbank,它的主要用途是什么? 什么是BBS，它主要用途、功能是什么什么是流平剂.主要用途是什么? 什么是白云石,主要用途是什么? 什么是复合橡胶？主要用途是什么？ DOS的主要用途是什么? 磷酸的主要用途是什么？手机的主要用途是什么有限元分析的主要用途是什么什么是ar,ae插件?主要用途是什么?