UniProt是Universal Protein的(de)英文縮寫(xie),是信息(xi)最豐富(fu)、資源最廣的(de)蛋白質(zhi)(zhi)數據(ju)庫(ku)。它由整合(he)Swiss-Prot、TrEMBL和 PIR-PSD三大(da)數據(ju)庫(ku)的(de)數據(ju)而成(cheng)。他的(de)數據(ju)主要來(lai)自于基因組(zu)測(ce)序(xu)項目完(wan)成(cheng)后(hou),后(hou)續獲得(de)的(de)蛋白質(zhi)(zhi)序(xu)列。它包含了大(da)量來(lai)自文獻(xian)的(de)蛋白質(zhi)(zhi)的(de)生(sheng)物(wu)功(gong)能的(de)信息(xi)。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫(ku))它是經(jing)過專家校驗(yan)(yan)的(de)數據集,主(zhu)要由兩部分(fen)組成:UniProtKB/Swiss-Prot(包含(han)檢查過的(de)、手(shou)工(gong)注(zhu)釋(shi)(shi)(shi)的(de)條(tiao)目)和UniProtKB/TrEMBL(包含(han)未校驗(yan)(yan)的(de)、自動(dong)注(zhu)釋(shi)(shi)(shi)的(de)條(tiao)目),在2010年8月是10日發布的(de)版(ban)本中,UniProtKB/Swiss-Prot包含(han)519,348條(tiao)注(zhu)釋(shi)(shi)(shi)條(tiao)目,UniProtKB/TrEMBL包含(han)11,636,205條(tiao)注(zhu)釋(shi)(shi)(shi)條(tiao)目。
UniProtKB/Swiss-Prot
高(gao)質量的(de)、手工注釋(shi)的(de)、非冗余的(de)數(shu)據(ju)(ju)集;主要來自(zi)文獻(xian)中的(de)研究成果和(he)E-value校驗過計算(suan)分析結果。有質量保證(zheng)的(de)數(shu)據(ju)(ju)才被加入該數(shu)據(ju)(ju)庫。
UniProtKB/TrEMBL
該數(shu)(shu)據(ju)集包含高質量(liang)(liang)的計算分析結果,一般都在(zai)自動注釋(shi)(shi)中(zhong)富集,主要(yao)應對基因組(zu)項目獲得的大(da)量(liang)(liang)數(shu)(shu)據(ju)流以人(ren)工校驗在(zai)時間上和人(ren)力(li)上的不足。他能(neng)注釋(shi)(shi)所有可用的蛋白序列(lie)(lie)(lie)。在(zai)三大(da)核酸數(shu)(shu)據(ju)庫(ku)(EMBL-Bank/GenBank/DDBJ)中(zhong)注釋(shi)(shi)的編碼序列(lie)(lie)(lie)都被(bei)自動翻譯并加入該數(shu)(shu)據(ju)庫(ku)中(zhong)。它(ta)也有來自PDB數(shu)(shu)據(ju)庫(ku)的序列(lie)(lie)(lie),以及Ensembl、Refeq和CCDS基因預測(ce)的序列(lie)(lie)(lie)。
UniParc
UniParc全稱是(shi)UniProt Archive,他是(shi)一個綜合性的(de)(de)非冗余數(shu)據(ju)(ju)庫(ku)(ku),他包含了(le)所(suo)有主要的(de)(de)、公開的(de)(de)數(shu)據(ju)(ju)庫(ku)(ku)的(de)(de)蛋白(bai)質序列(lie)(lie)。 由(you)于蛋白(bai)質可能在(zai)不同(tong)(tong)的(de)(de)數(shu)據(ju)(ju)庫(ku)(ku)中(zhong)存在(zai),并(bing)且可能在(zai)同(tong)(tong)一個數(shu)據(ju)(ju)庫(ku)(ku)中(zhong)有多(duo)個版本,為(wei)了(le)去冗余,UniaraParc對每條唯(wei)一的(de)(de)序列(lie)(lie)只存一次。無論是(shi)否為(wei)同(tong)(tong)一物種的(de)(de)序列(lie)(lie),只要序列(lie)(lie)相(xiang)同(tong)(tong)就被合并(bing)為(wei)一條,每條序列(lie)(lie)提供(gong)穩定的(de)(de)、唯(wei)一的(de)(de)編號(hao)UPI。該數(shu)據(ju)(ju)庫(ku)(ku)只含有蛋白(bai)質的(de)(de)序列(lie)(lie)信息,而(er)沒有注釋數(shu)據(ju)(ju)。