UniProt是Universal Protein的(de)(de)英文縮寫,是信息最豐(feng)富、資源(yuan)最廣的(de)(de)蛋白質(zhi)數據庫。它(ta)由整合Swiss-Prot、TrEMBL和 PIR-PSD三大數據庫的(de)(de)數據而成(cheng)。他的(de)(de)數據主要(yao)來自(zi)于(yu)基因組測序(xu)項目完成(cheng)后,后續獲得的(de)(de)蛋白質(zhi)序(xu)列。它(ta)包含了(le)大量(liang)來自(zi)文獻的(de)(de)蛋白質(zhi)的(de)(de)生物功能的(de)(de)信息。
UniProtKB全稱UniProt Knowledgebase(UniProt知識(shi)庫)它(ta)是經(jing)過專家校(xiao)驗的數據集,主(zhu)要由兩(liang)部分組成:UniProtKB/Swiss-Prot(包(bao)含(han)檢查過的、手工注釋(shi)(shi)的條目)和(he)UniProtKB/TrEMBL(包(bao)含(han)未校(xiao)驗的、自動(dong)注釋(shi)(shi)的條目),在2010年8月是10日(ri)發布的版本中,UniProtKB/Swiss-Prot包(bao)含(han)519,348條注釋(shi)(shi)條目,UniProtKB/TrEMBL包(bao)含(han)11,636,205條注釋(shi)(shi)條目。
UniProtKB/Swiss-Prot
高(gao)質量的(de)、手工注釋的(de)、非冗余(yu)的(de)數據集;主要來(lai)自文(wen)獻(xian)中(zhong)的(de)研(yan)究成果和E-value校驗(yan)過計(ji)算分析(xi)結(jie)果。有質量保(bao)證的(de)數據才(cai)被加(jia)入該數據庫。
UniProtKB/TrEMBL
該(gai)數(shu)據集(ji)包含(han)高質(zhi)量的(de)計算(suan)分(fen)析(xi)結果(guo),一般都在自動(dong)注釋(shi)中(zhong)富(fu)集(ji),主(zhu)要應對基因(yin)(yin)組(zu)項目(mu)獲得(de)的(de)大量數(shu)據流以(yi)人工校(xiao)驗在時間上和(he)人力上的(de)不足。他能注釋(shi)所(suo)有(you)可(ke)用的(de)蛋白序(xu)(xu)列。在三大核酸數(shu)據庫(EMBL-Bank/GenBank/DDBJ)中(zhong)注釋(shi)的(de)編碼序(xu)(xu)列都被自動(dong)翻(fan)譯并加入(ru)該(gai)數(shu)據庫中(zhong)。它也有(you)來自PDB數(shu)據庫的(de)序(xu)(xu)列,以(yi)及Ensembl、Refeq和(he)CCDS基因(yin)(yin)預測的(de)序(xu)(xu)列。
UniParc
UniParc全稱是UniProt Archive,他(ta)是一(yi)(yi)個綜合性(xing)的(de)(de)非冗余數(shu)(shu)據(ju)庫,他(ta)包含了(le)所(suo)有主要的(de)(de)、公開(kai)的(de)(de)數(shu)(shu)據(ju)庫的(de)(de)蛋白(bai)質序(xu)(xu)列(lie)。 由于蛋白(bai)質可能(neng)(neng)在(zai)不同的(de)(de)數(shu)(shu)據(ju)庫中(zhong)存在(zai),并且可能(neng)(neng)在(zai)同一(yi)(yi)個數(shu)(shu)據(ju)庫中(zhong)有多個版本,為了(le)去冗余,UniaraParc對每(mei)條(tiao)唯(wei)一(yi)(yi)的(de)(de)序(xu)(xu)列(lie)只(zhi)存一(yi)(yi)次。無論是否為同一(yi)(yi)物種的(de)(de)序(xu)(xu)列(lie),只(zhi)要序(xu)(xu)列(lie)相同就被合并為一(yi)(yi)條(tiao),每(mei)條(tiao)序(xu)(xu)列(lie)提供穩(wen)定的(de)(de)、唯(wei)一(yi)(yi)的(de)(de)編號UPI。該(gai)數(shu)(shu)據(ju)庫只(zhi)含有蛋白(bai)質的(de)(de)序(xu)(xu)列(lie)信息(xi),而(er)沒有注釋數(shu)(shu)據(ju)。