統一碼(ma)聯(lian)盟是(shi)一個致力于開發,維護(hu),發展(zhan)全球(qiu)通(tong)用(yong)軟件標準(zhun)和(he)數據格式,特別(bie)是(shi)維護(hu)Unicode編(bian)碼(ma)標準(zhun)的非牟利(li)機構。統一碼(ma)聯(lian)盟制定了一種可以對全球(qiu)幾(ji)乎所有(you)語言文字進行編(bian)碼(ma)的標準(zhun)。
其宗旨為(wei)(wei)最(zui)終以(yi)統一(yi)碼(ma)取代現存的字符編(bian)碼(ma)。因為(wei)(wei)現存編(bian)碼(ma)不能夠在多語言計算(suan)機(ji)環(huan)境中使(shi)用,而(er)且字符數有(you)局限。同時(shi)它也制(zhi)定了(le)數種統一(yi)碼(ma)轉換格式(UTF,Unicode Transformation Format)。
Unicode是(shi)(shi)為了解決傳統(tong)的字(zi)符編碼方案(an)的局(ju)限而產生(sheng)的,例如ISO 8859-1所定(ding)義的字(zi)符雖然(ran)在(zai)不同(tong)的國家(jia)中廣泛地(di)使用(yong),可是(shi)(shi)在(zai)不同(tong)國家(jia)間卻(que)經常(chang)出現不兼容的情(qing)況。
很多傳統(tong)的(de)(de)編碼方式都有一(yi)個(ge)共(gong)同(tong)的(de)(de)問題,即容許計算機(ji)處理雙(shuang)語環境(通常使用(yong)拉(la)丁字母(mu)以及其(qi)本(ben)地語言(yan)),但卻無法(fa)同(tong)時(shi)支持(chi)多語言(yan)環境(指可(ke)同(tong)時(shi)處理多種語言(yan)混合(he)的(de)(de)情況)。Unicode編碼包含了不同(tong)寫法(fa)的(de)(de)字,如“ɑ/a”、“強(qiang)/強(qiang)”、“戶/戶/戸”。然(ran)而在漢(han)字方面引起了一(yi)字多形(xing)的(de)(de)認(ren)定爭議(詳見中日(ri)韓統(tong)一(yi)表意文字主題)。
在(zai)文(wen)字(zi)(zi)(zi)處理方面,統(tong)一碼(ma)為每一個字(zi)(zi)(zi)符(fu)而非(fei)字(zi)(zi)(zi)形(xing)定義(yi)唯一的代碼(ma)(即一個整數(shu)(shu))。換(huan)句話說,統(tong)一碼(ma)以一種抽象的方式(即數(shu)(shu)字(zi)(zi)(zi))來(lai)處理字(zi)(zi)(zi)符(fu),并將視覺上的演繹工作(例如(ru)字(zi)(zi)(zi)體(ti)大小(xiao)、外觀形(xing)狀、字(zi)(zi)(zi)體(ti)形(xing)態、文(wen)體(ti)等(deng))留給(gei)其他(ta)軟件來(lai)處理,例如(ru)網頁瀏(liu)覽器或是文(wen)字(zi)(zi)(zi)處理器。
幾乎所有計算機系統都支持(chi)基本拉丁(ding)字(zi)母,并各(ge)自支持(chi)不同的(de)(de)其他編碼方式。Unicode為了和它(ta)們相互兼(jian)容,其首256字(zi)符(fu)保留給ISO 8859-1所定義的(de)(de)字(zi)符(fu),使(shi)既有的(de)(de)西歐(ou)語(yu)系文字(zi)的(de)(de)轉換(huan)不需特別考量(liang);
并且把(ba)大量相同的字(zi)符重復編到不同的字(zi)符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuan)換,而不會丟失任何信息。舉例來(lai)說,全角格(ge)式區段包含(han)了主要的拉丁字(zi)母的全角格(ge)式,
在中(zhong)文(wen)、日文(wen)、以及韓文(wen)字(zi)形當中(zhong),這些字(zi)符以全角的方式來呈現,而(er)不(bu)以常(chang)見的半角形式顯示,這對豎排(pai)文(wen)字(zi)和等(deng)寬(kuan)排(pai)列(lie)文(wen)字(zi)有(you)重要作用。
在(zai)表(biao)示一個Unicode的字(zi)(zi)符時(shi),通常會用“U+”然后緊接(jie)著一組(zu)十六進制的數(shu)(shu)字(zi)(zi)來表(biao)示這一個字(zi)(zi)符。在(zai)基(ji)本多文種平(ping)(ping)面(英文:Basic Multilingual Plane,簡寫BMP。又(you)稱為(wei)“零號平(ping)(ping)面”、plane 0)里的所有字(zi)(zi)符,要用四位十六進制數(shu)(shu)(例如U+4AE0,共支持六萬多個字(zi)(zi)符);
在零號平面以外的字符則需要使用(yong)五位或六位十六進制數了。舊版的Unicode標準使用(yong)相近的標記(ji)方(fang)法,但(dan)卻有些微(wei)小差異:在Unicode 3.0里使用(yong)“U-”然后緊接(jie)著八位數,而“U+”則必須隨后緊接(jie)著四位數。
位于美國加州的(de)Unicode組(zu)織允許任何(he)愿(yuan)意支(zhi)付(fu)會費的(de)公司(si)和(he)個人加入,其(qi)成員包含了主(zhu)要的(de)計(ji)算機軟(ruan)(ruan)硬件廠商,例如奧(ao)多比系統(tong)、蘋(pin)果(guo)公司(si)、惠普、IBM、微軟(ruan)(ruan)、施樂(le)等(deng)。
20世紀80年代末(mo),組(zu)成Unicode組(zu)織(zhi)的(de)商業機(ji)構,和國際合作的(de)國際標準化組(zu)織(zhi)因為計算機(ji)普(pu)及和信息國際化的(de)前(qian)提下(xia),分別各自成立了(le)Unicode組(zu)織(zhi)和ISO-10646工作小(xiao)組(zu)。
他(ta)們不(bu)久便發(fa)現對(dui)方的(de)(de)存在,大家為著(zhu)相同的(de)(de)目(mu)的(de)(de)而工作(zuo),于(yu)是兩(liang)個組織便共同合作(zuo)開發(fa)適用(yong)于(yu)各國語言的(de)(de)通用(yong)碼,而且“相當有(you)默契地”各自發(fa)表(biao)Unicode和ISO-10646字(zi)集(ji)。雖然實(shi)際上兩(liang)者的(de)(de)字(zi)集(ji)編碼相同,但(dan)實(shi)質(zhi)上兩(liang)者確(que)實(shi)為兩(liang)個不(bu)同的(de)(de)標準。
統一碼聯盟在1991年首次發布了The Unicode Standard。Unicode的開發結合了國際標準化組織所制定的ISO/IEC 10646,即通用字符集。Unicode與ISO/IEC 10646在編碼的運作原理相同,
但The Unicode Standard包含了(le)更詳盡的(de)實現(xian)信(xin)息、涵蓋了(le)更細(xi)節的(de)主題,諸(zhu)如比特編碼(bitwise encoding)、校(xiao)對(dui)以(yi)及(ji)呈現(xian)等。The Unicode Standard也枚舉(ju)了(le)諸(zhu)多(duo)的(de)字符特性,包含了(le)那些(xie)必須支(zhi)持兩種閱讀(du)方向(xiang)的(de)文(wen)字(由左至右(you)或由右(you)至左的(de)文(wen)字閱讀(du)方向(xiang),例如阿拉伯(bo)文(wen)是由右(you)至左)。Unicode與ISO/IEC 10646這兩個標(biao)準在術語上的(de)使用有些(xie)微的(de)不同。
2005年,Unicode的第(di)十萬個字(zi)符被引入成為標準之一(yi),該(gai)字(zi)符被用于馬來亞(ya)拉姆(mu)語。
2020年,Unicode發布了13.0,共收錄(lu)143,859個字符。
統一碼聯(lian)盟(meng)由世界各地主(zhu)要的(de)(de)電腦(nao)制造(zao)商、軟件開(kai)發商、數(shu)據庫開(kai)發商、政府部門、研究機(ji)構(gou)、國際機(ji)構(gou)、各用(yong)戶組(zu)(zu)織及(ji)個人組(zu)(zu)成(cheng)。統一碼聯(lian)盟(meng)的(de)(de)領導者及(ji)管理人員來自各個組(zu)(zu)織及(ji)行(xing)業,代表著最廣泛的(de)(de)編碼應(ying)用(yong)。
統(tong)一(yi)碼(ma)聯(lian)盟(meng)包含三個技術委員(yuan)(yuan)會和(he)一(yi)個編輯委員(yuan)(yuan)會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一(yi)碼聯(lian)盟積(ji)極與各標準(zhun)制訂機構合作,包(bao)括國際標準(zhun)化(hua)組織(zhi)(ISO)、國際電工委員會(hui)(IEC)、萬維(wei)網(wang)聯(lian)盟(W3C)、互聯(lian)網(wang)工程工作小組(IETF)和歐(ou)洲計算(suan)機制造(zao)協會(hui)(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準》(The Unicode Standard)
《字符數字庫》(Character Database)
《Unicode技術準備和報告》(Unicode Technical Standards and Reports)
《Unicode技術(shu)說明書》(Unicode Technical Notes)等等。
統(tong)一碼的成功讓(rang)計算機使用進入了(le)一個新(xin)紀元,并應(ying)用于很多(duo)新(xin)技術,如(ru)XML、Java編程(cheng)語言(yan)和現(xian)今(jin)的操作(zuo)系統(tong)。