統一碼(ma)聯(lian)盟是(shi)一個(ge)致力于開(kai)發(fa),維(wei)護,發(fa)展全球通(tong)用軟件標準(zhun)(zhun)(zhun)和數據格式,特別是(shi)維(wei)護Unicode編碼(ma)標準(zhun)(zhun)(zhun)的(de)非牟(mou)利機構(gou)。統一碼(ma)聯(lian)盟制(zhi)定了一種可以對(dui)全球幾乎所(suo)有語言文字進行編碼(ma)的(de)標準(zhun)(zhun)(zhun)。
其宗(zong)旨為最終以統一碼取代(dai)現(xian)存的字符(fu)(fu)編碼。因(yin)為現(xian)存編碼不能夠在多語言(yan)計算機(ji)環境中使用,而(er)且(qie)字符(fu)(fu)數(shu)有局限(xian)。同時它也制定(ding)了數(shu)種統一碼轉換格式(UTF,Unicode Transformation Format)。
Unicode是(shi)為了解決傳統的字符編碼方案的局限(xian)而產生的,例如ISO 8859-1所定義的字符雖(sui)然(ran)在不(bu)同的國家中廣(guang)泛地使用,可是(shi)在不(bu)同國家間(jian)卻經常(chang)出現不(bu)兼(jian)容的情況。
很多(duo)傳統的(de)編碼方式都(dou)有一個共同(tong)(tong)的(de)問(wen)題(ti),即容許計(ji)算機處理雙語(yu)(yu)環境(通(tong)常使用(yong)拉(la)丁字(zi)母以(yi)及(ji)其本地(di)語(yu)(yu)言),但卻無法同(tong)(tong)時(shi)支持多(duo)語(yu)(yu)言環境(指可同(tong)(tong)時(shi)處理多(duo)種語(yu)(yu)言混(hun)合的(de)情況)。Unicode編碼包含(han)了不同(tong)(tong)寫法的(de)字(zi),如“ɑ/a”、“強(qiang)/強(qiang)”、“戶/戶/戸”。然(ran)而在(zai)漢(han)字(zi)方面(mian)引起(qi)了一字(zi)多(duo)形的(de)認定爭議(詳見中日(ri)韓(han)統一表意(yi)文(wen)字(zi)主題(ti))。
在文字(zi)(zi)處(chu)(chu)(chu)理方面,統一(yi)(yi)碼為每(mei)一(yi)(yi)個字(zi)(zi)符而非(fei)字(zi)(zi)形(xing)定(ding)義唯一(yi)(yi)的(de)代(dai)碼(即一(yi)(yi)個整數)。換句話說,統一(yi)(yi)碼以(yi)一(yi)(yi)種抽象的(de)方式(即數字(zi)(zi))來處(chu)(chu)(chu)理字(zi)(zi)符,并將視覺上的(de)演繹(yi)工作(例(li)如字(zi)(zi)體大(da)小、外觀形(xing)狀、字(zi)(zi)體形(xing)態、文體等(deng))留給其他軟(ruan)件來處(chu)(chu)(chu)理,例(li)如網(wang)頁瀏(liu)覽器或是文字(zi)(zi)處(chu)(chu)(chu)理器。
幾乎(hu)所有(you)計算(suan)機系(xi)統都支(zhi)(zhi)持基本拉(la)丁(ding)字母,并各自支(zhi)(zhi)持不同的(de)其(qi)他編(bian)碼方式。Unicode為了和它(ta)們(men)相互(hu)兼容,其(qi)首256字符保留給(gei)ISO 8859-1所定義的(de)字符,使既有(you)的(de)西歐語系(xi)文字的(de)轉(zhuan)換(huan)不需特別考(kao)量(liang);
并且把大量相同的(de)字符(fu)重復編(bian)到(dao)不同的(de)字符(fu)碼(ma)(ma)中去,使得舊有(you)紛雜的(de)編(bian)碼(ma)(ma)方式(shi)得以和Unicode編(bian)碼(ma)(ma)間(jian)互(hu)相直(zhi)接轉(zhuan)換,而不會丟失任何(he)信息。舉例來說,全角(jiao)格(ge)式(shi)區段包含了主要的(de)拉丁字母的(de)全角(jiao)格(ge)式(shi),
在(zai)中文、日文、以及韓文字(zi)(zi)形當中,這(zhe)(zhe)些字(zi)(zi)符以全角的方式(shi)來(lai)呈(cheng)現(xian),而不以常見的半(ban)角形式(shi)顯(xian)示,這(zhe)(zhe)對豎排文字(zi)(zi)和等(deng)寬排列文字(zi)(zi)有(you)重要作用。
在表示一個(ge)Unicode的字(zi)符(fu)時,通常會用“U+”然(ran)后緊(jin)接著(zhu)一組十六(liu)進制的數字(zi)來表示這一個(ge)字(zi)符(fu)。在基本多(duo)文種(zhong)平面(mian)(英文:Basic Multilingual Plane,簡寫BMP。又稱為“零號平面(mian)”、plane 0)里的所(suo)有字(zi)符(fu),要用四(si)位十六(liu)進制數(例如U+4AE0,共支持六(liu)萬多(duo)個(ge)字(zi)符(fu));
在零號(hao)平面(mian)以外的(de)字符則需(xu)要使用五位(wei)或六位(wei)十六進制數(shu)(shu)了。舊版的(de)Unicode標準(zhun)使用相近的(de)標記方法,但卻有些(xie)微小(xiao)差異:在Unicode 3.0里使用“U-”然后緊接著(zhu)八位(wei)數(shu)(shu),而“U+”則必須(xu)隨后緊接著(zhu)四位(wei)數(shu)(shu)。
位(wei)于美(mei)國加州的(de)Unicode組(zu)織允許任何愿(yuan)意(yi)支(zhi)付(fu)會(hui)費的(de)公司(si)和個人加入,其成員包含(han)了主要的(de)計算機軟(ruan)硬件(jian)廠商,例如奧多比系統、蘋果公司(si)、惠(hui)普、IBM、微軟(ruan)、施(shi)樂(le)等(deng)。
20世紀(ji)80年代末,組(zu)(zu)(zu)成Unicode組(zu)(zu)(zu)織的(de)商業機(ji)(ji)構,和國(guo)際(ji)(ji)合作的(de)國(guo)際(ji)(ji)標準化組(zu)(zu)(zu)織因為計算機(ji)(ji)普及和信息國(guo)際(ji)(ji)化的(de)前提下(xia),分(fen)別各自成立了Unicode組(zu)(zu)(zu)織和ISO-10646工作小組(zu)(zu)(zu)。
他(ta)們不久便發(fa)現對方的(de)(de)存在,大(da)家為著相同的(de)(de)目的(de)(de)而工(gong)作(zuo),于(yu)是兩(liang)個組織便共同合作(zuo)開發(fa)適(shi)用于(yu)各國語(yu)言的(de)(de)通用碼,而且“相當有默契地”各自發(fa)表Unicode和ISO-10646字(zi)(zi)集。雖然實際上(shang)兩(liang)者的(de)(de)字(zi)(zi)集編碼相同,但實質上(shang)兩(liang)者確實為兩(liang)個不同的(de)(de)標準。
統一(yi)碼聯盟在1991年首次發布(bu)了The Unicode Standard。Unicode的(de)開(kai)發結合了國際(ji)標準化組(zu)織所(suo)制定的(de)ISO/IEC 10646,即通用(yong)字符集(ji)。Unicode與(yu)ISO/IEC 10646在編碼的(de)運(yun)作(zuo)原理相同,
但(dan)The Unicode Standard包含了(le)更詳盡的實(shi)現(xian)(xian)信(xin)息、涵(han)蓋了(le)更細節的主題(ti),諸(zhu)如(ru)比(bi)特編(bian)碼(ma)(bitwise encoding)、校(xiao)對(dui)以及呈(cheng)現(xian)(xian)等。The Unicode Standard也(ye)枚(mei)舉(ju)了(le)諸(zhu)多的字符特性,包含了(le)那些(xie)必須支持兩種(zhong)閱讀方(fang)向(xiang)的文(wen)字(由左至(zhi)右或由右至(zhi)左的文(wen)字閱讀方(fang)向(xiang),例如(ru)阿(a)拉伯文(wen)是由右至(zhi)左)。Unicode與ISO/IEC 10646這兩個標準(zhun)在術語上的使(shi)用有些(xie)微的不同。
2005年,Unicode的第十萬個字符被(bei)引入成為(wei)標準之一(yi),該字符被(bei)用于馬來亞拉姆語。
2020年,Unicode發(fa)布(bu)了13.0,共收(shou)錄143,859個字符(fu)。
統一碼聯盟由世(shi)界各地主要的電(dian)腦(nao)制造商(shang)(shang)、軟件開發(fa)(fa)商(shang)(shang)、數據庫開發(fa)(fa)商(shang)(shang)、政府部門、研究(jiu)機(ji)(ji)構(gou)、國(guo)際機(ji)(ji)構(gou)、各用戶組(zu)織及(ji)個(ge)人組(zu)成。統一碼聯盟的領導者及(ji)管(guan)理人員來自各個(ge)組(zu)織及(ji)行業,代表著最(zui)廣泛的編碼應用。
統一(yi)碼(ma)聯(lian)盟包含三個技(ji)術(shu)委員會和(he)一(yi)個編輯委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一碼聯盟積(ji)極與(yu)各標準制(zhi)(zhi)訂機構合作(zuo),包括國際標準化組織(ISO)、國際電(dian)工委員會(hui)(IEC)、萬維網聯盟(W3C)、互聯網工程(cheng)工作(zuo)小組(IETF)和歐(ou)洲計算機制(zhi)(zhi)造協會(hui)(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準》(The Unicode Standard)
《字(zi)符數字(zi)庫》(Character Database)
《Unicode技術準備和報告》(Unicode Technical Standards and Reports)
《Unicode技術說明書》(Unicode Technical Notes)等(deng)等(deng)。
統(tong)一碼的成功(gong)讓計算(suan)機使用進入了一個新紀(ji)元,并應用于很多新技術(shu),如XML、Java編程語言和現今的操作(zuo)系統(tong)。