Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Unicode - Espen S. Ore1 UNICODE og ISO 10646 De(t) universelle tegnsett?

Liknende presentasjoner


Presentasjon om: "Unicode - Espen S. Ore1 UNICODE og ISO 10646 De(t) universelle tegnsett?"— Utskrift av presentasjonen:

1 Unicode - Espen S. Ore1 UNICODE og ISO 10646 De(t) universelle tegnsett?

2 Unicode - Espen S. Ore2 Babylon... zMac/DOS/UNIX zASCII/ISO 646 zISO 8859-1/2/3/4 etc. zKyrillisk: ISO/KOI8R/KOI8U/Windows/Mac

3 Unicode - Espen S. Ore3 Unicode og ISO 10646 zISO 10646: "Universal Multiple-Octet Coded Character Set" (UCS) zUnicode: The Unicode Consortium zISO 10646 og Unicode forenet siden Unicode 1.1 zUnicodes siste offisielle versjon er 2.x, versjon 3 er på vei

4 Unicode - Espen S. Ore4 Et Unicodeeksempel zEn html-filhtml zæ-£????? zæ=E6=11100110 z­=AD=101011-01 z£=A3=10100011  正 = 6B63=01101011-01100011 zEn annen html-filannen

5 Unicode - Espen S. Ore5 4-octet UCS: planes and groups z256x256 tegnplasser i et plan (a plane) z256 plan i en gruppe (group) z128 grupper i UCS-4 (fordi første bit i første oktett skal være 0)

6 Unicode - Espen S. Ore6 Plan og grupper 256 plan i én gruppe 128 grupper 256 x 256 tegn per plan

7 Unicode - Espen S. Ore7 Base Multilingual Plane: zPlan 0 i gruppe 0 zDet eneste med innhold i dag z>20.000 tegnplasser brukt til CJK (kinesisk/japansk/koreansk) ymen dette har ikke skjedd uten kulturelle og politiske problemer

8 Unicode - Espen S. Ore8 Våre vestlige tegn zTegn 0-127=ASCII zISO-8859/1=UCS-2 0- eller UCS-4 0-0-0- zmen "Å" kan være flere ting:

9 Unicode - Espen S. Ore9 Å: z00C5=LATIN CAPITAL LETTER A WITH RING ABOVE z0041 (A) + 030A (kombinerende ring over) z212B angstrom sign zI teorien skal slike tegn aksepteres som ekvivalente zmen...

10 Unicode - Espen S. Ore10 Characters - glyphs zCharacters: minste enhet i skrevet språk (grafem?) zGlyph: tegnform som vises zÉn til mange og mange til én forhold mellom characters og glyphs

11 Unicode - Espen S. Ore11 Men visning av Unicode? zProgrammer som kan håndtere Unicode, kan ikke vise tegnene hvis de ikke har font(er) med de nødvendige glypher zMen de kan "håndtere" tegnene selv om de ikke vises.

12 Unicode - Espen S. Ore12 Data fra Unicode zUTF = UCS Transformation Format zUTF16 zUTF8 z(Men også: ISO 8859/x)

13 Unicode - Espen S. Ore13 UTF 16 zFast 16 bits tegnlengde zInformasjon om tallretning (big-end/little- end): yByte-Order-Mark (BOM) FFFE zMekanisme for tilleggslenking til > 1.000.000 tegn zASCII lagres som 00000000 + 0+ASCIIverdi

14 Unicode - Espen S. Ore14 UTF 8 zVariabel lengde: 1-6 byte z1 byte, 7 bits tegnkode: 0+ASCII/ISO 646 z2-6 byte: alle UTF-byte > 7F z2 bytes tegnkode lagres i tre UTF-byte: y1110xxxx 10xxxxyy 10yyyyyyy

15 Unicode - Espen S. Ore15 Men kan det brukes til noe? zJava zPerl zXML zHTML 4.0 zMac OS zWindows NT/98(delvis)


Laste ned ppt "Unicode - Espen S. Ore1 UNICODE og ISO 10646 De(t) universelle tegnsett?"

Liknende presentasjoner


Annonser fra Google