Merkistöstandardeista Teppo Räisänen http://www.oamk.fi/~teraisan/ Teppo.raisanen@oamk.fi
Yleistä Kaikki käyttäjälle käyttöliittymässä esiintyvät merkit pohjautuvat binääridataan Tarvitaan sopimus siitä, mitä merkkiä tietty binäärijakso vastaa, esim. 00110101 = ’K’ vai 00110101 = ”£” Sopimukset = Merkistöstandardit
Yleistä Tavallisin tietokoneen tapa käsitellä dataa on jakaa se 8-bittisiin tavuihin 8:lla bitillä voidaan esittää 256 erilaista bittiyhdistelmää => esim. 256 erilaista merkkiä Kun bittien (tavujen) määrää kasvatetaan kasvaa mahdollisten yhdistelmien määrä 2:n potensseina
ASCII ASCII (American Standard Code for Information Interchange) julkaistiin 1968 ASCII perustuu 7:ään bittiin => 128 yhdistelmää Määrä on riittämätön erikoismerkkien ja eri kielten grafeemien ilmaisuun
ASCII Alkuperäinen US-ASCII ei sisällä esim. skandinaavisia vokaaleita ASCII:n suomalainen versio ISO-646-SF sisältää äöåü-merkit Merkit saatiin käyttöön korvaamalla US-merkistön merkkejä
ISO 8859-1 ISO 8859-1 on ASCII-merkistön 8-bittinen laajennos Tuli käyttöön 1982 Tukee länsieurooppalaisten kielten merkkejä Tunnetaan myös Latin1-nimellä 8859-15-versio laajensi kielitukea, mutta on vähän käytetty
Muut 8-bittiset merkistöt ASCII-merkistöstä on olemassa lukuisia ISO-laajennoksia Lisäksi käytössä on lukuisia muita 8-bittisiä merkistöjä kuten esim. KOI-8-versiot Applen MacRoman-merkistö MSWindowsin merkistöt HP:n HP-Roman
Monitavuiset merkistöt Lokalisoinnista ja laajennoksista huolimatta 8 bittiä on riittämätön määrä monien kielten merkintään 1976 julkaistiin japanin kieltä varten JIS X 0208 –merkistö (n. 9000 merkkiä) Monitavuisia merkistöjä kehitettiin erityisesti Aasian alueella
Unicode Yleismaailmallinen ja kattava merkistö Tarkoituksena kehittää muut merkistöt korvaava standardi Kehitystyö alkoi 1980-luvulla Versio 3.0 kuvasi 16 bitillä 49 194 merkkiä Nykyään merkintään käytössä 17 16-bittistä tasoa => yli miljoona erilaista merkkiä
Unicode-merkistökoodaukset Koodausversiot ovat UTF-8 = merkkien tavumäärä vaihtelee UTF-16 = käytössä 1 tai 2 tavuparia UTF-32 = jokainen merkki esitetään 4 tavulla
Unicoden käyttö Unicoden 64 ensimmäistä merkkiä ovat ASCII-yhteensopivia Unicoden 128 ensimmäistä merkkiä ovat ISO-8895-1-yhteensopivia Unicode-tuki puuttuu edelleen monista kielistä ja ohjelmistoista
Unicoden käyttö WinXP tukee Unicodea (esim. WordPad) Vain hyvin harvat Fontit kykenevät esittämään koko Unicode-merkistön Java-ohjelmointikieli tukee Unicodea XML tukee unicodea
XML ja merkistöt ASCII-editorilla kirjoitettu XML perustuu oletusarvoisesti UTF-8-standardiin => Skand. vokaalit eivät käytössä Pohjoismaiset vokaalit saadaan käyttöön julistamalla dokumentti ISO 8859-1-merkistön mukaiseksi
Esimerkki <?xml version="1.0" encoding="iso-8859-1"?> <ääkköset> äääööö </ääkköset>
XML ja merkistöt Tekstieditoreilla kirjoitetut XML-tiedostot kannattaa yleensä julistaa iso-8859-1:n mukaisiksi Muiden kuin suomenkielisten dokumenttien koodaustapojen suhteen tulee olla varovainen
Unicode-tuki Tämän linkin takana on luettelo Unicodea tukevista ja tukemattomista editoreista Esim. Dreamweaverin MX-versio sisältää tuen mutta aik. versiot 5.0:aan saakka eivät
Unicode-tuki WinXP:n pikkueditoreilla (WordPad ja NotePad) voidaan tiedosto tallentaa Unicode-muodossa Merkistö valitaan tallennusdialogin valikosta Huom. Unicodena tallennettu tiedosto ei avaudu oikein Unicodea tukemattomassa editorissa