Suchen und Finden

Titel

Autor/Verlag

Inhaltsverzeichnis

Nur eBooks für mein Endgerät anzeigen:

 

Newsletter

XML/XSL für Windows und Macintosh.

XML/XSL für Windows und Macintosh.

von: Christine Kränzler

Markt +Technik Verlag, 2002

ISBN: 9783827263391, 405 Seiten

Format: PDF, OL

Mac OSX,Windows PC Apple iPad, Android Tablet PC's Online-Lesen für: Linux,Mac OSX,Windows PC

Preis: 14,95 EUR

Ersparnis: 15,00 EUR

  • Windows Vista optimal konfigurieren
    Dateiverwaltung in Windows Vista
    Im Zeichen der roten Sonne - Band 1 der Japan-Trilogie
    Die Geheimnisse des Nicholas Flamel - Der unsterbliche Alchemyst.
    Microsoft Active Server Pages - Programmierung dynamischer, datenbankgestützter Webseiten
    Quicksilver
    Aufatmen! - In nur einem Tag endgültig zum Nichtraucher.
    Karaoke
  • Active Directory
    Jetzt lerne ich XML: Der einfache Einstieg in den führenden Dokumenten- und Web-Standard
    Der faule Henker
    Jetzt lerne ich PHP 5 & MySQL 4.1
    Die Geheimnisse des Nicholas Flamel - Der dunkle Magier

     

     

     

     

 

Mehr zum Inhalt

XML/XSL für Windows und Macintosh.


 

UNICODE UND DIE RICHTIGEN SPRACHPARAMETER (S. 117-118)

Computer können die unterschiedlichsten Zeichen darstellen, aber nicht „verstehen" (verarbeiten). Konkret bedeutet das, dass jedes Schriftzeichen, das auf dem Bildschirm oder in einem Papierausdruck erscheint, nur ein Bild ist, dem intern eine Zahl zugeordnet ist. Eine Sammlung solcher Schriftzeichen und der zugehörigen Zahlen nennt man einen Zeichensatz.

Ursprünglich unterstützten Computer nur einen begrenzten Zeichenvorrat, PCs z. B. arbeiteten nur mit dem ASCII-Zeichensatz (American Standard Code for Information Interchange), der US-Fassung des ISO-7-Bit- Codes (auch ISO 646). Er umfasste das englische Alphabet, die Ziffern 0 bis 9 und einige Sonder- und Interpunktionszeichen. Erste lokale Anpassungen ergaben sich durch nationale Varianten des ISO-7-Bit-Codes, in denen 12 der ASCII-Sonderzeichen durch länderspezifische Zeichen wie Umlaute oder das skandinavische Å ersetzt wurden.

Mit dem auf 8 Bit erweiterten IBM-Zeichensatz gesellten sich einige griechische und mathematische Zeichen hinzu und erst der Zeichensatz ISO-8859-1 versorgte den Anwender mit allen für westeuropäische Sprachen erforderlichen Sonderzeichen wie Umlaute, diverse Akzentzeichen usw. Entsprechend gab es für andere Sprachumgebungen eigene Zeichensätze, etwa KOI8-R für das russische Alphabet oder JIS X 0208 für japanische Ideogramme (Schriftzeichen, die jeweils für einen ganzen Begriff stehen).

In jüngster Zeit jedoch entstand immer mehr der Bedarf, Computerumgebungen international zu gestalten. Daher wurde ein universeller Zeichensatz geschaffen – Unicode. Dieser Zeichensatz deckt – angefangen bei deutschen Umlauten, speziellen Interpunktionszeichen oder Ligaturen über japanische Schriftzeichen bis hin zu indianischen Zeichen oder Runen – ganz unterschiedliche Schriftzeichen ab und ist identisch mit dem Zeichensatz ISO/IEC 10646. Im Unicode-Zeichensatz lassen sich theoretisch 1 114 111 Schriftzeichen codieren, das ist mehr als ausreichend für alle Sprachen der Welt.

Zeichensätze in XML

Der XML-Zeichensatz ist Unicode. Das heißt, ein XML-Parser (oder -Prozessor) muss jedes Unicode- Zeichen unterstützen. Das heißt aber nicht, dass jedes XML-Dokument in Unicode gespeichert werden muss, denn die meisten XML-Parser unterstützen zusätzlich die wichtigsten anderen Zeichensätze wie ISO-8859-1 (für westeuropäische Zeichen) oder weitere Zeichensätze nach dem ISO-Standard. Daher ist es möglich, auch in diesen Formaten gespeicherte XMLDokumente zu verwenden. Einzige Voraussetzung: Der Fremdzeichensatz muss in der XMLDeklaration des Dokuments deklariert sein.

Anhand dieser Information kennt der Parser die Codierung des Ausgangstexts und konvertiert ihn in Unicode. Wenn Sie nun in einem solchen XML-Dokument mit eingeschränktem Zeichenvorrat dennoch ein besonderes Zeichen benötigen (etwa weil Sie ein Zitat in japanischen Schriftzeichen anführen möchten oder ganz einfach ein Copyright-Zeichen benötigen), so ist auch das möglich und zwar in Form einer Zeichenreferenz. Der Zahlencode in Zeichenreferenzen bezieht sich immer auf den Unicode-Zeichensatz und nicht etwa auf den aktuell deklarierten.

In welchem Zeichensatz ist ein Dokument gespeichert?

Ein XML-Dokument speichern Sie entweder als reine Textdatei oder in einem Unicode-Format. Doch in welchem Zeichensatz bzw. in welcher Codierungsform Ihr Dokument genau gespeichert ist, ist dennoch ungewiss. Wenn Sie einen Unicode-Editor haben, sind Sie fein raus, denn der Parser kann an der ersten Bytefolge der Datei selbst ermitteln, welche Codierungsform aktiv ist: Beginnt die Datei mit FE FF, ist es UTF-16BE (Big Endian), mit FF FE

Lesen Sie nach ...

- Wie Sie den aktuellen Zeichensatz deklarieren, erfahren Sie in Kapitel 6 im Abschnitt Die XML-Deklaration.

- Zeichenreferenzen werden ebenfalls in Kapitel 6 erläutert.