Déclaration SGML 

Sommaire

  1. Le jeu de caractère du document
    1. Transferts de données
  2. La déclaration SGML

Le jeu de caractère du document 

Le jeu de caractères des documents HTML 4.0, au sens du SGML, est l'Universal Character Set (UCS) défini dans l'[ISO10646]. Actuellement, il s'agit d'un jeu identique "un à un" au standard [UNICODE].

Transfert de données 

Lorsque du texte HTML est transmis directement encodé UCS-2 (charset="UNICODE-1-1"), on pourra se poser la question de l'ordre des octets : les poids forts de chaque caractère, alors composé de deux octets, doivent-ils être transmis en premier ou en second ? La présente spécification recommande que l'UCS-2 sous transmis selon l'ordre "big-endian" (octet de poids fort en premier), ce qui correspond aux recommandations de transmission réseau de données textuelles sérialisées sur deux octets comme de l'[UNICODE]. De plus, pour augmenter les chances d'une bonne interprétation, il est également recommandé que les documents transmis encodés UCS-2 commencent toujours par un caractère d'ESPACE INSECABLE A VALEUR NULLE (FEFF en hexa) qui, s'il est inversé, devient FFFE, un caractère notoirement inutilisé. Par ce système, un agent utilisateur recevant dans ses premières données un code FFFE pourra détecter que le sens standard de transmission a été interverti pour le reste du document.

Le format de transformation en UTF-1 défini par l'[ISO10646] (enregistré par l'IANA en tant que ISO-10646-UTF-1) ne devra pas être utilisé.

La déclaration SGML 

   <!SGML  "ISO 8879:1986"
   --
        SGML Declaration for HyperText Markup Language version 4.0

        With support for Unicode UCS-4 and increased limits
        for tag and literal lengths etc.
   --

   CHARSET
            BASESET  "ISO Registration Number 177//CHARSET
                      ISO/IEC 10646-1:1993 UCS-4 with
                      implementation level 3//ESC 2/5 2/15 4/6"
            DESCSET  0   9     UNUSED
                     9   2     9
                     11  2     UNUSED
                     13  1     13
                     14  18    UNUSED
                     32  95    32
                     127 1     UNUSED
                     128 32    UNUSED
                     160 2147483486 160
   --
       In ISO 10646, the positions with hexadecimal
       values 0000D800 - 0000DFFF, used in the UTF-16
       encoding of UCS-4, are reserved, as well as the last
       two code values in each plane of UCS-4, i.e. all
       values of the hexadecimal form xxxxFFFE or xxxxFFFF.
       These code values or the corresponding numeric
       character references must not be included when
       generating a new HTML document, and they should be
       ignored if encountered when processing a HTML
       document.
   --

   CAPACITY        SGMLREF
                   TOTALCAP        150000
                   GRPCAP          150000
             ENTCAP         150000

   SCOPE    DOCUMENT
   SYNTAX
            SHUNCHAR CONTROLS 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
              17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 127
            BASESET  "ISO 646IRV:1991//CHARSET
                      International Reference Version
                      (IRV)//ESC 2/8 4/2"
            DESCSET  0 128 0

            FUNCTION
                     RE            13
                     RS            10
                     SPACE         32
                     TAB SEPCHAR    9

            NAMING   LCNMSTRT ""
                     UCNMSTRT ""
                     LCNMCHAR ".-"  -- ?include "~/_" for URLs? --
                     UCNMCHAR ".-"
                     NAMECASE GENERAL YES
                              ENTITY  NO
            DELIM    GENERAL  SGMLREF
                     SHORTREF SGMLREF
            NAMES    SGMLREF
            QUANTITY SGMLREF
                     ATTSPLEN 65536   -- These are the largest values --
                     LITLEN   65536   -- permitted in the declaration --
                     NAMELEN  65536   -- Avoid fixed limits in actual --
                     PILEN    65536   -- implementations of HTML UA's --
                     TAGLVL   100
                     TAGLEN   65536
                     GRPGTCNT 150
                     GRPCNT   64

   FEATURES
     MINIMIZE
       DATATAG  NO
       OMITTAG  YES
       RANK     NO
       SHORTTAG YES
     LINK
       SIMPLE   NO
       IMPLICIT NO
       EXPLICIT NO
     OTHER
       CONCUR   NO
       SUBDOC   NO
       FORMAL   YES
   >