HTML et URL

Sommaire

Universal Resource Locators (URL)

Le World Wide Web est un réseau de ressources informationnelles multimédia. Le Web s'appuie sur trois mécanismes qui rendent ces ressources accessibles à l'audience la plus large possible :

Une norme unique de nommage, pour que toutes les ressources du Web soient accessible selon un schéma uniforme (URL).
Des protocoles, qui permettent l'échange des ressources nommées à travers le Web (HTTP).
Un système de liaison hypertexte, qui permet l'organisation d'une navigation d'une ressource à l'autre (HTML).

Dans cette section du manuel de référence seront présentés (de façon minimale) les points concernant le Web qui ont un impact sur le HTML.

Universal Resource Locators (URL)

Chaque ressource accessible par le Web --- document HTML, image, vidéo clip, programme, etc. --- a une addresse pouvant être encodée en une Localisation Universelle de Ressource, ou "URL" (définies dans le document cité [RFC1738]).

Une URL consiste typiquement en trois parties :

Le nom du protocole utilisé pour tranférer la ressource via le réseau.
Le nom de la machine hébergeant la ressource.
Le nom de la ressource elle-même, avec son chemin d'accès complet dans cette machine.

Considérez l'URL qui désigne le document HTML original sur lequel se base cette spécification :

http://www.w3.org/TR/WD-html4/cover.html

Cette URL peut être lue ainsi : Utiliser le HTTP protocole pour transférer les données résidant sur la machine www.w3.org dans le fichier /TR/WD-html4/cover.html.

Les URL sont en général sensibles à la casse (à l'exception de la partie décrivant le nom de machine). Des URL, ou parties d'URL, peuvent être à casse non significative, mais cette propriété est quasiment impossible à détecter à priori. Les utilisateurs devront donc en général toujours agir comme si les URL étaient à casse significative.

Le jeu de caractères utilisé pour encoder les URL apparaissant dans les documents HTML est spécifié dans le document [RFC1738].

URL de fragment

La spécification des URL en vigeur (NdT : en français dans le texte) au moment où ce document est écrit ([RFC1738]) offre un mécanisme pour pointer une ressource, mais pas un endroit précis dans une ressource. La communauté du Web a adopté une convention appelée "URL de fragment" pour "pointer" une ancre placée à l'intérieur d'un document HTML. Une URL de fragment se termine par un "#" suivi de l'identificateur d'une ancre. Par exemple, voici une URL pointant une ancre nommée section_2 :

http://somesite.com/html/top.html#section_2

URL relatives

Une URL relative (définie dans le document [RFC1808]) ne contient aucune information de protocole ni de machine, et le chemin d'accès se référe en général à un document HTML situé sur la même machine que le document courant. Des URL relatives peuvent contenir un chemin d'accès relatif contenant des schémas ".." (".." signifie le père de la position atteinte jusque là) et peut être une URL de fragment.

Des URL relatives peuvent être résolues pour redonner des URL absolues, par exemple lorsque l'utilisateur essaie de suivre un lien partant d'un document vers un autre. Le document [RFC1808] définit l'algorithme normalisé pour la résolution des URL relatives. La description suivante n'est citée que par commodité.

En bref, une URL complète (Ndt. dite aussi "entièrement spécifiée") est obtenue à partir d'une URL relative en attachant une partie, une "base", à l'URL relative. La "base" est une URL qui peut provenir de n'importe laquelle des sources suivantes :

Une information tirée des champ d'en-tête HTTP (voir la [RFC2068]).
Une métadonnée (dans un élément META) contenue dans la section HEAD d'un document HTML.
Une "base" exprimée explicitement (l'élément BASE) dans la section HEAD d'un document HTML, ou l'attribut CODEBASE de l'élément APPLET.

Le document [RFC1808] préconise la priorité des sources d'information de "base" à considérer. Pourles besoins de cette explication, la dernière source (explicite) de "base" l'emporte sur toutes les autres, les en-têtes HTTP étant considérées être arrivées avant la section HEAD du document.

Si aucune "base" explicite n'accompagne le document, l'URL de base est celle qui pointe sur le répertoire du document courant.

A partir d'une URL de "base" et une URL relative, (qui ne commence pas par un slash), une URL absolue peut être construite ainsi :

Si l'URL de "base" se termine par un slash, l'URL complète est construite en concaténant simplement l'URL relative avec l'URL de "base". Par exemple, si la "base" vaut http://nosite.com/dir1/dir2/ et l'URL relative vaut gee.html, l'URL complète obtenue par construction vaut http://nosite.com/dir1/dir2/gee.html.
Si l'URL de "base" ne se termine pas par un slash, le dernier identificateur de la base est considéré comme le nom d'une ressource, et l'URL complète est construite en concaténant l'URL relative à cette URL raccourcie du nom de ressource (donc dans le répertoire père) Par exemple, si l'URL base vaut http://nosite.com/dir1/dir2 et l'URL relative vaut gee.html, l'URL complète obtenue vaudra http://nosite.com/dir1/gee.html

URL dans des documents HTML

En HTML, les URL jouent un rôle dans les situations suivantes :

Pour référencer des métadonnées décrivant un document (voir l'élément HEAD).
Pour citer une référence externe (voir les éléments Q, BLOCKQUOTE, INS, et DEL).
Pour inclure directement un objet dans un document (voir les éléments OBJECT, IMG, MAP, FRAME, et IFRAME).
Pour établir un lien vers un autre document ou programme (voir les éléments BASE, A, LINK, AREA, FORM, INPUT, SCRIPT, et APPLET).

Dans chacun de ces cas, les auteurs utiliseront de préférence des URL absolues, des URL de fragment, ou des URL relatives. Consultez la section traitant des ancres pour plus d'informations sur les rapports entre liens et URL.

URL de type MAILTO

En plus des URL HTTP, les auteurs sont autorisés à utiliser des URL de type MAILTO (voir [RFC1738]) dans leurs documents. Les URL de type MAILTO provoquient l'émission d'un courrier électronique vers une adresse donnée. Par exemple, un auteur souhaitera créer un lien qui, une fois activé, va demander à l'agent utilisateur d'activer un programme de courrier dont le champ "To:" est l'adresse de destination.

Les URL de type MAILTO ont la syntaxe suivante :

mailto:adresse-email

Les agents utilisateurs pourront supporter des extensions d'URL MAILTO qui ne sont pas encore reconnus comme standards d'Internet (ex., ajoutant une information d'objet du message à une URL grâce à un complément de syntaxe du type "?Subject=my%20subject" dans lequel tous les espaces doivent être écrits "URL encodés" (remplacés par la chaîne "%20").