abcDOC.net : Le X M L : I. Aux origines du XML
abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

Construction du document

Retenons trois types de documents numériques échangeables.

Le document texte (dont sont directement issus RTF et CSV) garantit la lisibilité d'une application à l'autre par sa standardisation mais sans maintenir la mise en forme originelle.

Le document HTML (et tous ses dérivés dont le multimédia et les pages construites automatiquement à partir de bases de données) offre une information dynamique universellement échangeable mais l'immensité du web pose un problème de recherche et de fiabilité. En outre, le producteur du document doit connaître le HTML (et au minimum un langage de script) et/ou s'en tenir à stocker l'information dans une base de données (donc sans présentation).

Le document paraissant le plus abouti est le PDF, mais ce n'est pas un standard. En outre, sa construction très élaborée en fait un document lourd.

Mise à jour : 20 juin 2006






Sommaire


Accueil


Page suivante

abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

Principe de séparation

Quand on produit plusieurs documents avec un traitement de texte, on crée une feuille de style dans laquelle est définie leur mise en forme commune. Ce principe là a été adopté par le monde de la presse et l'édition où depuis longtemps le document numérique existe en amont du document papier diffusé, sous le nom de pré-presse. En effet, les professionnels de l'édition séparent le fond (contenu des articles) de la forme (mise en page), deux outils différents se chargent de ces deux tâches.

En bureautique, on a l'habitude du WYSIWYG, de traiter forme et contenu simultanément. Mais en réalité, nous traitons la forme en fonction d'une structure que nous avons dans la tête. Nous pourrions simplement traiter cette structure en rédigeant sans nous soucier de la forme. Par exemple, dire « ceci est un titre de 2e niveau » sans avoir besoin de définir qu'il sortira en gras dans une police arial 16.

Mise à jour : 12 mars 2003






Page précédente


Accueil


Page suivante

abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

Principe d'une base standard

Imaginons maintenant que dans un document texte, nous ajoutions ces informations de structure :

  • titre du document : abcDOC.net
  • titre de la 1ère section : Le document numérique
  • titre du 1er chapitre : Comment communique un ordinateur avec ses proches ?
  • titre du 1er article : Le courant passe-t-il entre nous?
  • 1er corps de texte : bla bla bla...

Un programme traitera ce document pour le formater en fonction des renseignements qu'il recueillera sur sa structure :

  • J'écris le titre du document en Verdana 18 violet
  • J'écris le titre de la 1ère section en Verdana 16 violet, je le place dans le sommaire principal, je le référence dans les métadonnées, etc.

Il faudra bien sûr que le programme qui traite le document de base distingue le contenu des informations sur la structure, et sache interpréter celles-ci. Ce qui implique une standardisation (comme pour le code ASCII) formelle du document de base. Ce futur prometteur existe déjà !

Mise à jour : 12 mars 2003






Page précédente


Accueil


Page suivante

abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

Description du document de base

Mettons les informations concernant la structure - la description du document - entre chevrons simples, <1er corps de texte>, et nous obtenons une balise ouvrante après laquelle nous écrirons du contenu jusqu'à placer une balise fermante pour signifier que le contenu du 1er corps du texte est donné. Outre du contenu, on peut placer d'autres balises entre les balises de façon à créer une structure imbriquée (à l'instar du classement des fichiers sous l'explorateur Windows par exemple).

LaTex (issu de TeX) et SGML sont les langages de balisage (ou de description de document) les plus anciens utilisés dans les domaines de la presse et des sciences pour les documents de base suivant les principes qui viennent d'être décrits.

Il faut tout de même préciser que ces langages sont destinés aux professionnels à qui ils offriront un résultat plus satisfaisant, la possibilité de changer les outils de traitement sans revenir sur le document de base, et par suite, une conservation qui ne sera pas remise en question par les progrès de la photocomposition et de l'imprimerie, mais ils restent assez difficiles à apprendre et à manier, et de ce fait, les logiciels de PAO WYSIWYG leur ont été préférés par les entreprises non spécialisées... au détriment d'un document standard de base, indépendant de toute mise en forme et des évolutions technologiques, donc pérenne...

Mise à jour : 12 mars 2003






Page précédente


Accueil


Page suivante

abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

Formatage

Le document de base standard pourra être conservé, transporté, transformé en format terminal par des outils divers, changeant d'un secteur d'activité à un autre, d'une époque à une autre.

Parmi les langages de formatage, le PostScript est le plus répandu en pré-presse, il sert même à faire fonctionner certaines de nos petites imprimantes de bureau. Il a été créé par Adobe et PDF n'est qu'un développement de ce format destiné à l'écran. En même temps, l'évolution de PDF supplante PostScript dans l'impression.

Mise à jour : 12 mars 2003






Page précédente


Accueil


Page suivante

abcDOC.net > Le X M L >
I. Aux origines du XML

ÉdiPo

Site optimisé pour une lecture plein écran (800x600 de préférence)

SGML et ses enfants

En Standard Generalled Markup Language, les balises n'ont pas de noms pré-établis, il faudra donc que le programme de formatage se renseigne sur le sens des balises dans un autre fichier (éventuellement inséré dans le fichier du document de base) appelé DTD, en français : Définition du document type.

Le HTML a été construit à partir du SGML qui est un métalangage.

Les balises du HTML sont définies d'avance. Ce langage du web représente en fait une DTD particulière du SGML. C'est le navigateur qui le formate.

Le succès du HTML et ses limites ont prouvé que dans le monde nouveau du web, il fallait un langage du même type mais plus puissant...

Mise à jour : 12 mars 2003






Page précédente


Accueil


Sommaire

Accueil - Info éditeur - Nous écrire
© ÉdiPo, 2000-2006 - Reproduction interdite sans accord de l'éditeur