II-B-1

De UDPN wiki
Aller à la navigation Aller à la recherche

B - Quelle(s) méthode(s) ?[modifier | modifier le wikicode]

Laurent Romary/laurent.romary(a)inria.fr

Normes et patrimoine numérique[modifier | modifier le wikicode]

Rôle des normes dans une démarche de numérisation du patrimoine[modifier | modifier le wikicode]

Les politiques institutionnelles liées à la gestion du patrimoine matériel et notamment documentaire ont été petit à petit transformées par la place grandissante qu’ont pris des projets de numérisation ambitieux portés notamment par les grandes institutions patrimoniales un peu partout dans le monde. En France, la BNF a très tôt montré le mouvement avec la démarche exemplaire portée par le projet Gallica[1] qui, partant d’une ouverture initiale de ses fonds en texte intégral, met maintenant à disposition de ses usagers tout un ensemble de sources numérisées, qu’il s’agisse de textes, documents sonores, vidéos ou même artefacts. Tout récemment encore, la mise en ligne de l'édition numérique des Testaments de Poilus[2], issus de fonds des archives nationales ainsi que des archives départementales des Yvelines et du Val-d’Oise, a montré que l’on pouvait adopter des démarches originales où la technologie vient compléter un travail de transcription distribué (crowd-sourcing) pour fournir in fine une base documentaire riche et précise utilisable à la fois par les chercheurs et le grand public.

Ce dernier projet est d’autant plus exemplaire qu’il offre, au-delà des versions images ou textes lisibles en ligne, la possibilité d’accéder à une représentation source encodée suivant les directives de la Text Encoding Initiative[3], la principale démarche de normalisation existante dans le domaine des données textuelles. On met le doigt ici sur un élément central de tout projet de numérisation en contexte patrimonial, à savoir la nécessité de dépasser la simple mise en ligne d’objets numériques que l’on peut consulter directement sur le site des projets concernés, pour créer un véritable patrimoine numérique ouvert et réutilisable pour toute une variété d’usages, notamment scientifiques. Dans ce cadre, la patrimonialisation numérique ne pourra être effective que si l’on adopte, pour la représentation des données correspondantes, des formats pérennes dont l’utilisation ne dépendra pas de plates-formes logicielles ou matérielles particulières. C’est ici que les normes viennent jouer leur rôle de médiateur neutre entre émetteur et récepteur d’un processus technique.

Dans ce contexte, le présent chapitre a un double objectif. D’une part, il vise à donner une idée précise de la façon dont les normes en général sont définies, publiées et maintenues. D’autre part, par le biais de différents exemples de normes au cœur de nombreux projets de numérisation de fonds patrimoniaux, nous allons essayer d’ouvrir différents débats qui animent les réflexions autour de l’usage des normes. Pourquoi une telle variété de normes, et d’organisations de normalisations ? Pourquoi existe t’il parfois des normes aussi différentes entre les projets portés par des archives ou des bibliothèques et les travaux des chercheurs, par exemple dans la création d’une édition numérique critique ? Quelle peut être à terme la bonne stratégie pour créer de véritables fonds numériques patrimoniaux pérennes ?


Les normes comme instrument/au service de la patrimonialisation

Patrimoines numérisés. Passage dans un univers technique particulier : intangible dépendant des architectures matérieles et logiciels. Tout cela a un cout. Importance de la réutilisabilité et de la pérennité. Patrimoine numérisé doit pouvoir devenir un patrimoine numérique.

Rôle des normes : pérennité dans l’espace et le temps. Ex. insensibilité aux évolutions matérielles et logicielles, et surtout de spécificité que pourrait imposer un acteur moins soucieux de l’intérêt public.

Schéma DIM MAP => complexité de workflow, de nombreuses étapes.

Comprendre les normes et le processus normatif[modifier | modifier le wikicode]

Le discours sur les normes n’est pas toujours à la hauteur des enjeux. Leur existence est souvent ignorée de ceux qui en aurait besoin. Des codes langues (vide infra) jusqu’à la représentation des dates, il n’est pas rare de découvrir qu’un développement informatique a conduit à une sur-créativité désastreuse en la matière.

Les normes sont aussi parfois raillées, notamment parce qu’elles seraient complexes ou parce qu’il y en aurait trop. On voit ainsi souvent citée la petite bande dessinée d’XKCD[4], parangon du standards bashing, qui trahit souvent une méconnaissance des processus de normalisation, ainsi que du rôle de complémentarité que peuvent jouer les normes entre-elles.

Je vais donc m’attacher ici à décrire les fondements de la normalisation pour que chacun puisse mieux en comprendre les attendus, mais aussi pour identifier comment intégrer ces éléments dans la perspective de leur application au domaine du patrimoine.

La première chose à garder en tête est qu’une norme n’est pas un texte légal, c’est un instrument de contrat social qui permet à l’utilisateur d’un dispositif, principalement technique, d’en connaître un certain nombre de propriétés sur la base d’une déclaration de conformité à une certaine norme de la part du producteur de ce dispositif. Ainsi, si un logiciel signale sa conformité à la norme ISO 8601-1, l’acheteur de ce logiciel est en droit de s’attendre que les formats des dates utilisés par celui-ci sont conformes à la norme correspondante, mais rien légalement n’oblige le vendeur à utiliser la norme. Au pire, l’acheteur pourra se retourner juridiquement contre le vendeur pour tromperie concernant les propriétés de son logiciel. Bien sûr, les normes peuvent ensuite être utilisées dans un cadre plus officiel, comme par exemple l’attribution d’un label[5], ou même quand un organisme de normalisation travaille la main dans la main avec une organisation internationale qui publie des règlements reposant sur une famille de normes donnée[6].

Pour que le contrat social fonctionne, il est nécessaire qu’un minimum de confiance soit attaché à une norme donnée de sorte qu’elle soit effectivement comprise et appliquée. Cette confiance peut passer par la reconnaissance qu’a l’organisme de normalisation où elle a été développée (nous reviendrons là-dessus), ou simplement parce qu’elle s’est déployée peu à peu avec succès au sein d’une communauté. Dans tous les cas, l’expérience prouve qu’il y a trois critères fondamentaux qui doivent être vérifiés pour qu’une norme s’ancre de façon solide et pérenne dans son domaine technique.

Tout d’abord, la norme doit être le résultat d’un travail de consensus au sein d’une communauté d’experts reflétant au mieux les fondements techniques couverts par la norme. Une norme ne peut être le fruit d’un travail individuel, ou un travail théorique déconnecté du monde qui l’entoure. Le consensus doit permettre de couvrir le mieux possible l’état de l’art, de prendre en compte les éventuelles variations techniques qui peuvent exister entre différentes sous-communautés, et surtout permettre à la norme d’avoir un cran d’avance sur l’état de l’art de sorte à ce qu’elle soit susceptible de couvrir les inévitables évolutions que sa publication même va déclencher. En effet, la production d’une norme technique et son utilisation par une communauté large d’utilisateurs qui la mettent en œuvre conduit quasi automatiquement à la création d’un fonds de compétence vis-à-vis de la norme qui conduit les utilisateurs à dériver de nouveaux usages et de nouvelles constructions techniques. On l’observe ainsi depuis toujours au sein de la TEI où dès qu’un mécanisme que l’on croit spécifique à un usage (par exemple l’attribut @status associé à un document pour indiquer son degré de validation) est repris très rapidement par utilisateurs pour en étendre l’usage (pour reprendre notre exemple, pour déterminer le degré de finalisation éditoriale d’une entrée de dictionnaire[7]).

La deuxième contrainte associée à une norme est que celle-ci soit effectivement disponible. Même si la chose peut paraître évidente, elle exclue par principe les « normes » industrielles ou communautaires dont la documentation n’est pas disponible pour tous. Bien sûr, suivant le modèle économique associé à l’organisme de normalisation, les conditions d’accès libre ou payant, de citation ou de droits d’auteurs peuvent varier. Mais il doit exister un moyen simple d’accéder au document. Là encore, c’est un élément essentiel du contrat social associé à la norme puisque le concepteur d’un objet technique, comme l’utilisateur de celui-ci doivent tous deux pouvoir vérifier la conformité au cadre normatif. Si l’on creuse plus finement ce critère, il est bien sûr possible d’envisager différents niveaux d’exigence qui peuvent avoir un impact sur l’utilisabilité de la norme. Ainsi, un simple document PDF — comme fournit par l’ISO — ne permet pas facilement d’effectuer des tests de conformité techniques sur un format de données par rapport à une norme qui serait associée à un schéma de validation comme c’est le cas pour l’EAD ou la TEI.

Enfin, un élément essentiel du cycle de vie d’une norme est sa maintenance. Les contextes techniques et les connaissances évoluant, une norme doit pouvoir s’adapter en intégrant dès sa conception un processus de mise à jour. Il peut s’agir d’un processus d’évolution en continue, comme c’est le cas pour la TEI ou les codes langue de la série ISO 639, ou un processus déclenché à intervalle régulier, comme c’est le cas pour l’ISO par défaut. [Que se passe t’il en l’absence de stratégie de maintenance, ex. EAD]

“The group agreed that when elements had a close analog in the TEI guidelines, the element name and, when appropriate the element content model, should be taken from the TEI guidelines.”

https://www.loc.gov/ead/eaddev.html

On perçoit sur ce dernier exemple le rôle essentiel que joue le cadre organisationnel lié au travail de normalisation et en particulier pourquoi la plupart des standards sont de fait développé au sein d’une organisation de développement de normes (SDO – standards development organization). Une telle organisation est en général indispensable pour garantir la mise en œuvre des trois piliers de la normalisation (consensus, diffusion, maintenance) évoqués ci-dessus, et ce en assurant l’organisation du travail de normalisation autour de trois fonctions principales :

·     La gestion de la participation d’experts à la définition des normes ;

·     L’organisation des étapes du cycle de vie du document, de la proposition initiale à la publication finale ;

·     Le recueil de l’acquiescement de ses membres en fonction de sa structure et de son modèle économique.

Le dernier point est essentiel car la normalisation coute cher et nécessite qu’une organisation de normalisation soit viable sur le long terme de façon à garantir la pérennité des travaux correspondants. Ainsi derrière toute organisation de normalisation il y a un consortium de membre, individuels ou institutionnels, publics ou privés qui contribue au financement de l’activité, en complément de l’éventuel vente des normes produites.

[Tableau des modèles des principaux SDO – cf. slides 2018-01-31]

Quel que soit l’organisme de normalisation concerné, il est une distinction qu’il est utile de garder en tête lorsqu’on parle de normalisation, à savoir la différence entre normes horizontales et verticales. Une norme horizontale va couvrir un large spectre de domaines applicatifs et, dans le cas du domaine numérique, va pouvoir être considérer comme une brique indispensable pour que tout système d’échange de données puisse fonctionner. C’est typiquement le cas de normes génériques telles que l’ISO 10646-Unicode ou les codes de langue (la série ISO 639). A l’inverse, une norme verticale est dédiée à un domaine particulier en tentant de couvrir précisément un besoin technique d’une communauté. EAD en est un bon exemple.


Normes du patrimoine (des professionnels)

·     Déployement en largeur – objectif précis

·     Cf. coûts de numérisation – stabilité nécessaire

·     Mise en œuvre lente : démarche insérée dans une vision à moyen terme du patrimoine numérique et des besoins des utilisateurs

·     Coût de développement des outils – grand conservatisme de l’usage des norme, difficultés à suivre leurs évolutions

Enfin, le déploiement de normes liées à la numérisation des contenus des établissements patrimoniaux se heurtent à des réticences liées à l’ouverture même de ces contenus qui risque d’en résulter. Tout d’abord, la mise en ligne des contenus nécessite de porter une attention plus grande aux contraintes de diffusion et de réutilisation des fonds existants, qu’il s’agisse d’aspects liés aux droits d’auteurs ou à la protection de données personnelles (dans le cas par exemple de fonds récents d’archives personnelles). Bien que la directive européenne PSI, et son implémentation dans les lois Valter et LPR cadrent relativement bien l’ouverture par défait des contenus, de nombreux établissements, notamment les plus petits, n’ont pas les moyens d’accompagner le déploiement de fonds numérique en ligne d’une vérification des contraintes légales qui s’imposent éventuellement. Pour les mêmes raisons, il y a souvent une réticence supplémentaire qui s’exprime de la part de certaines archives d’ouvrir leurs fonds et que nous avons rencontré au cours du projet Cendari portant sur les archives Européennes liées à la première guerre mondiale. Certaines institutions ont en effet peur que l’ouverture numérique, favorisée par le déploiement de normes telles qu’EAD, n’attire des communautés d’utilisateurs plus nombreuses pour lesquels elles n’auraient pas les personnels d’accueil suffisants pour répondre aux demandes de consultation des fonds.

Normes du chercheur :

·     Granularité plus faible, celle des sources utiles à la recherche

·     En l’absence de la contrainte de travailler en largeur : Décrire des données stables, réutilisables (on dirait en Novlangue FAIR)

·     S’intégrer dans une communauté, Nécessité d’une communauté culturelle autour de la norme (cf. TEI)

·     Passer le plus vite possible du concept à la représentation par l’usage d’un vocabulaire commun

Ccl : il est rare que les deux se retrouvent – il faut souvent faire des passerelles

Les normes pour le patrimoine dans la pratique[modifier | modifier le wikicode]

[Quelques exemples : que démontrer au travers de ces exemples? ]

Cette section est destinée à montrer comment les normes se créent et évoluent en lien avec les activités de numérisation et de recherche sur le patrimoine. La sélection ci-dessous est forcément biaisée : d’une part, je n’ai choisi que des normes que j’ai pratiquées, à différents niveaux de précision, et d’autre part, le choix vise explicitement à montrer la variété des communautés et donc des besoins quand il s’agit de représenter des contenus patrimoniaux numérisés.

Vue biaisée de l’auteur

Le mille-feuille du codage des langues[modifier | modifier le wikicode]

Le meilleur exemple par lequel nous pouvons commencer est bien sûr le codage des langues. Il s’agit en effet d’un domaine central pour la gestion du patrimoine numérique à caractère linguistique (écrit, oral), mais aussi pour tout ce qui touche au catalogage et à la documentation de n’importe quel objet patrimonial physique ou numérique. Le domaine codage des langues est aussi l’une des activités normatives ayant eu le plus d’impact en technologies de l’information, probablement juste derrière la norme ISO/IEC 10646[8].  Enfin, l’ensemble du mille-feuille normatif autour du codage des langues illustre parfaitement les rôles complémentaires que peuvent jouer certaines normes et leurs agences de normalisation respectives pour offrir un cadre solide et évolutif de représentation d’objets numériques.

L’ensemble de l’édifice normatif relatif au codage des langues repose sur la série de normes ISO 639 développée conjointement par les comités techniques 37 (Langue et terminologie) et 46 (Information et documentation) de l’ISO. Son histoire, qui remonte à une première norme publiée en 1967 (ISO 639/R) ainsi que sa nature pluridisciplinaire à la croisée entre technologies de l’information, sciences des bibliothèques et linguistique se retrouve dans la structure actuelle de la série normative.

A un premier niveau, la norme ISO 639-1 introduit des codes à deux lettres pour un noyau de 210 langues correspondant aux priorités du monde des bibliothèques à l’origine du projet. Les codes sont accompagnés de noms en anglais, en français et dans la langue elle-même (autoglossonymes). Ces codes sont de fait figés ;

Les parties 2 et 3 de la série ISO 639 définissent des codes à trois lettres. La partie 2 définit une sous-série de 500 langues[9] auxquelles sont parfois (pour 25 d’entre elles) associés 2 codes, afin d’assurer une compatibilité avec les pratiques de la bibliothèque du congrès américain. C’est d’ailleurs cette même bibliothèque du congrès (Library of Congress) qui gère l’autorité d’enregistrement correspondante.

La partie 3 de l’ISO 639 définie elle aussi des codes à trois lettres mais visent à une couverture la plus exhaustive possible des langues vivantes ou anciennes. Son autorité d’enregistrement est le SIL, une agence confessionnelle de documentation linguistique, qui a apporté un fond initial de langue important avec son registre Ethnologue[10].

Histoire (1967), pluridisciplinarité, évolution des technologies et des connaissances. Intégration XML/W3C

4 et 5

Cf. recherche Mixtepec

Cf. 10646-Unicode rigueur et flexibilité

Au-delà de la richesse descriptive de la série de normes ISO 639, l’essentiel de leur utilisation se fait par combinaison et intégration dans un mille-feuille de normes particulièrement efficace à couvrir une large gamme d’usages de qualifications linguistiques. Tout d’abord, au sein même de l’ISO différentes normes complètent l’ISO 639 dans les domaines du codage des noms d’écriture (arabe, cyrillique, latine, syriaque etc.) avec l’ISO 15924 ou des codes de noms de pays (série ISO 3166), pour localiser les langues référencées par exemple.

Ce que montre l’exemple du codage des langues, c’est que pour un domaine aussi « simple », il est nécessaire de mobiliser tout un ensemble de briques normatives issues d’organisation de normalisation aux modes de fonctionnement eux-mêmes très différents, et qu’aborder le sujet nécessite en amont une réelle éducation en la matière. C’est encore plus vrai quand on se retrouve impliqué dans une activité de normalisation verticale et qu’il faudra s’assurer que l’on n’y réinvente pas le savoir technique correspondant.

Ex. : @notation dans la TEI

Cette stratification technologique peut aussi avoir ses dangers quand il s’agit de planifier des changements stratégiques dans un domaine particulier. L’évolution de la représentation des données vers le web sémantique et les données liées implique que l’on dispose d’un référencement des codes langue sous la forme d’URI cohérentes et pérennes. A quel niveau une telle évolution doit-elle s’opérer et comment les différents acteurs peuvent ils se coordonner ?

La TEI – une réussite à tous les étages[modifier | modifier le wikicode]

Alors que la série ISO 639 est devenu une norme horizontale incontournable au niveau international, on peut qualifier la Text Encoding Initiative de plus beau succès de normalisation verticale. Initiée il y a un peu plus de 30 ans avec comme objectif de fournir un cadre de représentation commun à plusieurs projets de bases textuelles qui se mettaient en place dans les années 80, elle est devenue le cadre de référence incontournable pour tout projet de numérisation de données textuelles, dès qu’il comporte une dimension d’interopérabilité ou de préservation (Romary, 2009). [Une phrase parlant de sciences humaines et d’HN]

La TEI repose sur une infrastructure solide reposant sur l’usage systématique de la recommandation XML pour la sérialisation de ses modèles de données, associé à un vocabulaire extrêmement riche couvrant à la fois toute une palette de formes textuelles (prose, théâtre, dictionnaires, transcription de données orales), mais aussi son propre langage de spécification[11]. C’est dans ce langage, sous-ensemble des directives de la TEI, qu’est décrit l’ensemble de la documentation et des spécifications de la TEI suivant le principe de la programmation lettrée issue des travaux de D. Knuth (1984).

Ce même langage de spécification est disponible à chaque utilisateur ou projet pour spécifier et surtout documenter la façon dont la TEI a été utilisée dans un contexte donné. On peut ainsi décrire le sous-ensemble des éléments XML utilisés, contraindre les valeurs d’un élément ou d’un attribut voire même ajouter des objets particuliers au vocabulaire de la TEI. Ce dispositif donne des outils aux utilisateurs de la TEI qui permettent de garantir un peu plus la réutilisabilité à long terme des contenus ainsi produits.

Mais la grande force de la TEI est avant tout son modèle de standardisation ouvert qui permet de couvrir le plus étroitement possible les besoins de la communauté des utilisateurs. Tout d’abord, l’ensemble des productions de la TEI, principalement la spécification technique et les documentations qui l’accompagne, sont librement accessibles en ligne sous une licence double CC-BY et BSD 2-Clauses, qui en offre la réutilisation maximale. Le travail de maintenance de la TEI s’appuie sur un comité technique d’experts élus par la communauté (les membres individuels ou institutionnels du consortium) et surtout opérant à partir des propositions faites par les utilisateurs sur le serveur GitHub du consortium TEI[12].

Par ailleurs, la TEI intègre dans ses fondements même une dimension patrimoniale qui s’exprime à différents niveaux :

·     Tout document TEI intègre de façon obligatoire un entête contenant les métadonnées associées au contenu (le teiHeader) et qui font du document un objet numériquement autonome, y compris du point de vue de son archivage ;

·     L’entête TEI intègre l’ensemble des étapes liant le document à sa source, la création de l’objet numérique, les versions et ses conditions de publication (licence etc.) ;

·     La structure du document TEI intègre les mécanismes nécessaires pour faire référence, quand c’est approprié, aux images sources (facsimilés).

Où caser la notion de digital surrogate ?

De fait, la TEI développe une vision de l’objet numérique qui à la fois le relie fortement à sa source, qu’elle soit physique ou même une version antérieure d’un contenu que l’on a par la suite enrichi, et fait du document lui-même un objet numérique patrimoniale qui peut directement s’intégrer dans un fonds numérique plus complet. Cette démarche est ainsi à l’origine de différentes initiatives de bibliothèques numériques de référence, comme les BVH par exemple.

Au total, bien que la TEI ait connu un succès centré sur des projets principalement académique d’édition numérique de sources, on peut remarquer un intérêt croissant des institutions patrimoniales de maîtriser cette norme pour diffuser ses propres contenus, notamment dans le cadre de la mise en ligne de large fonds de texte comme à la BNF, la Bibliothèque Royale des Pays bas, ou même l’administration en charge des documents historiques des États-Unis d’Amérique (Wicentowski, 2011). De façon plus prospective, la TEI tient la corde pour devenir un format de référence quand l’essentiel de ces institutions basculeront d’une politique numérique de métadonnées, et parfois d’images, à la publication intégrale des contenus en texte plein. La puissance et la flexibilité offert par le cadre normatif de la TEI sera une base idéale pour développer des contenus qui, tout en reposant sur des démarches éditoriales affirmées par les institutions elles-mêmes, leur permettra de rester interopérable avec leurs consœurs.

EAD – un processus laborieux de normalisation[modifier | modifier le wikicode]

A l’opposé de la success story que représente la TEI, une autre norme importante pour le patrimoine vu dans sa dimension numérique a connu un développement un peu moins harmonieux : EAD (Encoded Archival Description).

La conception d’EAD résulte de la nécessité pour les établissements archivistique de représenter leurs instruments de recherche, c’est à dire le catalogue des collections, jusque-là gérés sous forme papier. De tels catalogues intègre à la fois des informations sur l’histoire des fonds, leurs contenus, leur description physique et bien sûr leur localisation au sein de l’archive elle-même. Leur rôle d’interface entre les fonds de l’archive et leur appropriation par des utilisateurs extérieurs est donc essentiel et l’on comprend alors comment tôt des communautés de chercheurs se sont approprié l’EAD au fur et à mesure que la norme se déployait dans les institutions patrimoniales.

Au départ, il est intéressant de constater que les travaux autour d’EAD ont été fortement influencés par ceux de la TEI, en particulier de par le rôle moteur de Daniel Pitti (Pitti, 1997) membre des deux communautés du texte et des archives. Le format EAD intègre ainsi très tôt une structure intégrant un entête reprenant plusieurs caractéristiques de l’entête TEI et permettant d’intégrer des métadonnées caractérisant l’instrument de recherche numérique. Bien plus, la charte de développement d’EAD[13], telle que définit par le groupe d’experts dès 1995, exprime la contrainte de reprendre les éléments pertinents de la TEI au sein d’EAD dès qu’il s’agit de représenter le même type de contenu.

Mais contrairement à la TEI l’EAD n’a pas connu de vrai processus de normalisation géré dans le temps. Porté par un groupe d’experts enthousiaste au sein de la société des archivistes américains dès 1993, les développements successifs à partir de la V1 officielle publiée en août 1998 se sont fait au hasard des financements et des volontaires pour porter les évolutions, comme le traduise la variété des dénomination (EAD 2002, EAD3). La différence la plus notable avec le maintien en continue des directives de la TEI est le fait qu’EAD a subi un développement par strate, privilégient ainsi les refontes en profondeur plutôt que les corrections à la marge. Cette tendance s’est trouvée même exacerbée avec le changement de cap complet introduit pat l’International Council of Archives se lançant dans l’aventure du linked open data archivistique avec Ric-O dont le lien avec les implémentations existantes d’EAD est pour le moins ténu.

A moins que les organisations archivistiques ne mettent en place une vraie organisation de leur activité normative, intégrant compétence technique et masse critique d’expertise, ainsi qu’une vraie architecture de spécification de modèle de données (qui pourrait s’inspirer de la TEI, comme on l’a montré dans (Romary et Riondet, 2018), il y a un vrai risque de déboucher sur une situation de blocage entre les implémentations existante et des propositions trop expérimentales pour être utilisables concrètement.

Importance d’offrir un outil de modélisation pour les établissments : coller au plus près aux contenus gérés par ceux-ci

·     Perspective : customisation, retour aux sources (meilleure cohérence avec un espace tel que la TEI) – une vraie organisation normative ?

·     Difficulté relier la niche spécifique que représente l’instrument de recherche avec des formats tels que la TEI qui aura besoin d’en intégrer les contenus. => changer drastiquement la démarche de normalisation (cf. Romary  et Riondet, 2018)

Un exemple de petite norme qui facilite la vie : IIIF[modifier | modifier le wikicode]

Pour finir, nous pouvons mentionner la norme IIIF qui illustre bien le rôle de « petites » normes de traverse qui peuvent profondément modifier le paysage technique de la diffusion de données patrimoniale. La suite de normes IIIF (International Image Interoperability Framework) a été principalement portée par un réseau de grosses bibliothèques (dont la BNF) ayant investi lourdement dans des programmes de numérisation et qui ont compris la nécessité d’offrir des points d’entrée (des API - Application Programming Interface) à leur base d’images. Le problème technique est simple : comment faire en sorte qu’un service externe — visualisation de fonds, transcription automatique, déploiement d’une édition numérique d’une œuvre — puisse s’appuyer sur un fonds d’images d’un établissement patrimoniale sans avoir à télécharger les images correspondantes avec toutes les conséquences néfastes que l‘on peut imaginer (duplication, décalage avec le référentiel descriptif, dédoublement des citations etc.). Ces bibliothèques donc, constituées en consortium dont la structure rappelle un peu celle de la TEI, ont mis en place une vraie démarche de normalisation pour offrir des interfaces d’accès simples, reposant sur les protocoles de bas niveau du web (e.g. HTTP), qui permettent par exemple de pouvoir accéder à tout ou partie d’une image disponible sur un serveur, accompagnée des métadonnées correspondantes.

·     Ex. : usage dans eScriptorium – DAHN => TEI Publisher - https://escripta.hypotheses.org e.g. Lectaurep : images des AN sur un serveur

·     CCl. : Rôle pivot institution patrimonial – chercheur plus qu’EAD

·     Combinaison avec la TEI : naturel pour toute édition savante reposant sur un fonds externe d’images

·     Vraie démarche de normalisation en continue. Se rapproche de l’esprit TEI, avec une présence institutionnelle forte

Normes et patrimoine – un constant compromis cap-vitesse[modifier | modifier le wikicode]

J’espère avoir fourni au cours de ce survol rapide de différentes notions liées à la normalisation en contexte patrimonial une bonne idée des enjeux de disposer de normes à la fois solides techniquement et fiables dans le temps. Dans un contexte où toute opération de numérisation devient très vite couteuse si l’on combine les coûts de l’opération elle-même et la préservation à long terme, il est nécessaire que les communautés et les institutions en charge de la gestion du patrimoine numérique correspondant puisse s’appuyer sur des formats de données stables dans le temps pour que chaque évolution technologique ne nécessite pas une reprise complète du travail effectué. Bien qu’il soit parfois difficile d’échapper aux effets de mode et aux illusions de nouveauté (Poupeau, 2019), nous avons vu qu’il est possible dans un certain nombre de cas de disposer d’environnements normatifs offrant à la fois une stabilité organisationnelle et conceptuelle, qui seul permettant de disposer d’un patrimoine numérique solide et pérenne.

Références[modifier | modifier le wikicode]

Donald Ervin Knuth, ‘Literate Programming’, The Computer Journal, 27.2 (1984), 97–111.

Poupeau, Gautier, ‘Why I Don’t Use Semantic Web Technologies Anymore, Even If They Still Influence Me ? | Les Petites Cases’, 2019 <http://www.lespetitescases.net/why-I-dont-use-semantic-web-technologies-anymore-even-if-they-still-influence-me>

Pitti, Daniel. "Encoded archival description: The development of an encoding standard for archival finding aids." The American Archivist 60.3 (1997): 268-283.

Romary, Laurent, ‘Questions & Answers for TEI Newcomers’, Jahrbuch Für Computerphilologie 10, 2009 <https://hal.archives-ouvertes.fr/hal-00348372>

Romary, Laurent et Charles Riondet. EAD-ODD: A solution for project-specific EAD schemes. Archival Science, Springer Verlag, 2018, ⟨10.1007/s10502-018-9290-y⟩. ⟨hal-01737568v2⟩

Wicentowski, Joseph, ‘history.state.gov: A case study of Digital Humanities in Government’, Journal of the Chicago Colloquium on Digital Humanities and Computer Science, 1(3), 2011.

中村覚, 佐治奈通子, & 永崎研宣. (2019). TEI と IIIF をベースとしたオン/オフライン併合型史料研究支援システムの開発-オスマン・トルコ語文書群を対象として. じんもんこん 2019 論文集, 2019, 293-300.

Liste des normes citées[modifier | modifier le wikicode]

ISO/R 639:1967  Symbols for languages, countries and authorities  [retirée]

ISO 639-1:2002 Codes pour la représentation des noms de langue — Partie 1: Code alpha-2

ISO 639-2:1998 Codes pour la représentation des noms de langue — Partie 2: Code alpha-3

ISO 639-3:2007 Codes pour la représentation des noms de langues — Partie 3: Code alpha-3 pour un traitement exhaustif des langues

ISO 639-4:2010 Codes pour la représentation des noms de langue — Partie 4: Principes généraux pour le codage de la représentation des noms de langue et d'entités connexes, et lignes directrices pour la mise en œuvre

ISO 639-5:2008 Codes pour la représentation des noms de langue — Partie 5: Code alpha-3 pour les familles de langues et groupes de langues

ISO 8601-1:2019 Date et heure — Représentations pour l'échange d'information — Partie 1: Règles de base

ISO 3166-1:2020 Codes pour la représentation des noms de pays et de leurs subdivisions — Partie 1: Codes de pays

ISO 3166-2:2020 Codes pour la représentation des noms de pays et de leurs subdivisions — Partie 2: Code pour les subdivisions de pays

ISO 3166-3:2013 Codes pour la représentation des noms de pays et de leurs subdivisions — Partie 3: Code pour les noms de pays antérieurement utilisés

ISO/IEC 10646:2017 Technologies de l'information — Jeu universel de caractères codés (JUC)

ISO 15924:2004 Information et documentation — Codes pour la représentation des noms d'écritures

TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. TEI Consortium. http://www.tei-c.org/Guidelines/P5/.

Misc.[modifier | modifier le wikicode]

Repartir du texte The Conversation France


[1] https://gallica.bnf.fr

[2] https://edition-testaments-de-poilus.huma-num.fr

[3] https://tei-c.org

[4] https://xkcd.com/927/

[5] https://fr.wikipedia.org/wiki/Liste_de_normes_NF

[6] L’organisation maritime internationale travaille ainsi en collaboration avec différents comités de l’ISO pour définir ses réglementations (https://www.iso.org/fr/news/ref2227.html)

[7] Le lecteur intéressé pourra parcourir le fil de discussion correspondant sur la liste TEI : https://listserv.brown.edu/cgi-bin/wa?A1=ind2007&L=TEI-L&X=O32C5BE40517CE26FAC#7

[8] Que l’on connaît surtout par son déploiement industriel dans le cadre du consortium Unicode (https://home.unicode.org)

[9] L’expression qui me vient est « ayant pignon sur rue » : il s’agit de langues pour lesquelles il existe au moins 50 documents dans une agences officielles, et qui sont confirment à une série de critère prouvant leur rôle officiel (étendue de la littérature correspondante, soutien d’un état ou  d’une région, existence d’une agence de normalisation, éducation, etc.).

[10] https://www.ethnologue.com

[11] Appelé ODD, pour One Document Does it all et documenté dans un chapitre spécifique de la TEI (cf. https://tei-c.org/release/doc/tei-p5-doc/de/html/TD.html)

[12] Sans entrer dans les détails, je signale au passage que l’ensemble des données et des services de la TEI sont hébergés au sein de l’infrastructure Huma-Num du CNRS.

[13] https://www.loc.gov/ead/eaddev.html

Proposition initiale UDPN[modifier | modifier le wikicode]


Approche critiques des normes (recommandations, manuels, livres blancs, etc.)[modifier | modifier le wikicode]

Dans un contexte législatif national, européen et international mouvant et un environnement technologique en continuel changement, les guides de bonnes pratiques, livres blancs, vade mecum , rapports ministériels traitant de la numérisation du patrimoine28 se sont multipliés avec les grands projets institutionnels de numérisation mais aussi avec les projets de numérisation issus de la recherche et du monde artistique. Simultanément les usages des patrimoines numérisés se sont considérablement développés et diversifiés. Les projets existants ont généralement pour objectif de définir des standards : c’est le cas du projet Européen PREFORMA, qui s’intéresse au prototypage d’outils dans un objectif de conservation du patrimoine, ainsi que du projet européen DAVID – Digital AV Media Damage Prevention and Repairpour la préservation du patrimoine audiovisuel ainsi que sur les guides méthodologiques et de bonnes pratiques français (portail Joconde, Projet Harmonisation des Données Culturelles et Plateforme Ouverte du patrimoine du Ministère de la culture et de la communication, HumaNum, Consortium IIIF, Livre blanc Droits des images, histoire de l’art et société, etc.), les rapports des missions ministérielles (Musée du XXIe siècle) et européen (Heritage Data Reuse Charter, Digitizing Contemporary Art, Digital Preservation Handbook, Public Domain Manifesto notamment ).

Pistes de réflexion :[modifier | modifier le wikicode]

● Guides de “bonnes pratiques” : à qui faire confiance ? L’institution/les organismes de régulation/consortium en prenant en compte les différents périmètres: national (MCC, HumaNum), européen (Dariah-EU), international (W3C, Unesco). ; les chercheurs/universitaires ; les prestataires/entreprises; les usagers-experts?

● Difficulté de fixer des normes dans un domaine en perpétuelle évolution (question de l'obsolescence des normes). Une norme, des normes. Quels critères ? Quelles autorités ? Quelle légitimité ? De la recommandation à l’injonction (absence d’autorité capable d’évaluer les guides)?

● Injonction normative. Approche critique vis à vis des normes. Risque, que chacun réinvente l’eau chaude, que chacun fixe ses propres normes, normes trop vastes, trop ambitieuses (ex : TEI) ou trop “anarchiques” (Wikidata), Cidoc-CRM.


Bibliographie :[modifier | modifier le wikicode]

● Tobias Blanke, Conny Kristel, Laurent Romary. Crowds for Clouds: Recent Trends in Humanities Research Infrastructures. Agiati Benardou; Erik Champion; Costis Dallas; Lorna Hughes. Cultural Heritage Digital Tools and Infrastructures , Routledge, 2018, 978-1-4724-4712-8. ⟨hal-01248562⟩

● Laurent Romary, Jennifer Edmond. Sustainability in DARIAH. Sustainability of Digital Research Infrastructures for the Arts and Humanities , Apr 2017, Berlin, Germany. pp.10. ⟨hal-01516487⟩

● Laurent Romary, Marie Puren. Datasets of IPERION CH. Atelier interdisciplinaire « Matériaux du patrimoine et patrimoine matériel » , Mar 2016, Palaiseau, France. ⟨hal-01289058⟩

● Peneva, J., Ivanov, S., Sotirova, K., Doneva, R., & Dobreva, M. (2012). Access to Digital Cultural Heritage: Innovative Applications of Automated Metadata Generation Chapter 1: Digitization of Cultural Heritage – Standards, Institutions, Initiatives. In Access to Digital Cultural Heritage: Innovative Applications of Automated Metadata Generation (pp. 25–67). Plodvid: Plovdiv University Publishing House “Paisii Hilendarski.” Retrieved from http://eprints.nbu.bg/1479/

● Direction de l’Information Scientifique et. (2017). Livre blanc — Une Science ouverte dans une République numérique — Guide stratégique: Études et propositions en vue de l’application de la loi . OpenEdition Press. https://doi.org/10.4000/books.oep.1706 ● Nougaret, C. (2017) “Une stratégie nationale pour la collecte et l'accès aux archives publiques à l'ère numérique” [ En ligne ].

https://iconautes.inha.fr/fr/index/rapport-images-usages.html

https://iiif.io/

https://datacharter.hypotheses.org/77


28 la base Joconde depuis 1975, Gallica depuis 1997 ou encore le Centre Pompidou virtuel depuis 2012.