II-B-3

De UDPN wiki
Aller à la navigation Aller à la recherche

B - Quelle(s) méthode(s) ?[modifier | modifier le wikicode]

Virginie Pringuet

virginie.pringuet(a)a-p-a-c-k.org


De la description à la pratique des patrimoines numérisés

Des données aux ontologies


Le Web nous ayant désormais habitué à la « vision d’un monde où tout est relié à tout » (Le Bœuf, 2014 : 89), l’importance des données liées et interopérables s’impose progressivement depuis les années 2000[1] dans le domaine du patrimoine et dans le contexte plus général des sciences ouvertes. Les sciences du patrimoine regroupent une diversité de domaines d’intervention et d’expertise allant de l’identification du patrimoine (inventaire) à sa restauration, en passant par sa conservation, sa médiation ou encore sa diffusion. Elles concourent à l’étude des modes d’existence des œuvres[2] en retraçant les événements survenus tels que la création, la découverte, le dégradation ou la destruction, les outils, techniques, matériaux mais aussi des acteurs ayant joué un rôle notable ou encore des différents lieux associés (de création, d’exposition, de conservation, etc.).

Par nature interdisciplinaires, les sciences du patrimoine sont particulièrement favorables aux approches transversales réunissant professionnels, chercheurs et parfois publics, de différents domaines patrimoniaux ou scientifiques (histoire et informatique, archéologie et architecture, patrimoine matériel et immatériel, musées et sciences de l’information, etc.). Chacun de ces domaines a son langage, ses usages et ses pratiques propres, ses méthodes et ses formats de publications et de résultats scientifiques. De la spécificité des savoirs résultent le morcellement et la fragmentation de la connaissance patrimoniale à la croisée de ces différentes expertises. Ainsi les savoirs de plus en plus nombreux et fragmentés à l’ère numérique entrent-ils en contradiction avec l’intelligibilité qui ne peut se construire que sur une forme recomposée ou unifiée.

Avec la numérisation des ressources culturelles et scientifiques depuis le milieu des années 1990 ainsi que la généralisation de l’usage d'Internet par les institutions patrimoniales (Davallon, 1999 : 195-219), la transformation des patrimoines en données s'est amplifiée et internationalisée. Les applications web[3] permettent depuis le Web 2.0 ou Web social une visibilité décuplée de ces ressources numérisées grâce au travail de contextualisation de l'information produite par les instances patrimoniales, muséales ou de recherche.  Auparavant ces applications permettaient principalement à des utilisateurs «humains » d’interroger des bases de données par le biais de moteurs de recherche, en projetant ou en imaginant les contenus potentiels qu’elles détenaient alors qu’aujourd’hui les agents logiciels sont en mesure d'interpréter ces informations pour les réinjecter dans d'autres services. « La page web en tant que document laisse place à un espace calculé où les données sont générées à la volée selon les paramètres de l'utilisateur. Quotidiennement nous manipulons donc de plus en plus de contenus computationnels plutôt que de contenus documentaires » (Szabados, 2012).


Les pratiques de navigation en ligne et la généralisation de l’utilisation des moteurs de recherche ont provoqué un changement de paradigme dans les usages des patrimoines numérisés, et ont obligé les institutions culturelles et patrimoniales à « prendre plus de hauteur dans la démarche orientée utilisateur » (Bermès, 2011 : 2). L’objectif n’était plus seulement de faciliter l’usage et l'expérience de l'usager des contenus et des services proposés en ligne, mais de parvenir à contextualiser les diverses démarches menant les utilisateurs vers les ressources numérisées. S’agit-il d’une démarche de recherche, d'apprentissage, de loisir, d’une initiative personnelle, professionnelle, d’une activité associative, commerciale, contributive, etc.? Tous ces usages et toutes ces pratiques existent au sein des musées, bibliothèques, archives, in situ et en ligne, mais pour autant ces institutions ne peuvent plus se considérer aujourd’hui comme un passage obligé. C'est en prenant en compte les parcours des usagers dans leurs démarches les plus variées que les institutions patrimoniales essayent désormais de se situer, car les usagers ne vont plus forcément passer par elles pour trouver des ressources pertinentes à leur offrir. « Cette réflexion doit nous encourager à considérer la convergence entre institutions culturelles comme quelque chose de vital, car on ne pourra pas continuer à attendre de l'usager qu'il comprenne les barrières institutionnelles et les accepte. Le touriste qui prépare sa visite au musée devrait pouvoir trouver aussi bien des livres sur Picasso que les reproductions de ses œuvres ; le généalogiste qui trace l'histoire de ses arrière-grands-parents devrait pouvoir accéder aussi bien aux ressources des bibliothèques qu'à celles des archives » (Bermès, 2011).


Afin de questionner ce repositionnement à travers le décloisonnement et l’ouverture -institutionnelle et informatique- des institutions patrimoniales et de leurs instances numériques, les patrimoines numérisés sont appréhendés dans ce chapitre par le biais de la construction des données, des métadonnées et de l’utilisation de langages de représentation de ces données. Cette contribution[4] vise à questionner l’usage des mots, c’est-à-dire les pratiques terminologiques pour décrire les œuvres (vocabulaires métiers et thésaurus) jusqu’à la mise en dialogue des collections grâce à la structuration et la sémantisation des données (taxonomies, ontologies).


1- Architecture de l’information : mille plateaux des données[modifier | modifier le wikicode]

L’architecture de l’information est dépendante en grande partie de celle des systèmes informatiques qui la stocke, qui la véhicule et la font circuler, et plus largement du « cadre socio-technique » (Flichy, 1995 : 130) dans lequel elle est élaborée. Le World Wide Web, en constante transformation depuis 1990[5], est devenu l’un des principaux vecteurs de diffusion des données scientifiques qu’elles soient issues notamment des bases de données, des bibliothèques numériques ou de publications électroniques. Plusieurs strates se sont superposées : sur le Web de documents (Web 1.0), s’est greffé un Web plus participatif ou « social » (Web 2.0) ainsi qu’un Web de données où les informations sont devenues directement accessibles et réutilisables. Cette mutation toujours en cours du Web de données ou Web sémantique, désigne l’utilisation du Web comme espace de partage mais aussi comme lieu de stockage des données. Sa mise en œuvre réinterroge les savoir-faire et les métiers de la recherche scientifique, des sciences humaines et sociales en général et les sciences du patrimoine en particulier. « Là où il fallait maîtriser plusieurs systèmes informatiques et documentaires fondés sur des API (Application Programming Interface ou interface de programmation) différentes, le Web sémantique promet le décloisonnement des bases de données et propose une méthodologie commune pour enrichir, diffuser, interroger, réutiliser les données et les informations. »[6]

1.1- Le cycle de vie des données[modifier | modifier le wikicode]

Lors de toute campagne de numérisation du patrimoine, c’est un véritable « mille-feuille de données » qui est généré et qui va se démultiplier tout au long de l’existence de l’œuvre et de ses instances numériques. Antoine Courtin[7] en a proposé en 2018 une description afin d’identifier les couches informationnelles s’accumulant autour un objet culturel « à travers le temps, les acteurs, les méthodologies d’acquisition, etc. ». A partir de versions numérisées en 2D ou 3D d’un artefact culturel, diverses strates de données sont mises à jour que nous proposons ici de compléter et de distinguer selon leur provenance (humaine ou technique).

Données résultant d’actions humaines Données générées par des machines
Les données descriptives de l’objet numérisé par l’institution dans le cadre de ses missions Version numérisée de l’artefact 2D, données principales
les données structurées issues de programmes de recherches Version numérisée de l’artefact 3D, données principales
Contenus éditoriaux (articles, catalogues, etc.) issus de programme de recherche Les données/métadonnées issues d’appareils de mesures réalisées lors de numérisation, de restauration, etc.
Contenus éditoriaux de « médiation », pédagogiques auprès de différents publics Les données issues de l’intelligence artificielle


Données crowdsourcées de différents publics Les données de « logs », de consultation de ces informations (issus de X sources)
Données versées par les institutions ou chercheurs ou particuliers dans Wikicommons et/ou Wikidata, dépôt légal numérique (BNF), HumaNum, etc. Les données sauvegardées par Internet Archive, dépôt légal numérique (BNF), etc.


Figure 1: Cycle de vie des données. Source: INIST,https://www.inist.fr/wp-content/uploads/donnees/co/module_Donnees_recherche_7.html


Difficilement exhaustive, cette description en strates des données[8] issues d’un artefact numérisé, cherche avant tout à rendre visible le construit des données : les méthodes scientifiques de constitution des données relèvent d'une construction « qu'il faut donc distinguer d'une vérité miracle qui apparaîtrait dans de simples extractions » (Le Deuff, 2017). Considérer les données comme des éléments de captation (Dodge et Kitchin, 2011), des capta (Johanna Drucker, 2011), ou encore des obtenues (Latour, 2012) signifie qu'il faut considérer à la fois les processus d'acquisition des données, d’enrichissement en métadonnées mais également les méthodes d’accessibilité, de traitement, d’interprétation ou encore de visualisation. Les données et leurs métadonnées associées ne peuvent ainsi pas être envisagés comme des entités stables, figés dans leurs formes et dans le temps provenant d’une opération de numérisation, d’acquisition mais au contraire des entités variables soumises à un cycle de vie, de la création à la réutilisation en passant par le traitement, l’analyse, la conservation et l’accessibilité.

1.2 La donnée en tant que contenu, la métadonnée en tant que contexte[modifier | modifier le wikicode]

“Data is content, and metadata is context. Metadata can be much more revealing than data, especially when collected in the aggregate (Schneier,2016).” [9]


Rappelons dans un premier temps comment distinguer données et métadonnées, parfois confondues ou utilisées de manière interchangeable. Bien que les deux notions renvoient à une forme de donnée, leurs usages et leurs spécifications diffèrent. Une donnée est une information ; elle peut être par exemple une date, un lieu, une mesure, un événement, ou encore une description de quelque chose. Les données peuvent être classées et conservées sous différentes formes numériques: textes, images, sons, etc. Rappelons également que toute méthode en informatique repose sur le principe de séparation et d’indépendance entre les données et les traitements afin que toute modification ou refonte des données n'impacte pas ou très peu le domaine des traitements, et réciproquement.


Une métadonnée est littéralement une donnée sur ou à propos de la donnée faisant référence à des détails spécifiques concernant une donnée. Une métadonnée est une donnée servant à définir ou décrire une autre donnée quel que soit son support, papier ou électronique. On distingue ainsi les données principales des données de référence ou métadonnées. Une métadonnée fournit des informations granulaires sur une donnée spécifique (par exemple le type de fichier, le format, l’origine, la date de création, etc.) et précisons qu’il existe différents types de métadonnées (métadonnées de description, de gestion, de structure, etc.). Les données peuvent être informatives, mais pas obligatoirement (comme par exemple un numéro d’inventaire ou un identifiant dans une base de données) alors que les métadonnées sont elles toujours informatives. En tant que références à d’autres données, elles décrivent les informations pertinentes sur lesdites données, donnant ainsi plus d’éléments de contexte pour ses utilisateurs. Ces métadonnées sont indispensables à la compréhension d’un patrimoine numérisé, d’un document ou d’un fonds numérisé car elles en décrivent le contenu. Autrement dit, c'est un ensemble structuré d'informations décrivant une ressource quelconque[10].

L’importance des métadonnées est intrinsèquement liée à la problématique de la recherche et de l’accès à un fonds numérisé. Le «traitement documentaire» désignant l’ensemble des choix et actions qui vont déterminer la description et l’accès à un fonds numérisé, l’opération de numérisation consiste en un travail de sélection, une projection des usages qui en seront faits, un choix des standards qui seront appliqués au fonds numérisé et à ses métadonnées.


Les modalités d’accès aux contenus s’étant considérablement diversifiées, les usagers recourent de plus en plus à des canaux familiers d’accès à l’information (moteurs de recherche, réseaux sociaux, etc.), lesquels reposent sur des standards favorisant des logiques d’ouverture et de liage des données. « Dans ce contexte, l’enjeu pour les institutions est de favoriser l’ouverture des contenus et des métadonnées qui leur sont associées, et de veiller à leur interopérabilité. Ces dynamiques d’ouverture et de liage des données portées par le ministère de la Culture favorisent le dialogue entre les différentes logiques métiers à l’œuvre dans les institutions culturelles et tendent à « décloisonner » les données. Dès lors, le rôle des standards de métadonnées et de formats de fichiers, qui permettent d’assurer interopérabilité, réutilisabilité et pérennité des contenus et des métadonnées, se voit renforcé. Les projets de numérisation doivent s’inscrire dans cette dynamique ».[11]

Des métadonnées de qualité, c’est-à-dire qui respectent les standards du W3C, permettent une visibilité accrue (en particulier dans les résultats des moteurs de recherche) pour les institutions patrimoniales qui les produisent. Ainsi le souci et le soin apportés à la production de métadonnées de qualité s’inscrivent dans la mission de service public des institutions en faveur de la démocratisation culturelle et de la transmission des savoirs. Les métadonnées conditionnent le cycle de vie à long terme de  la ressource numérique, depuis la production d’un artefact numérisé ou la création d’une collection numérique et jusqu’à son exploitation pour un usage interne ou externe. Comme précisé plus haut, les métadonnées peuvent être produites automatiquement (métadonnées techniques de prises de vue comme les coordonnées GPS par exemple) et/ou par des humains (par une institution ou de façon collaborative). Dans ce cas, elles reflètent des pratiques de traitement documentaire propres à chaque métier, qui évoluent avec les technologies. Et si les pratiques professionnelles changent, les usages s’en trouvent également renouvelés, d’autant plus que les outils auparavant uniquement accessibles aux professionnels (pour des raisons d’accessibilité technique et financière) se retrouvent aujourd’hui à la portée d’une grande diversité d’usagers (par exemple les SIG-Systèmes d’Information Géographique).

Figure 2 : Représentation d’un triplet RDF situant Figure 2 : Représentation d’un triplet RDF situant  l’œuvre « Monument à Balzac » de Rodin dans la ville de Paris


C’est dans le cadre du modèle Resource Description Framework (RDF) que les métadonnées sont définies et sont devenues l’une des bases techniques du Web sémantique. Un triplet RDF est l'unité de données la plus petite contenue dans un graphe de type Resource Description Framework (RDF) au sein d'une base de données de type triplestore. Développé par le W3C[12], le Resource Description Framework est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, afin de permettre le traitement automatique de telles descriptions.

Afin de simuler la capacité humaine à penser et à déduire des relations implicites entre différentes informations concernant un même objet, les ordinateurs ont besoin d'un balisage et d'une sémantisation de l'information leur permettant d’effectuer des liens ou encore des inférences à défaut de véritables raisonnements. Cette description des ressources, cet encadrement des données par d’autres données, c’est précisément le rôle que jouent les métadonnées dans l'environnement numérique. La finalité des métadonnées, au delà de décrire une donnée pour améliorer son indexation et la valoriser via les moteurs de recherche, est aussi de rendre possible l'interopérabilité entre différents systèmes. Notion-clé dans le Web de données, l'interopérabilité permet de décloisonner les données des bases de données en silos et des applications web et ainsi de faire dialoguer par exemple les collections de différentes institutions patrimoniales à l’échelle nationale et internationale. Les métadonnées permettent aussi de naviguer plus intuitivement par exemple en rebondissant sur des informations complémentaires à une ressource initialement consultée. L’ajout de métadonnées permet de palier à la perte de contextualisation d’une donnée en dehors de son environnement d’origine (site d’une institution par exemple). Les  métadonnées viennent alors contextualiser la donnée et l’accompagneront dans sa circulation entre différents systèmes.

1.3 Interopérabilité et principes FAIR[modifier | modifier le wikicode]

Interopérabilité : Aptitude d’organisations disparates et diverses à interagir en vue de la réalisation d’objectifs communs mutuellement avantageux, arrêtés d’un commun accord, impliquant le partage d’informations et de connaissances entre elles grâce à l’échange de données entre leurs systèmes d’information et de communication respectifs.[13]

La notion d’interopérabilité va de pair avec celle de « données liées » proposée par Tim Berners-Lee[14] et signifie bien plus qu’une possibilité de recherche distribuée sur différentes bases hétérogènes (Bermès, 2011 :5). Il s’agit de transformer les liens hypertextuels entre différents documents en liens typés et porteurs d’une signification entre les données constituant les documents et permettant à des machines d’opérer des  requêtes et d’appliquer des « raisonnements » c’est-à-dire des règles d’inférences[15]. Le principe du Web de données est donc de permettre de relier entre elles des ressources de formats hétérogènes, en utilisant des identifiants Web, les URI. La grammaire commune, le format RDF, permet quant à lui de créer du lien entre ces ressources : de la même manière que, sur le Web, on peut relier des pages et des sites Web avec des liens hypertextes sans se soucier des serveurs et des systèmes de gestion de contenu qui hébergent ces pages et ces sites, le Web de données crée une forme d’interopérabilité nouvelle : différentes institutions peuvent relier leurs bases de données sans avoir besoin d’utiliser les mêmes logiciels ou de centraliser l’information à un même endroit (Bermès, 2013). Avec l’interopérabilité, le Web de données permet l’existence d’un espace globalisé d’informations reliées entre elles sémantiquement, permettant de naviguer de façon lisible d’une ressource à une autre.

Figure 3 : Source : https://urfist.univ-cotedazur.fr/  Cette présentation est réadaptée de ANDS | The FAIR data principles.  https://www.ands.org.au/working-with-data/fairdata/training#.XNqUWpLgeTA.link

L’un des enjeux principaux du Web de données pour les institutions patrimoniales réside en outre dans les principes de non redondance et de réutilisation des données produites par leurs services. Ces principes sont particulièrement pertinents dans le contexte de l’information muséale (Manœuvre, 2007) afin d’éviter de ressaisir les mêmes informations pour différents usages ou sur différents supports. Si des données structurées, libres de droits, dont la qualité ou la provenance sont vérifiables, existent déjà quelque part sur Internet (collections en ligne des musées, institutions, collections particulières, bases de données telles que Wikidata), il est ainsi possible d’établir simplement des liens et non pas les recréer ou les recopier. C’est le principe central des « données ouvertes et liées » appelées aussi « LOD » (Le Bœuf, 2013).

Les institutions culturelles et patrimoniales saisissent aujourd’hui le caractère stratégique du « LOD » et y voient un moyen potentiel de réaffirmer leur rôle au sein de la société: les données qu’elles produisent deviennent utilisables non seulement par leurs publics habituels mais également par une diversité d’autres acteurs culturels, pédagogiques, économiques (touristiques par exemple) et les rendent ainsi indispensables d’une nouvelle façon. Ces principes d’interopérabilité et de liage des données bien connus dans le monde de la recherche informatique sont communiqués largement sous l’acronyme F.A.I.R (Findable, Accessible, Interoperable, Reusable) dans le contexte plus général de la science ouverte qui vise à faciliter l'accès aux publications scientifiques et aux données de la recherche.

2- Quels langages pour décrire les patrimoines numérisés?[modifier | modifier le wikicode]

Le processus de construction des données et des métadonnées passe inévitablement par la description humaine et/ou machinique, nous l’avons vu, des artefacts patrimoniaux. Il est donc nécessaire d’utiliser des langages de représentations des connaissances pour nommer, décrire et articuler les données et leurs métadonnées associées. C’est par le biais de l’utilisation de terminologies et de langages spécifiques constituant des thesaurus, des taxonomies et des ontologies que les différents acteurs et institutions du patrimoine participent à la recherche d’un savoir établi pouvant servir de référence commune.

Figure 4 : http://data.culture.fr/thesaurus/page/ark:/67717/T69-7965

Les systèmes d’accès aux données, aux contenus c’est-à-dire aux connaissances, combinent et articulent ces trois modes d’organisation pour décrire le monde, indexer, catégoriser et relier les contenus. Ces langages de représentation des connaissances partagent l’organisation hiérarchique de termes, de concepts entre eux mais n’ont pas les mêmes objectifs, ni les mêmes usages (Francart, 2013)[16]. L’utilisation d’un thesaurus permet de faciliter l’accès à des contenus; la taxonomie est quant à elle utile pour classer des ressources dans des dossiers ou des catégories et enfin l’ontologie est nécessaire pour décrire le monde de façon structurée offrant une véritable grammaire. En tant que « langage de représentation », l’ontologie a pour objectif de représenter les entités du monde réel afin de les manipuler.

2.1 L’usage des mots : vocabulaire, terminologie, thésaurus[modifier | modifier le wikicode]

« Les mots ont une histoire. Tout au long de leur vie ils se chargent de sens, s'en délestent et en changent jusqu'à parfois aboutir à des contresens. Ceux de terminologie et d'ontologie ne font pas exception, à un point tel qu'ils peuvent chacun sous un même vocable désigner des théories et des approches différentes, voire opposées. La confusion qui en résulte pour des disciplines ayant une visée normative leur est parfois préjudiciable et est à l'origine de nombreuses incompréhensions » (Roche, 2005).

Figure 5 : Art & Architecture Thesaurus, Getty Research Institute, Etats-Unis.

La première étape de construction des données consiste à décrire les artefacts à numériser ou déjà numérisés. Pour ce faire, il faut choisir et utiliser une terminologie adaptée à leur domaine d’appartenance (architecture, sculpture par exemple). Parler du choix des mots, de terminologie et donc in fine du thésaurus, c’est parler du sens des mots. La question peut être épineuse : alors que les experts d’un domaine considèrent souvent que la langue usuelle manque de précision, les défenseurs d’une langue plus naturelle s’accommodent mal de la rigidité des langages de spécialité.

Relevant à la fois de la linguistique (sens des mots) et de l’'extra- linguistique (la conceptualisation du monde), la terminologie peut être considéré comme une pratique plutôt qu’une théorie soit « une pratique théorisée », une langue de spécialité liée à une pratique technique ou scientifique propre à un métier ou à un domaine (Roche, 2005).  Cette pratique est une réponse à une nécessité de clarification et de normalisation des mots et de leur signification en dehors de la diversité des usages afin de décrire les patrimoines numérisés et de les transformer en données. Les mots et les termes contrôlés constituent alors les premières données observables, issues principalement du traitement des matériaux qui les contiennent, à savoir les textes scientifiques et techniques ou encore institutionnels.


Un thésaurus, thésaurus de descripteurs ou thésaurus documentaire, est une liste organisée des termes contrôlés et normalisés (descripteurs et non descripteurs) représentant les concepts d’un domaine de la connaissance. C’est donc un langage contrôlé utilisé pour l’indexation de documents et la recherche de ressources documentaires dans des applications informatiques spécialisées. Les thésaurus sont donc une catégorie de langages documentaires parmi d’autres[17]. Les termes (dans l’exemple ci-dessous : œuvre multimédia ou installation) sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d’association (terme associé) ; chaque terme appartient à une catégorie ou à un domaine. Le thésaurus est ainsi un outil linguistique qui permet de mettre en relation le langage naturel des utilisateurs et celui contenu dans les ressources. Cette technique pallie les limites du langage naturel, riche mais souvent ambigu. Le thésaurus évite aussi les risques d’erreur induits par les synonymies, les homonymies et les polysémies présentes dans le langage naturel.

2.2 : Taxonomies[modifier | modifier le wikicode]

La taxinomie ou taxonomie, quant à elle, est utilisée pour classer de façon hiérarchique des ressources dans des dossiers, dans des catégories. C’est une science, branche de la biologie, qui a pour objet de décrire les organismes vivants et de les regrouper en entités appelées taxons afin de les identifier puis les nommer et enfin les classer, cette classification étant la finalité de cette discipline. La taxonomie s’est étendue progressivement à d’autres sciences, notamment les sciences humaines et sociales, les sciences de l’information ou encore l’informatique. La classification la plus connue est celle du naturaliste suédois Carl von Linné[18].

Dans les domaines culturel et patrimonial, les taxonomies rencontrées pour classer les œuvres numérisées, pour organiser et interfacer les collections en ligne et faciliter la recherche sont parfois le reflet de la structure interne (organigramme) des institutions et de leurs divers départements (exemple du site du Louvre, Figure N), ou de la structure même des collections gérées par ces institutions (exemple du centre national des arts plastiques, Figure M).

La classification taxonomique qui accompagne nécessairement tout projet de numérisation du patrimoine vient prolonger, compléter le travail terminologique et/ou l’utilisation d’un thésaurus. Elle prépare l’articulation, le liage et la modélisation des données et des métadonnées et ainsi la conceptualisation d’un fond ou d’une collection par le biais d’une ontologie.

Figure 7 : Organigramme du Louvre en 2014-2021  http://journals.openedition.org/insitu/docannexe/image/13886/img-3.jpg  https://api-www.louvre.fr/sites/default/files/2021-03/organigramme_0_0.pdf
Figure 9 : Site Vidéomuseum des collections du Centre national des arts plastiques, https://www.cnap.fr/collection-en-ligne#/artworks?filters=&page=1&layout=grid&sort=by_author


Figure 8 : Site du musée du Louvre, https://collections.louvre.fr  Consulté le 29/04/2021



2.3 Faire « parler » les données : l’utilisation des ontologies[modifier | modifier le wikicode]

La représentation et la conceptualisation d’un domaine (patrimonial ou autre) ou d’une collection nous amènent directement à la notion d'ontologie, qui constitue aujourd'hui une des voies privilégiées par de nombreuses institutions pour modéliser, lier, partager leurs données et leurs métadonnées. Par conceptualisation d'un domaine (ou d’une partie d’un domaine), on entend un choix quant à la manière de décrire ce domaine ainsi que la spécification de cette conceptualisation, c'est-à-dire sa description formelle (Gruber, 1993).[19]


Plus précisément, que ce soit en informatique, en ingénierie des connaissances ou en SHS à l’intersection desquelles se situent les sciences du patrimoine, une ontologie est un ensemble structuré des termes et de concepts, formant une représentation de la connaissance au sujet d'un domaine ou d'une certaine partie de ce domaine. Plus simplement, on peut dire que l’ontologie est aux données ce que la grammaire est au langage. Elle est employée pour permettre des raisonnements à propos des objets du domaine concerné, notamment en intelligence artificielle, en génie logiciel, en architecture de l’information et dans le Web Sémantique. Précisons qu’une ontologie n’est pas une discipline en tant que telle mais désigne un objet manipulable (sous la forme d’un document texte, html ou xml par exemple). Bien que certaines ontologies aient une visée universelle, elles sont en général spécifiques à un domaine d'application, on parle dans ce cas d'ontologies de domaine. Elles ne sont pas objets figés mais évoluent de façon constante intégrant les nouvelles recherches et pratiques au sein du domaine souvent grâce au travail commun d’experts: « Définie pour un objectif donné et un domaine particulier, une ontologie est pour l'ingénierie des connaissances une représentation d'une modélisation d'un domaine partagée par une communauté d'acteurs » (Roche).  Ressemblant aux bases de connaissances de l'intelligence artificielle des années 1980 et développées depuis le début des années 1990 pour des projets d'ingénierie collaborative, les ontologies connaissent un succès qui semble ne pas se démentir. A l’origine de cet intérêt et malgré les difficultés de prises en main de ce langage de représentation, on retrouve le mythe d'une représentation du monde et d’un langage pour le décrire qui soit compréhensible, et donc partageable, aussi bien par des acteurs humains que par des systèmes informatiques.


Les ontologies s’appuient sur un vocabulaire commun à un domaine en structurant l'information par des ensembles de concepts. Elles permettent ainsi d’expliciter tout ce qui est implicite dans un domaine en décrivant les concepts eux-mêmes, leurs caractéristiques, leurs relations, et les conditions ou restrictions qui doivent s'appliquer. Les concepts sont organisés dans un graphe dont les relations peuvent être des relations sémantiques ou des relations de subsomption. Les ontologies décrivent généralement :

  • individus : les objets de base (par exemple, le Monument pour Balzac)
  • classes : ensembles, collections, ou types d'objets (sculpture)
  • attributs : propriétés, fonctionnalités, caractéristiques ou paramètres que les objets peuvent posséder et partager (art dans l’espace public)
  • relations : les liens que les objets peuvent avoir entre eux (lié à Auguste Rodin-créateur, lié à Balzac-sujet représenté, etc.)
  • événements : changements subis par des attributs ou des relations (création, restauration, etc.)
  • métaclasse (web sémantique) : des collections de classes qui partagent certaines caractéristiques (par exemple, Création en tant que « sous-classe » d’Activité)

Ainsi une ontologie est un outil précieux non seulement pour analyser et articuler des données hétérogènes dans des applications logicielles, mais aussi pour les partager et les documenter, en rendant explicite les informations d’une ressource à l’aide de concepts décrits et hiérarchisés en classes et en propriétés définies très précisément. Par exemple, dans l’ontologie CIDOC-CRM utilisé dans le domaine muséal, le concept de « création » est l’une des 99 classes du modèle et est défini de la manière suivante :


E65 Creation

Subclass of:       E7 Activity, E63 Beginning of Existence

Superclass of:    E83 Type Creation

Scope note:        This class comprises events that result in the creation of conceptual items or immaterial products, such as legends, poems, texts, music, images, movies, laws, types etc.

Examples:  

-the framing of the U.S. Constitution

-the drafting of U.N. resolution 1441

Properties:    P94 has created (was created by): E28 Conceptual Object


Par ailleurs,  l'interopérabilité des données n'est pas la seule motivation derrière l'utilisation d'ontologies; elles peuvent également être mobilisées à différentes étapes d'élaboration de systèmes d'informations, « que ce soit pour établir une nomenclature commune entre différentes disciplines ou pour servir de socle lors de comparaison de jeux de données pour un même domaine » (Szabados, 2012)[20].


Si des données jugées pertinentes grâce notamment à l’utilisation d’une ontologie (et libres de droits) existent déjà quelque part sur le Web, il est préférable de simplement créer des liens vers elles plutôt que de les resaisir ou de les recréer : tel est le principe de base de ce que l’on appelle les « Données liées ouvertes » ou « LOD ». Ce principe de non-redondance et de réutilisation raisonnée semble particulièrement pertinent dans le contexte de l’information muséale et patrimoniale, pour éviter de ressaisir les mêmes informations pour différents usages ou sur de multiples supports ou encore par différents services. « La notice descriptive de l’objet ne doit être saisie qu’une seule fois et être exploitée en communiquant d’un système à l’autre au sein du musée ou entre plusieurs musées et institutions » (Manoeuvre, 2007). Ce principe des « données liées » est ainsi profondément attaché à l’infrastructure technique du Web sémantique, laquelle repose elle aussi sur les ontologies.


Il faut néanmoins préciser que cet enthousiasme n’est pas partagé par toutes les institutions patrimoniales, loin de là. Certaines d’entre elles semblent demeurer prudentes face à la complexité de mise en œuvre des ontologies et du Web sémantique, et certains acteurs arguent que son développement semble lent en comparaison de l’adoption massive d’autres usages du Web (réseaux sociaux notamment).


Il existe une ontologie spécifique au domaine muséale qui a été adoptée plus largement dans différents domaines patrimoniaux: le CIDOC-CRM. Il s’agit d’un modèle issu de bientôt trente ans de standardisation au sein du Comité International pour la Documentation (CIDOC) du Conseil International des Musées. « Autant dire qu’il est le résultat d’une sédimentation de longues réflexions, ce qui rend ses fondations théoriques extrêmement solides. […] Il donne donc un cadre de modélisation rigoureux, mais avec une logique qu’il faut s’approprier » (Francart, 2019).


Dans cette dernière partie, est proposé un aperçu de la logique et la structure de ce modèle en examinant comment il exprime la sémantique sous-jacente de l’information patrimoniale.


2.4 Cidoc-CRM : les grandes lignes du modèle[modifier | modifier le wikicode]

« Le CIDOC-CRM est une ontologie formelle de haut niveau permettant de structurer la description et l’histoire d’objets patrimoniaux (tableaux, sculptures, bâtiments, fouilles archéologiques, etc.) – ou d’autres informations similaires. L’objectif de ce modèle est de permettre l’intégration de données provenant de sources hétérogènes dans un graphe commun, cohérent, à l’échelle d’une institution ou au-delà, permettant ainsi l’accès et l’interprétation scientifique de ces informations » (Francart, 2019).


L’ambition fondamentale du modèle CIDOC CRM est de fournir un langage commun à des gisements d’information hétérogènes et de permettre leur intégration, par delà leurs éventuelles incompatibilités tant sémantiques que structurelles. Il vise ainsi à faciliter l’échange et la recherche d’informations dans le domaine du patrimoine culturel et de permettre aux musées de rendre compatibles leurs documentations sans perdre de leurs spécificités ni de la précision de leurs données initiales (Le Boeuf, 2012). Le modèle CIDOC CRM est un modèle sémantique de référence élaboré depuis 1994 : d’abord par le Groupe de normalisation documentaire (Documentation Standards Group) du Comité international pour la documentation du Conseil international des musées (ICOM-CIDOC), puis par un groupe de travail spécialement constitué à cet effet (le CRM-SIG). Plusieurs versions en ont été publiées au fil des années ; la dernière version, qui date de mars 2021, est la version 7.1 du CIDOC CRM qui a valeur officielle.

N’ayant pas pour ambition de prescrire une manière particulière d’établir des inventaires de collections muséales, le CIDOC CRM ne dit pas comment on doit les concevoir et ne propose pas de format informatique idéal. Le postulat de départ est qu’il existe différentes conceptions de ce qu’est un inventaire, différents formats de bases de données, différents besoins et usages projetés selon la nature des collections ou des projets éditoriaux.


Sans nier les disparités inévitables entre les inventaires ou entre les domaines, ce modèle ontologique postule que la sémantique de tout inventaire muséographique peut se schématiser en reliant des « classes » à des « propriétés ». Il comporte actuellement 98 classes et 198 propriétés décrivant les relations qui peuvent exister entre des instances de ces différentes classes. Le deuxième pilier du CIDOC CRM est la notion clé d’  « événement » : le modèle repose ainsi sur l’idée fondamentale que tout ce qui est décrit dans un inventaire est le résultat d’une suite d’événements. La notion d’événement permet de mettre en relation un objet (matériel et/ou conceptuel) avec les différentes personnes ou acteurs qui ont participé à sa fabrication, modification, transformation, acquisition ou encore destruction mais aussi avec les lieux où il a été construit, exposé ou stocké ou encore avec les périodes qui l’ont vu exister, se transformer ou disparaître. Ainsi de nombreuses dates sont associées à la vie d’un objet muséal, outre celle de sa conception ou de son inauguration comme c’est souvent le cas en histoire de l’art notamment. La souplesse est l’un des atouts majeurs de ce modèle conceptuel qui « n’enferme pas les descriptions muséales dans des assertions dogmatiques établies une fois pour toutes, mais autorise a  rendre compte de discours éventuellement contradictoires, qui éclairent un même objet de points de vue philosophiques et historiographiques différents, et attestent de prises de positions distinctes quant à son statut ou quant aux circonstances de son apparition » (Le Boeuf, 2012, p. 97).

Figure 10 : Vue d’ensemble des classes et des propriétés du CIDOC CRM. Source : http://www.cidoc-crm.org/sites/default/files/CIDOC-501.PNG
Figure 10 : Vue d’ensemble des classes et des propriétés du CIDOC CRM. Source : http://www.cidoc-crm.org/sites/default/files/CIDOC-501.PNG


Figure 11 : Vue réalisée par Athina Kritsotaki et Martin Doerr : L’utilisation de la sculpture en plâtre du Balzac pour la production posthume du Balzac en bronze. Exemple extrait du site du CIDOC CRM , Source :  http://old.cidoc-crm.org/crm_core/core_examples/balzac.html

Prenons le cas d’un œuvre emblématique de l’art public, le « Monument à Balzac » d’Auguste Rodin. Ce dernier a passé sept années à travailler sur différentes études préparatoires (montrant différentes versions de la sculpture) pour la réalisation d’une œuvre de commande en hommage à l’écrivain Honoré de Balzac. La version finale du Monument à Balzac (en plâtre) a été exposée à Paris en 1898 pour être ensuite rejetée par les critiques et les commanditaires qui l’ont considéré comme une esquisse inachevée. Plusieurs années après la mort de Rodin, son «Balzac» a été coulée en bronze (ce qui en soi n’était pas une pratique inhabituelle, certaines pièces ayant déjà été coulées à partir de moulages de premières œuvres que l’artiste n’avait jamais exécutées en bronze). Mais une question demeure concernant ces moulages posthumes : sont-ils des reproductions en bronze ou des œuvres originales ?


La Figure 11 montre comment le CIDOC CRM permet d’agencer les données afin de schématiser l’utilisation de la sculpture en plâtre pour la production posthume de la sculpture en bronze, bref d’exprimer un point de vue sur cette œuvre . Précisons que le CIDOC CRM permet d’exprimer diverses vues sur différents états des choses, ce que nous trouvons habituellement dans la documentation et qu’il semble difficile d’exprimer à travers des données non sémantisées. De plus, cette capacité à exprimer des vues différentes permet de dissiper les ambiguïtés éventuelles sur les dates, la production de l’œuvre et les acteurs impliqués dans ce processus ou encore à indiquer plusieurs interprétations différentes par divers acteurs (historiens, chercheurs, etc.). Même si le CIDOC CRM ne comporte aucune prescription pour le traitement documentaire des artefacts muséaux, le modèle permet d’expliciter la sémantique intrinsèque du discours que les institutions (ou d’autres acteurs) expriment à travers leurs bases de données. Cela signifie que le modèle peut aussi servir d’outil dans la conception des systèmes d’information des musées, en permettant notamment de déterminer quelles sont les notions et les relations importantes sur lesquelles un utilisateur s’attend à pouvoir formuler des requêtes. En France, le projet HADOC (HArmonisation de la production des DOnnées Culturelles) au sein du MCC vise l’interopérabilité des données produites par le Ministère de la culture et de la communication et par l’ensemble de ses partenaires dans tous les domaines de compétence du ministère : musées, archives, bibliothèques mais aussi le patrimoine architectural et mobilier protégé ou non, l’archéologie, l’ethnologie, la photographie, les arts plastiques, le spectacle vivant, etc. Pour ce projet, le CIDOC CRM est considéré comme un mode le conceptuel pivot permettant de faire dialoguer les différents modèles de métier.


Conclusion[modifier | modifier le wikicode]

L’écosystème du Web de données ouvert est en cours de construction dans le domaine patrimonial et l’utilisation des thésaurus, des taxonomies et des ontologies fait partie des orientations récentes mises en œuvre par les institutions culturelles et patrimoniales. A travers ce chapitre, nous avons privilégié une approche descriptive de ces différents langages de représentation permettant d’aborder la notion d’interopérabilité dans ses dimensions conceptuelle et technique. La mise en œuvre de l’interopérabilité dans les systèmes d’information patrimoniaux soulève toutefois de nombreuses difficultés et critiques face à ce qui est parfois interprété comme une injonction à formater les inventaires pour le Web sémantique. Dans cette perspective, il convient d’envisager la dimension socioculturelle, l’« interopérabilité culturelle »  comme une problématique transversale à la mise en œuvre du Web de données ouvert (Juanals et Minel, 2016). Au-delà des questions techniques, les difficultés relèvent de la communication entre des cultures différentes, de problèmes aussi bien relationnels, qu’organisationnels, juridiques ou linguistiques.  Tout en questionnant l’idéologie sous-jacente du Web sémantique, selon laquelle il est possible atteindre une forme d’universalité dans les représentations des objets patrimoniaux et dans leurs modalités d’accès, il est difficile de nier son rôle stratégique dans la pérennisation et la circulation des données et de ce fait, dans la démultiplication des usages et des pratiques patrimoniales.

S’il est impossible de présumer l’usage qui sera fait des données à moyen et long termes, une chose semble certaine, si les données culturelles et patrimoniales ne sont pas structurées et interopérables, elles courent le risque d'être perdues.



[1] Le protocole OAI-PMH, fondé par l'Open Archives Initiative en 2001, est la première étape vers l'ouverture des données sur le web.

[2] Terme emprunté au philosophe Etienne Souriau

[3] Une application web désigne un logiciel applicatif hébergé sur un serveur et accessible via un navigateur web. Contrairement à un logiciel traditionnel, l’utilisateur d’une application web n’a pas besoin de l’installer sur son ordinateur. Il lui suffit de se connecter à l’application à l’aide de son navigateur.


[4] Ce chapitre est une version courte d’une partie de l’ouvrage « Le musée réticulaire des patrimoines numérisés », à paraître aux éditions du Bord de L’eau/UDPN en 2021.

[5] WorldWideWeb: Proposal for a HyperText Project [archive], T. Berners-Lee/CN, R. Cailliau/ECP, 12 novembre 1990


[6] https://www.huma-num.fr/formations/anf-websem-2014

[7] Chef du service numérique de la recherche au département des études et de la recherche à l’Institut national d'histoire de l'art, https://medium.com/@ancourtin/le-mille-feuille-de-donn%C3%A9es-pour-les-objets-culturels-f98ccd8fe59d

[8] https://medium.com/@ancourtin/le-mille-feuille-de-donn%C3%A9es-pour-les-objets-culturels-f98ccd8fe59d

[9] Les données sont le contenu et les métadonnées sont le contexte. Les métadonnées peuvent être beaucoup plus révélatrices que les données, en particulier lorsqu'elles sont collectées globalement. 8 Bruce Schneier, Data and Goliath, Cryptologue, spécialiste en sécurité informatique et écrivain américain. Il rejoint ensuite la société Inrupt fondée par Tim Berners-Lee afin de travailler sur le projet Solid.


[10] Patrick Peccatte, Soft Expérience, http://peccatte.karefil.com/Software/Metadata.htm

[11]Ministère de la culture et de la communication (France), Programme national de numérisation et de valorisation des contenus culturels- les enjeux des métadonnées et des standards, Source : https://www.culture.gouv.fr/Media/Thematiques/Innovation-numerique/Folder/Livrables-GT-Numerisation/Les-enjeux-des-metadonnees-et-des-standards

[12] Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de standardisation à but non lucratif, fondé en octobre 1994 chargé de promouvoir la compatibilité des technologies du World Wide Web. Fonctionnant comme un consortium international, il regroupe, au 14 août 2020, 434 entreprises partenaires. Source : https://fr.wikipedia.org/wiki/World_Wide_Web_Consortium, consulté le 3 mai 2021

[13] Programme nationale de numérisation et de valorisation des contenus culturels- Les enjeux des métadonnées et des standards. Ministère de la culture, Secrétariat général, 2017. https://www.culture.gouv.fr/Media/Thematiques/Innovation-numerique/Folder/Livrables-GT-Numerisation/Les-enjeux-des-metadonnees-et-des-standards.


[14] Terme proposé par Tim Berners Lee, "The Semantic Web", Scientific American Magazine, 17 mai 2001.

[15] Opération qui consiste à admettre une proposition en raison de son lien avec une proposition préalable tenue pour vraie. Inférence est (...) le terme le plus général, dont raisonnement, déduction, induction, etc., sont des cas spéciaux (Lal. 1968): https://www.cnrtl.fr/definition/inference

[16] http://blog.sparna.fr/2013/12/07/ontologie-thesaurus-taxonomie-web-de-donnees/

[17] Le programme Hadoc (Harmonisation des données culturelles) vise à harmoniser l’ensemble des bases de données patrimoniales du MCC, notamment en les faisant évoluer vers une description des données plus conceptuelle. Dans ce cadre, un outil de création et gestion de vocabulaires, Ginco, a été développé pour transformer les thésaurus du MCC en référentiels sémantiques exposés en Skos.

[18] Carl von Linné (1707 – 1778) Naturaliste suédois qui a établi le système de classification encore utilisé aujourd'hui. Dans le système de Linné, les organismes vivants sont regroupés en catégories de plus en plus vastes imbriquées les unes dans les autres.


[19] Thomas R. Gruber, Towards Principles for the Design of Ontologies Used for Knowledge Sharing in Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993, [lire en ligne [archive]] [PDF].

[20] https://halshs.archives-ouvertes.fr/halshs-00752996/PDF/SZABADOS_LETRICOT_ontologie_CIDOC_CRM_appliquee_aux_objets_du_patrimoine_antique_2012.pdf



Proposition initiale


La numérisation, parce qu’elle transforme l’objet et appauvrit les informations qu’il comporte, implique de documenter la représentation numérique pour compenser les pertes ainsi produites et induit donc l’utilisation de métadonnées. Or, si le monde de la recherche utilise des métadonnées, nombreux sont ceux qui le font sans presque en avoir conscience. Définir la métadonnée comme une donnée sur la donnée pose la question de l’enrichissement. Sémantisation, taxonomies, thésaurus, ontologies et indexation : autant d’instances de cette opération de contextualisation.

Il importe ainsi de faire la démonstration du construit des données et des métadonnées en analysant “les méthodes scientifiques de constitution des données qui relèvent d'une construction et qu'il faut donc distinguer d'une vérité miracle qui apparaîtrait dans de simples extractions” (Le Deuff, 2017). Les données comme des éléments de captation (Dodge et Kitchin, 2011), des capta (Johanna Drucker), ou encore des obtenues (Latour, 2012) signifie qu'il faut considérer à la fois les processus d'acquisition des données, d’enrichissement en métadonnées mais également les méthodes d’accessibilité, de traitement, d’interprétation, visualisation de l'information. La métadonnée relève d’un choix – elle implique des contraintes, car il faut des critères de décision –, qui est par nature infiniment subjectif (la métadonnée comme la donnée n’est jamais aussi objective que l’on peut le croire). D’où des questions connexes : quelle est la limite lors de l’ajout de métadonnées ? Où faut-il s’arrêter ? Quel champ veut-on couvrir ? Il est essentiel d’avoir conscience que l’exhaustivité est impossible. La métadonnée ne doit pas être une fin en soi, il ne faut pas devenir esclave de l’outil. La métadonnée est une forme particulière de donnée qui décrit ses attributs et lui donne une signification, un contexte et une organisation. Il s’agit en d’autres termes d’un ensemble structuré de données créé pour fournir des informations sur des ressources numériques. Elles ont différentes fonctions : la gestion des ressources décrites ; les informations sur le contenu de la ressource pour en faciliter la découverte. Les métadonnées viennent après les données (bien que toute donnée numérique implique dès l’origine des métadonnées), elles sont une étape supplémentaire, ce sont des données sur les données. Elles permettent de catégoriser les données. Pour penser les métadonnées, il faut d’abord définir les données (qu’elles soient brutes ou en construction). Certes, l’élément numérisé est une donnée complexe, mais nous considèrerons, de façon axiomatique, qu’il est la donnée brute. Dans le cadre des études littéraires, par exemple, le texte numérisé est une donnée brute, qu’il faut documenter, historiciser, enrichir grâce aux métadonnées. Les métadonnées doivent être déterminées en fonction du projet, en fonction du public (exemple : quelle est la nécessité de renseigner, grâce à des métadonnées, la spatialité des lettres de Zola ? pour quel(s) usage(s) ? Quel est l’intérêt scientifique d’un codage complexe de l’information ? On peut être purement utilitariste, ne considérer la création de métadonnées qu’immédiatement exploitables, ou travailler pour les chercheurs de demain, en fabricant des corpus, des outils pour la recherche future. Dans cette perspective, il faut considérer la métadonnée comme une unité éditoriale, qui s’inscrit dans un système cohérent. Les métadonnées s’emboîtent pour former une systémique interne. Il faut d’abord penser la métadonnée pour son usage. Il faut la penser pour permettre l’appropriation de la donnée, du savoir. Les métadonnées doivent permettre de construire de l’information à partir d’une représentation. La métadonnée vient tenter de décrire le réel, car le numérique s’est exonéré du matériel, de la matérialité des choses (en ce sens, la métadonnée ajoute à l’illusion numérique). La métadonnée est souvent invisible, il s’agit donc de la convoquer (exemple des métadonnées sur les images prises à partir de téléphone portable : la plupart des utilisateurs ignorent qu’elles contiennent des informations de géolocalisation).

Pistes de réflexion :[modifier | modifier le wikicode]

● Métadonnées de classification et métadonnées sémantiques. Métadonnées factuelles et heuristiques. Ces distinctions sont-elles utiles ?

● Comment décrire et documenter la constitution des données, des métadonnées, des corpus ?

● De la même façon que le langage construit le monde, la métadonnée construit la donnée. Il s’agit de questionner le rôle des métadonnées qui peuvent aider à construire à structurer la pensée. La métadonnée nous renseigne sur notre relation au savoir et sur notre vision du monde.

● Une éthique de la métadonnée (dans leur dimension à la fois politique et pédagogique) ? Éthique pour protéger les libertés individuelles, mais aussi une éthique épistémologique. Principes FAIR de la science ouverte: Les principes FAIR visent à assurer la production et la diffusion de produits de la recherche Faciles à trouver, Accessibles, Interopérables et Réutilisables (liste des principes FAIR).

● Les données et les métadonnées sont indissociablement liées au thésaurus, à la taxonomie et à l’ontologie au sein desquels elles sont créées, structurées, articulées.

● Quelle est la temporalité de la métadonnée : indexation avant ou après la numérisation ? En cours de numérisation ? Quelle pérennité des métadonnées ? Mises à jour ?


Bibliographie[modifier | modifier le wikicode]

● HILLMANN, Diane Ileana et WESTBROOKS, Elaine L. Metadata in practice . American Library Association, 2004.

● LOPATIN, Laurie. Metadata practices in academic and non-academic libraries for digital projects: A survey. Cataloging & Classification Quarterly , 2010, vol. 48, no 8, p. 716-742.

● MA, Jin. Managing metadata for digital projects. Library Collections, Acquisitions, and Technical Services , 2006, vol. 30, no 1-2, p. 3-17.

● MINISTÈRE DE LA CULTURE ET DE LA COMMUNICATION. Feuille de route stratégique - Métadonnées culturelles et transition Web 3.0 [En ligne]. Disponible sur : < http://www.enssib.fr/bibliotheque-numerique/documents/64776-feuille-de-route-strategique-metadonnees-culturelles-et-transition-web-3-0.pdf#page=2&zoom=auto,-61,564 >

● PENEVA J., IVANOV S., SOTIROVA K., DONEVA R., DOBREVA M. « Access to Digital Cultural Heritage: Innovative Applications of Automated Metadata Generation Chapter 1: Digitization of Cultural Heritage – Standards, Institutions, Initiatives. ». In : Access to Digital Cultural Heritage: Innovative Applications of Automated Metadata Generation [En ligne]. Plodvid : Plovdiv University Publishing House "Paisii Hilendarski", p. 25-67. Disponible sur : < http://eprints.nbu.bg/1479/ >ISBN : 9789544237226.

● WESTEEL, Isabelle et MUNICIPALE DE LILLE, Bibliothèque. Patrimoine et numérisation: la mise en contexte du document. Bibliothèque numérique de l’enssib , 2004.

● Lunenfeld, Peter, Anne Burdick, Johanna Drucker, Todd Presner, and Jeffrey Schnapp. Digital_humanities. MIT Press, 2012. Disponible sur : https://mitpress.mit.edu/sites /default/files/titles/content/9780262018470_Open_Access_Edition.pdf