Dans la continuité des réflexions entamées l’année dernière, le MIFC revient cette année avec une nouvelle discussion sur l’intelligence artificielle, tournée cette fois-ci vers l’application d’outils dans le cadre d’archives patrimoniales. L’INA était ainsi représenté par Pascal Flard et Xavier Lemarchand, face à la journaliste Perrine Quennesson, pour évoquer durant une étude de cas ses nouveaux outils technologiques.
Comme l’explique Xavier Lemarchand, directeur de mission, coordination et intégration IA de l’INA, l’Institut met à disposition des professionnels depuis 1975 des archives audiovisuelles pour une utilisation dans des programmes frais. Ils sauvegardent depuis 1992 les archives, radio et télévisées, de 192 chaînes, et proposent depuis le début des années 2000 du contenu éditorialisé dans un média patrimonial. Leur catalogue rassemble environ 25 millions d’heures de dépôt légal audiovisuel TV et radio, environ 5,8 millions d’heures de dépôt légal audiovisuel web ainsi que 2,5 millions d’heures issues de fonds d’archives professionnelles. Ce sont donc pas moins de 30 millions d’heures qu’il faut archiver, cataloguer et traiter. Pour cela, les intelligences artificielles (IA) se placent comme des outils assurant rapidité et fiabilité dans le catalogage et le traitement des données, à l’heure où seulement 85,5 % des données issues du dépôt légal global sont cataloguées, sans descripteurs, chapeau ou résumé.
Une diversité d’outils IA pour une diversité d’application
L’INA fonctionne avec plusieurs outils IA, internes ou externes, qui ne sont pas aux mêmes niveaux de maturité. Les principaux sont : Whisper, TextRazor et InaSpeechSegmenter, qui est le seul élément interne pour le moment. Leur première utilisation est la transcription des contenus archivés, qui permet par la suite de fournir des données utiles pour la recherche et la découvrabilité de leur catalogue. De nouveaux champs d’analyse, de recherche et d’exploitation sont alors possibles. La place des humains n’est pas remise en cause, mais la technologie réduit à seulement deux ans la transcription complète des archives INA, contre une centaine de milliers d’années pour l’humain. À noter que tous leurs outils ne sont pas encore suffisamment matures pour être utilisables, malgré leur grande valeur d’usage. La génération des textes, comme des titres ou des résumés, la description des images et l’identification des visages et des locuteurs ne sont par exemple pas encore assez matures, là où l’extraction d’entités nommées et la signature sont très développées.
La fiabilité des outils proposés présente aussi un enjeu crucial pour l’INA, qui n’hésite pas à faire des mesures de terrain pour s’assurer du sérieux des résultats donnés. Il est alors question d’évaluer la qualité des données avant de passer un traitement à l’échelle industrielle, mais aussi de suivre l’évolution de la fiabilité pour éviter des dérives conjoncturelles, ou encore d’améliorer les traitements en utilisant l’analyse et l’annotation humaine. Tout l’enjeu n’est pas seulement de “corriger” un résultat, mais d’améliorer durablement un outil.
Une application limitée dans le cinéma de patrimoine
Pensés pour accompagner les spécialistes des médias ou les curieux souhaitant représenter des données médiatiques, les outils utilisés ou développés par l’INA n’ont, pour le moment, pas été prévus pour une application dans le cinéma de patrimoine. Cependant, ils ouvrent des pistes de réflexion. Pascal Flard, chef de service adjoint “Pilotage & Traitement des médias” de l’INA, présentait ainsi les différents champs retravaillés par l’IA en matière de restauration de contenus audiovisuels, que l’intelligence artificielle soit générative ou dite “dégénérative”, notamment sur les sujets de la colorisation et de la résolution d’image. L’outpainting et le doublage synchronisé labial ne sont pas utilisés, pour des questions d’éthique.
Une utilisation des outils de transcription peut aussi être envisagée pour des recherches sur la représentation de personnages masculins ou féminins dans les films. Une expérimentation testée sur des podcasts, avec succès.
Les principales limites de l’IA
Une première limite s’impose : celle de la durabilité. En effet, les deux représentants de l’INA sont très clairs, la fiabilité de l’IA diminue dans le temps. Il n’est ainsi pas question de stocker plus de deux ans les images produites par l’IA, étant donné qu’elles seront très vite obsolètes. Seuls les éléments originaux sont conservés dans le temps. Cela évince les questions sur le stockage et l’énergie engagée pour le faire.
La durabilité de l’IA entraîne une deuxième limite, celle de l’évolution dans le temps. Ainsi, les performances des outils utilisés par l’INA sont mises à mal lorsque de nouvelles entités apparaissent, comme de nouveaux noms ou de nouveaux visages. Elles peuvent faire échouer des transcriptions. Une validation humaine est donc nécessaire avant la publication de données, même si les erreurs sont marginales : le taux de confiance est de 83 %. Lorsqu’il y a des erreurs, un avertissement prévient les utilisateurs que leur base de travail peut être erronée.
Les contenus à retravailler sont aussi limitants, rendant difficile l’application sur des séquences longues ou sur des images en 3D là où l’intelligence artificielle s’applique avec succès sur de la 2D.
Enfin, une quatrième limite est à trouver dans la contextualisation : l’IA n’a pas encore toutes les clés pour contextualiser des éléments, et peut donc proposer des résultats erronés. C’est par exemple le cas avec le mot “Wagner”, associé au compositeur Richard Wagner à partir de 2022 alors qu’il est question dans les médias du groupe Wagner, organisation paramilitaire russe.
Pour autant, les deux experts sont formels : les limites sont repoussées à mesure que le temps passe et que les connaissances en matière d’intelligence artificielle sont approfondies.
Quelques principes à respecter
Réaffirmant que l’IA n’est pas un outil miracle, et qu’il nécessite une supervision humaine pour être utilisé au mieux, Xavier Lemarchand et Pascal Flard soulignent les différents principes que l’INA entend respecter dans son utilisation des intelligences artificielles. À commencer par le respect du droit d’auteur, et l’obligation de limiter les risques de déformation historique. Le contexte de production est aussi important : l’INA ne produit des images colorisées que s’il y a une véritable logique éditoriale ensuite. Le spectateur est informé de chaque modification effectuée, et les éléments originaux sont précieusement conservés. Des principes qui rappellent ceux déjà respectés par les professionnels de la filière classique dans le cinéma.
Ce site nécessite l'utilisation d'un navigateur internet plus récent. Merci de mettre à jour votre navigateur Internet Explorer vers une version plus récente ou de télécharger Mozilla Firefox. :
http://www.mozilla.org/fr/firefox