Comme attirés par un trou noir, les films de l’artiste belge Emmanuel Van der Auwera orbitent autour d’une impossible figuration, d’une image manquante. A Certain Amount of Clarity (2014) était composé d’images trouvées sur Internet montrant comment deux adolescents, face caméra, réagissaient à la violence d’un snuff movie, sans que jamais le contrechamp de leur regard n’apparaisse à l’écran. De même, dans son dernier film White Cloud (2024), composé presque en intégralité de clips vidéo générés par le logiciel d’intelligence artificielle Runway, tout gravite autour d’une absence centrale : ce trou béant, qui est aussi une « boîte noire », qu’est la mine de Bayan Obo, où la majeure partie des terres rares nécessaires à l’industrie numérique sont extraites grâce au travail de mineurs chinois. Comment approcher cette scène originaire matérielle de la société algorithmique ? En inventant le paradoxe d’un found footage génératif, le film s’imagine comme un document contrefactuel, constitué d’images de cet espace aussi inaccessible qu’il est stratégique pour le capitalisme numérique contemporain, et du témoignage oral d’un des travailleurs de la mine, recomposé fictivement à partir de posts trouvés sur les réseaux sociaux.
Débordements : Peut-être faut-il commencer par identifier le matériau vidéo et audio utilisé pour la réalisation d’un film aussi composite. Parlons d’abord de l’image. Quel logiciel avez-vous utilisé pour la génération d’images en mouvement et quelles contraintes vous êtes-vous données lors de la formulation des prompts ?
Emmanuel Van der Auwera : J’ai commencé à travailler sur White Cloud à la fin de l’année 2022, en utilisant Midjourney, et je me doutais qu’il faudrait encore quelques mois avant qu’une IA générative vidéo n’apparaisse. J’ai ainsi commencé à produire énormément d’images préparatoires afin de me permettre d’imaginer ce que pourrait être le film. D’abord, j’ai même cru que le film allait être une sorte de diaporama. Ça m’a permis d’appréhender le travail avec le prompt, ce qui était très nouveau pour moi. Comment décrire quelque chose ? Quel résultat puis-je espérer ? Jusqu’où aller dans le détail ? Il était assez facile d’obtenir des résultats, de véritables scènes, mais ce qui était assez fascinant, c’est que je pouvais, uniquement par l’imagination, produire une caméra virtuelle que je pouvais placer à volonté. Ce qui m’a aussi beaucoup intrigué, c’est que le même prompt ne donne jamais le même résultat. C’est un peu comme une machine à sous : avec un prompt suffisamment riche, le logiciel va constamment donner des résultats intéressants. Il faut donc multiplier les images.
D. : Combien d’itération ce processus a-t-il exigé ?
E. V. d. A. : Pour certaines d’entre elles, c’était des dizaines et des dizaines. J’affinais chaque prompt en le reformulant tant que je n’étais pas satisfait, tout en prenant en compte certains éléments que j’avais découverts. Par exemple, en faisant une demande précise, le logiciel ne va pas se dire que c’est simplement, mettons, le casque du mineur qui est rouge. Il va simplement comprendre que l’utilisateur veut du rouge et va mettre du rouge partout. Ou alors, si l’utilisateur demande un objet poussiéreux, tout devient poussiéreux. C’est ce qui est assez différent par rapport à la description d’une scène dans un scénario, où l’on utilise un vocabulaire assez descriptif, voire littéraire. Ici, il s’agissait plus d’une alchimie ou d’une équation dans laquelle certains paramètres ont plus de poids que d’autres, et, en fonction de l’ordre dans lequel on les écrit, ils vont créer un résultat différent. C’est ce qui m’a permis de comprendre la liberté de création que l’outil pouvait offrir, et de mettre en scène cet environnement comme si j’allais réaliser un film documentaire sur le lieu que j’ai choisi, la mine chinoise de Bayan Obo, dans les montagnes de Mongolie intérieure.
D. : J’anticipe un peu, mais la voix off évoque elle-même ce processus d’approche documentaire dans le film : « Si l’on veut parler du quotidien de la mine, on ne peut pas seulement parler de la mine, il faut aussi évoquer les vêtements qu’on n’arrive jamais vraiment à nettoyer, du futur que l’on n’arrive pas vraiment à distinguer. » Pour montrer la mine, il fallait donc aussi « imaginer » les conditions de vie des travailleurs ?
E. V. d. A. : Quand le désir de faire ce film est apparu et que j’ai eu l’idée de revenir au tout début de la chaîne de montage du « monde numérique », j’ai pensé aux terres rares. Ces matières, résultant de phénomènes physiques extrêmes et colossaux, trouvant leur origine dans l’explosion d’étoiles, sont des composantes essentielles de tout ce qui touche à l’électronique. En effectuant une recherche, j’ai appris que la Chine produit 80 % des terres rares du monde, et que plus de la moitié provient de Bayan Obo.
C’est à ce moment que je suis tombé sur une image satellite de cet endroit qui m’a immédiatement impressionné par sa dimension, son gigantisme. J’ai voulu voir ce que cette image ne me montrait pas, à savoir la réalité souterraine ; c’était une manière de descendre de cette vision satellitaire. C’était largement inconscient, mais je pense que l’extrême distance induite par la prise de vue satellite a fait résonner en moi le sentiment que j’entretenais avec cet endroit une étrange proximité. Les instruments qui m’entourent venaient donc de là. À cette altitude, les carrières immenses apparaissent comme des taches sombres sur un paysage presque lunaire. Sans ces trous noirs, pas d’Internet, pas de missiles, la toile numérique s’effondre. J’ai alors, sans trop savoir pourquoi, commencé à produire des images fixes du lieu avec Midjourney.
Dans le documentaire classique, on commence par un repérage sur le site qui nous intéresse, afin de débuter une recherche préparatoire. Mais Bayan Obo n’est pas vraiment accessible, c’est donc très vite devenu une image mentale pour moi. Quelle est la texture de ce lieu ? Comment le temps passe-t-il là-bas ? Ce sont des questions qui m’ont progressivement pénétré, de sorte que ce lieu réel s’est dédoublé, à mesure que je me le figurais et que je lui donnais une forme par l’IA. Mes premières images représentaient uniquement la mine, le travail des mineurs, etc. Mais à un moment donné, cette image mentale est devenue expansive et a commencé à inclure tout ce qui gravite autour de la mine : la vie, les animaux, la langue, les soirées entre mineurs, leur vie affective, la maison, les déplacements en voiture ou en bus… Toutes ces choses-là ont formé un écosystème, une réalité parallèle. C’est ce qui m’a permis de donner un sentiment de réalité à l’espace. J’ai appris progressivement à sculpter l’image du site : j’ai commencé à développer une réflexion plus subjective et consciente sur cet espace.
Tout s’est accéléré quand, fin décembre 2022, j’ai constaté que l’entreprise étasunienne Runway allait lancer un logiciel de génération vidéo en avril 2023. L’outil, toujours à l’essai, n’était accessible que de manière limitée : il n’était pas du tout utilisable à des fins commerciales, c’était juste une démonstration. Des images commençaient à circuler sur ce que le logiciel pouvait produire. Ces images étaient toutes très anecdotiques et loufoques, mais elles m’ont tout de suite intrigué. J’ai attendu patiemment, je me suis renseigné sur ce logiciel, et je me suis rendu compte qu’il acceptait comme promptà la fois du texte et de l’image. Ce n’était certes pas encore possible de donner au logiciel une première image pour lui demander de l’animer, mais elle servait plutôt comme une source d’inspiration, en proposant une couleur ou une texture, une atmosphère, sans toutefois être présente dans le résultat final. C’est une des raisons pour lesquelles il était particulièrement intéressant de réaliser le film à ce moment-là, puisqu’il s’agissait du premier modèle capable de générer des vidéos « réalistes » par IA accessible au grand public.
L’« imagination » de l’IA est comme une carte, une cartographie prédéterminée de concepts. Les objets y sont organisés en fonction de leur proximité, mais il s’agit d’un espace non euclidien. Il n’y a pas d’images à proprement parler dans le modèle, seulement une suite de vecteurs mathématiques compressant l’information visuelle et attribuant aux images des coordonnées dans l’espace. Ce sont ces coordonnées qui relient les images mathématiques les unes aux autres. Par exemple, un chat est très proche d’un humain, d’une excavatrice un peu moins. Aujourd’hui, le logiciel est bridé, c’est-à-dire qu’il discrimine dans cette « carte » pour orienter le modèle vers certains résultats plus « généraux » au détriment d’autres. Voilà pourquoi la plupart des images générées ressemblent à des images génériques (stock images), ce qui fait que le logiciel est incapable d’imaginer de véritables monstruosités. C’est une forme de censure du modèle par les ingénieurs. L’algorithme de Runway que j’ai utilisé était, au tout début, assez peu bridé. Il fonctionne mal, mais il est très brut de décoffrage.
Je suivais sur Discord les gens qui commençaient à l’utiliser, qui se plaignaient, qui n’arrivaient pas à faire des mouvements de caméra. J’ai eu ce problème aussi. Je peux citer un prompt qui a servi à fabriquer White Cloud :
“Close-up janky. Handheld hidden camera in the style of gonzo reportage of a group of Chinese miners working, supervising the work of a hydraulic excavator, scrapping the quarry at Bayan Obo Earth Mining Quarry in Chinese Mongolia in pitch darkness at night. Long exposure, very sharp shadow, stark on.”
Quand on décrit une scène, on pense qu’elle est pleine de dynamisme, mais en réalité, la scène que je viens de décrire n’aurait donné qu’une image fixe ou des ralentis sur Runway si je n’avais pas ajouté au prompt « in the style of gonzo reportage ».
En expérimentant avec le modèle, j’ai pris conscience que ce qui fonctionnait le mieux pour ce projet était l’utilisation de caméras embarquées, afin de capter un point de vue subjectif, l’impression d’immédiateté et d’authenticité ressentie par la présence de la caméra. Finalement, plus les images sont léchées, moins elles véhiculent cette impression de réalité ; au contraire, elles acquièrent une subjectivité à mesure qu’elles sont dégradées, embarquées, pleines de glitchs et de mouvements. Cette subjectivité du point de vue se traduit inconsciemment pour le spectateur par le sentiment qu’il assiste à quelque chose de « vrai », qui donne des indices de sa propre factualité. C’est ce qui m’a frappé en lisant les descriptions que propose Georges Didi-Huberman des images d’Auschwitz dans Images malgré tout (2004), lorsqu’il parle de ces photos ratées, mais qui donnent énormément d’informations sur les conditions dans lesquelles elles ont été prises.
D. : C’est aussi cette impression qui découle des images de found footage qui composent les premiers plans. D’où proviennent-elles ?
E. V. d. A. : Jusqu’au dernier moment, je n’étais pas sûr qu’elles fassent partie du film. Elles proviennent d’une théorie du complot qui m’intéressait en parallèle de la création du film. C’est une histoire un peu abracadabrantesque et poétique – celle de skylines de métropoles « fantômes » qui apparaissent au-dessus de villes. En fait, il s’agit d’une théorie du complot qui a débuté en 2016, quand une vidéo similaire est apparue sur r/conspiracy, sans que personne ne sache d’où venaient ces vidéos de pauvre qualité. Je pense que les premières proviennent de Chine. Il s’agit vraisemblablement d’une vidéo manipulée par un farceur ayant ajouté un peu de CGI dans une vidéo, ou alors, si l’image est véritable, ce qui est possible, c’est un phénomène de Fata Morgana assez rare. C’est une image elle aussi très travaillée, très fausse, et en même temps, elle a cet effet d’authenticité. Dans ces vidéos, souvent, on pousse les contrastes pour rendre plus visible cette ville dans les nuages ; on pourrait même presque y voir des fenêtres, ce qui pousse l’image dans une autre réalité. Cet internaute et ce found footage inaugural me permettaient d’entrer dans un certain vocabulaire conspirationniste, et dans une atmosphère propre à la bonhomie qu’il y a à filmer son écran et à commenter en direct.
J’ai trouvé que c’était une assez bonne antichambre pour entrer dans le monde alien, en tout cas alien au sens américain, c’est-à-dire étranger, que véhicule la suite du film, lorsqu’on découvre Bayan Obo. Cette image permet au film de pénétrer dans l’étrange par le familier, par l’écran filmé et par cette espèce de perte de repères, qui est une caractéristique des théories du complot : on regarde tellement près les images qu’en les scrutant pixel par pixel, on perd ses repères. C’est finalement assez tard dans le montage que cette image, qui flottait en parallèle, est arrivée, un peu comme un moment Eureka : je me suis dit que cette théorie du complot parlait de la Chine, et que ces métropoles flottantes dématérialisées évoquaient au fond le monde téléchargé dans le cloud. Les images génératives sont évidemment construites à partir de toutes les images qui ont été téléchargées dans le cloud, il s’agirait là d’une sorte d’interprétation littérale – parce qu’il me semble que les conspirations sont un peu les mythes modernes : ce sont des mésinterprétations de réalités complexes, souvent traduites de manière assez littérale et folklorique, mais qui comportent toujours un fond de réflexion plus profond. Et en effet, le cloud fait un écho direct au fait que la réalité de l’information résulte de son stockage et de sa circulation dans un monde qui nous semble éthéré.
D. : Qu’en est-il de la voix off posée sur les images générées artificiellement ?
E. V. d. A. : L’IA générative ne saurait retranscrire la réalité de ce qu’est Bayan Obo. Et moi-même, je n’y suis jamais allé. C’est un projet qui repose énormément sur une approche spéculative, sur des angles morts et sur le concept de boîte noire technologique. La voix off ramène pour moi quelque chose d’authentique et de réel du site minier, ou en tout cas de la réalité qui y est vécue. Si White Cloud dépeint un monde reconstruit, je voulais qu’il soit néanmoins ancré dans la réalité ; c’était donc pour moi très important de construire la voix off à partir d’un témoignage authentique d’un mineur chinois. Au début, j’ai essayé d’écrire ce qu’il pouvait éventuellement dire, mais je n’ai pas utilisé ce premier jet. En parallèle, j’ai donc cherché ce témoignage. Et je m’attendais, à un moment donné, à tomber sur, comme on le voit souvent dans les médias sociaux, quelqu’un qui parle face caméra, qui parle de son expérience. Mais je savais qu’en Chine, ce n’était probablement pas aussi facile de trouver quelqu’un qui allait se livrer face caméra sur la réalité de son travail et de la mine.
J’ai commencé à naviguer sur Douyin, le TikTok chinois. Et à un moment donné, je suis tombé sur une courte vidéo où l’on distingue à peine un homme dans un souterrain mal éclairé, qui tape avec une tige métallique sur une voûte juste au-dessus de lui, et cette voûte s’effondre plus ou moins là où il était, le tout sur une musique assez triste et mélancolique. Le titre de la vidéo était assez long en mandarin. J’ai pris ce titre et je l’ai traduit : « Ici, j’ai appris à accepter mon insignifiance », une phrase extrêmement puissante et touchante. J’avais trouvé le narrateur du film. Ce mineur partageait ses posts sur Douyin avec ses collègues : des vidéos, toujours accompagnées de musique, et de longs titres. Ces fragments de pensées laissés là par le mineur étaient le témoignage de son expérience vécue : il y abordait son sentiment d’aliénation. Il s’agissait de son journal où il documentait sa fatigue morale et physique, son rapport à l’amour et à l’argent, ou des observations liées à sa condition et à son environnement. Traduits par DeepL, ces posts avaient une grande force poétique. Le mandarin est une langue très imagée. De sorte que, quand on la traduit, une phrase qui véhicule une idée assez directe se mue en poésie. À nouveau, ne parlant pas mandarin, la teneur de ces écrits m’échappera toujours ; je ne pouvais y accéder que par une traduction qui, sans aucun doute, en modifiait quelque peu le sens, ce qui rejoint, je crois, ce qui se passe aussi avec le processus de « traduction » du logiciel par image générative.
D. : La voix est-elle prononcée par un locuteur en mandarin ou par une intelligence artificielle ?
E. V. d. A. : Par une intelligence artificielle. Pour incarner cette voix, je n’avais pas envie de travailler avec un acteur. Dans le contexte du film, cela avait plus de sens de la générer avec un outil de synthèse vocale. Après de nombreux essais infructueux avec des IA trouvées sur le web, qui proposaient des voix très mécaniques, je suis tombé sur « Bark », sur Hugging Face, une plateforme permettant de générer des clips audios de treize secondes maximum. Il y avait dix voix chinoises disponibles, dont une avait une tonalité qui m’a semblé la bonne. C’était une voix qui avait la possibilité de parler en anglais avec l’accent mandarin, même si ce n’était pas vraiment prévu par le logiciel. Ce qui signifie que, si on écrivait directement la phrase en anglais, l’IA partait dans une espèce d’improvisation dépourvue de sens en chinois. En revanche, si on écrivait d’abord un mot chinois, puis une phrase en anglais, la voix, la plupart du temps, la prononçait correctement en anglais. Donc, dans tous mes essais, je commençais par 您好 (nín hǎo / Bonjour). C’est ce qui m’a permis de hacker le système. On pouvait aussi insérer des hésitations entre virgules… Mais encore une fois, ce n’est pas parce qu’on les écrivait à cet endroit-là que cela allait nécessairement se produire à cet endroit-là. Si ça se trouve, l’IA voyait que j’avais noté une hésitation, et tout à coup, elle se mettait à tousser sans cesse, ou alors à hésiter sur chaque mot.
D. : Grâce à ce processus de trial and error, vous preniez ainsi le parti de l’inattendu.
E. V. d. A. : C’est un peu une constante dans ma pratique, car cela fait des années que j’utilise des outils variés, généralement conçus pour des résultats typés. J’essaie non pas de les hacker, mais de les pousser dans leurs retranchements, ou en tout cas de leur faire produire des effets qui sont non désirés par le système. Je cherche toujours une manière, puisqu’on parlait des black boxes, de m’insinuer dans cette chaîne de montage un peu automatisée et de voir ce qu’elle va produire : non pas des bugs, mais en tout cas des instances qui échappent peut-être à sa vigilance.
D. : Certains des plans du film adoptent les caractéristiques formelles d’une caméra subjective ou d’un point de vue situé : hauteur et tremblement de l’image, distorsion de la perception par un effet de fisheye, watermark imitant les métadonnées d’un appareil de prise de vue réelle dans un coin inférieur ou supérieur du plan, etc. S’agit-il d’un effet généré par le logiciel de manière involontaire, d’un effet demandé dans le prompt ou bien d’un effet ajouté en postproduction ?
E. V. d. A. Je considère les images créées par l’IA comme des images « zombies ». Elles ne sont ni tout à fait nouvelles, ni tout à fait empruntées. Elles sont une réponse possible à l’équation posée au modèle par le prompt. Pour y répondre, l’algorithme va mobiliser ses « connaissances », ce sur quoi il a été entraîné. Et même s’il a été entraîné sur la quasi-totalité d’Internet, qui est une somme très vaste d’informations, il existe un déséquilibre dans la quantité d’informations qu’il peut avoir sur telle ou telle chose. Il a bien sûr été exposé à de très nombreuses images d’êtres humains ou d’animaux, dans des circonstances très variées. Mais d’autres types d’objets, mettant en scène certaines opérations techniques spécifiques dans une usine, n’ont pas bénéficié d’une aussi vaste banque d’images.
Si l’on fait des demandes très spécifiques pour lesquelles il n’y a peut-être pas autant d’images disponibles, comme des images de paysages industriels de Mongolie intérieure, par exemple, les images proviennent de sources plus limitées où des logos peuvent apparaître. Ce type d’image fait appel à un contexte d’image de reportage, de clip promotionnel d’entreprise, ou de post sur des réseaux sociaux où des textes surimprimés apparaissent souvent. L’IA n’a aucune raison d’enlever les logos, car elle ne fait pas la différence entre ce qui est représenté et le média où cela est représenté, un média qui peut être marqué de différentes manières.
Au début, je cherchais à éviter ces artefacts ; puis, finalement, j’ai commencé à les embrasser. De même, assez vite, j’ai voulu cette caméra embarquée. Dans le cas de la vision fisheye, ce sont des directions que j’ai données dans le prompt. Pour obtenir ce type de rendu, je mentionnais que l’image était prise en GoPro, par exemple. Ce type de prompt avait aussi un impact sur le mouvement, puisque les images GoPro sur lesquelles l’algorithme a été entraîné sont toujours des images assez dynamiques. Mais donc, la « plastique » des images était souvent le résultat de décisions conscientes de ma part, qui, à leur tour, produisaient des résultats imprévisibles.
D. : Ces images de points de vue non humains semblent se multiplier dans la suite du film : je pense au point de vue d’un poisson dans l’aquarium, à celui d’un chien sur son maître, le point de vue des caméras de surveillance et des drones, qui entrent évidemment en résonance avec le système économique de l’espace industriel. Cette multiplication du point de vue est devenue finalement assez importante pour la construction de l’espace du film.
E. V. d. A. : Comme un virus informatique qui permettrait de prendre le contrôle du champ de vision de son hôte, l’IA dans le film saute de perspective en perspective, de point de vue en vision subjective. Le point de vue du drone, d’une machine de chantier, d’un chien, d’une caméra embarquée GoPro : il y a une multiplication exponentielle de ces multiples « agents » qui permet de circonscrire le rapport à l’espace dans le film. C’est comme l’œil d’une mouche, ou d’une libellule, composé lui-même de milliers d’yeux réfléchissant le monde alentour. C’est l’image que j’avais derrière la tête en démultipliant ces points de vue.
Tout cela fait partie du vocabulaire que j’ai utilisé pour approcher cet espace. Il y a des plans qui n’ont l’air de rien, mais qui m’ont demandé beaucoup de temps pour pouvoir les générer. Par exemple, les plans de selfies. Dans la grammaire visuelle des médias sociaux, les selfies représentent le sommet de l’incarnation et de l’authenticité, presque un scan de la réalité. Je voulais absolument ces images-là. Paradoxalement, ces images demandaient des prompts très sophistiqués. Si j’écrivais « selfie », l’IA me générait des images de téléphones.
D. : Votre travail artistique prend pour objet principal l’image technique sous toutes ses formes. L’installation Cabinets d’affect (2010), réalisée lors de votre dernière année au Fresnoy, est réalisée à partir d’IRM ; plus récemment, VideoSculpture XX (The World’s 6th Sense) (2019) fait usage d’images produites par des caméras thermiques.
E. V. d. A. : C’est vrai que ma démarche artistique a souvent investi l’utilisation d’images techniques, d’instruments optiques, d’outils de mesure. Je suis intéressé par ces outils pour leur façon de filtrer la réalité, de la transcoder à des fins utilitaires, ce qui est intéressant à rapporter dans le champ artistique. Ce qui caractérise les images techniques, contrairement aux images « esthétiques » (produites pour être regardées), c’est leur caractère fonctionnaliste, opératoire comme dirait Harun Farocki. Elles sont censées accomplir une tâche. Ce sont des outils de mesure utilisés pour sonder plus profondément la chose dont on veut extraire de l’information, du savoir, grâce auxquels on peut obtenir une chaîne de montage plus efficiente, par exemple. L’exemple le plus évident de cela est l’image produite par une caméra sur un missile, sans laquelle le missile ne peut se diriger. Un autre exemple est celui des images produites par une voiture Tesla, qui permet à la voiture de recevoir un feedback du monde qui l’entoure et de rouler de manière autonome. Ces images ne sont pas supposées être regardées en tant que telles pour leurs qualités esthétiques. Évidemment, quand on les regarde sous cet aspect, on remarque le paradoxe que produisent de telles images, qui génèrent une expérience déconnectée de la chose elle-même, qui n’existe alors plus que comme une somme de vecteurs.
Aujourd’hui, les images opératoires sont devenues aussi les images des médias sociaux. C’est-à-dire que la séparation entre les images esthétiques et les images opératoires n’a aujourd’hui plus cours. En fait, ces deux choses ont fusionné : toutes les images sont opératoires, elles servent à mesurer l’engagement et à extraire énormément d’informations. Et la somme de toutes ces images a servi à entraîner les IA, telles que celle que j’ai utilisée pour créer White Cloud. Pour capturer Bayan Obo, l’IA était l’instrument qui m’apparaissait le plus propice pour montrer ce lieu « originel » qui se situe au début de la chaîne de montage du monde numérique, et qui, du fait de la distance géographique et du contexte politique qui entoure le site, ne pouvait pas être approché physiquement. Évidemment, on m’a déjà répondu que si, il pouvait être rapproché. Et c’est vrai qu’il y a des journalistes courageux.
D. : Vous n’avez donc pas choisi la méthode de l’investigation.
E. V. d. A. : J’ai plutôt tenté de montrer le paradoxe de sa proximité et de sa distance. On se promène tous avec des outils dont les matériaux sont extraits de ce site. La mine est au centre de l’architecture du visible et de tout ce qui fait notre vie. Et en même temps, elle est comme un trou noir. Paradoxalement, j’ai voulu travailler sur cet endroit de manière numérique parce que j’étais attiré par sa physicalité. Le travail industriel d’extraction de roche m’évoquait l’image d’une nouvelle révolution industrielle. Je pense que c’est parce que j’ai commencé à être vidéaste dans l’animation que je suis intéressé par cette hybridation entre vidéo et sculpture, par cette multiplication des outils qui vont produire des effets différents. En animation, c’est ce qu’on fait : on utilise des objets inertes et on les déplace, on les modifie, on transforme de la glaise en être vivant, par exemple (on agit sur des choses inertes pour les mettre en mouvement).
D. : Le film est aussi une rêverie plastique sur la formation et la déformation de la matière : les vapeurs, les nuages, les sables qui entourent le minerai, les machines de la mine et les grottes excavées, mais aussi les boues radioactives et polluées, puis les images anthropomorphes déformées des publicités. Au début du film, on voit un tracteur avec de grosses roues qui passe devant la « caméra », mais progressivement le logiciel imagine que l’essieu de cette roue devient une sorte de caverne. À la toute fin, une paupière s’ouvre sur un œil lui-même recouvert d’une paupière, qui répète la même opération pour produire une sorte d’image fractale. Comment ces images ont-elles dirigé la facture du film ?
E. V. d. A. : Une paupière qui s’ouvre sur une autre paupière est une mise en abîme qui me frappe par ce qu’elle évoque. Pourtant, elle est le résultat d’une aberration de la machine, c’est une image que je n’aurais pas pu anticiper. C’est vers ce type d’effet évocateur que je me suis dirigé lorsque je travaillais avec cette machine à fabriquer de l’image, en créant les conditions pour que de tels phénomènes apparaissent. Pour autant, je n’ai pas trafiqué mes prompts pour qu’ils donnent des résultats surréalistes. Dès le début, le parti pris que je m’étais fixé était d’ancrer mon travail avec l’IA dans une forme de réalisme. C’est-à-dire de retourner la caméra vers ce qu’il y a de plus réel et utiliser cet outil impropre pour produire, justement, une image qui permette de retourner au début de la chaîne de montage de notre réalité technologiquement « augmentée », à sa phase d’ « extraction ».
Dans une autre séquence, les mineurs sont en train de récupérer de la terre, et ils deviennent presque comme de la terre eux-mêmes. On voit des marques, des fusions entre la terre et eux. Pour le coup, j’étais assez content de comprendre ce qui se passait (ce fut une surprise pour moi). Je promptais le logiciel en lui demandant qu’ils aient des traces de glaise sur eux, mais qu’ils travaillent. Cependant, l’algorithme n’arrivait pas à comprendre cette dissociation. Ils étaient donc partiellement faits de glaise. J’ai donc accumulé beaucoup de plans horrifiques que j’ai eu beaucoup de mal à laisser en dehors du film, parce qu’il y avait aussi cet effet de fascination, de dilatation, d’hybridation. Et je ne voulais pas aller trop loin par rapport à la monstruosité de ce qu’il est possible de faire avec le corps humain. Sachant que l’exploitation de ce site a des impacts environnementaux majeurs, notamment des pollutions liées aux résidus radioactifs, j’ai toutefois décidé de garder certaines de ces images, notamment dans la séquence où des personnes se baignent.
La vitesse d’accélération des IA en 2022 et en 2023 fait que chaque semaine, il y avait un nouveau logiciel capable de parler, de chanter ou de produire toutes sortes d’ersatz mimétiques. Il y a une frénésie de découverte, presque une fuite en avant, une recherche de ce que les algorithmes ne peuvent pas encore imiter. En creux, nous recherchons ce qui demeure encore authentiquement unique, inviolable par ces machines. Paradoxalement, c’est la première fois dans ma pratique, depuis que je m’intéresse aux images numériques et à leur production et à leur dissémination, que j’ai voulu m’intéresser à quelque chose d’aussi physique. Cette image du complexe minier a commencé à apparaître dans mon esprit, mais ce n’était pas seulement la mine de Bayan Obo, qui n’en est que le reflet visible, plutôt une visite qui m’a conduit mentalement dans un endroit très germinalien, qui est au cœur du réel. « Welcome to the desert of the real », disait Morpheus dans Matrix, citant Baudrillard.
D. : Vous avez pu parler à propos de White Cloud d’un « métadocumentaire » du film sur lui-même, ce que j’ai interprété comme une tentative de mettre en lumière la scène originaire de l’image algorithmique, véritable boîte noire notoirement rétive à toute figuration. Quelle stratégie avez-vous déployée pour essayer de représenter ce point aveugle ? Comment avez-vous essayé d’étendre l’idée d’une « boîte noire » algorithmique – l’idée selon laquelle les opérations statistiques menées par le logiciel sont impossibles à restituer, y compris pour son concepteur – à toute la chaîne de production ?
E. V. d. A. : Un des éléments de réponse les plus immédiats, les plus visuels, qui ferait de ce film un « métadocumentaire », réside dans le fait qu’effectivement, on y voit le film se construire : l’IA recalibre et change la scène à mesure qu’elle la génère. En cela, le film ouvre à tout moment une lucarne sur son processus de conception. C’est l’exemple de tout à l’heure, des roues qui deviennent des tunnels. Et cela n’est possible que parce que l’algorithme peine à maintenir une cohérence dans sa continuité temporelle. Pour chaque image produite, l’algorithme prédit ce qui se passe ensuite, mais sans mémoire ou compréhension de la cohésion générale. Comme une personne dont l’amnésie effacerait de sa mémoire à chaque instant les souvenirs des instants précédents, l’IA prédit ce qui lui paraît le plus plausible à l’instant d’après. En permanence, les choses hésitent, sont fluides, se reconfigurent. On sent alors le travail de l’IA à l’œuvre dans son indécision ; c’est la fluidité granulaire de l’image dans la durée. Cela vient du fait que l’IA générative que j’ai employée pour White Cloud était très « primitive » au regard des avancées réalisées en un an. Les IA vidéo génératives actuelles, telles que Kling ou Sora, sont déjà en mesure de maintenir une cohérence et une stabilité dans la durée des vidéos qu’elles génèrent, ce qui me fait penser que nous ne sommes qu’à quelques années d’un mimétisme complet entre image générative et image « authentique ».
Un autre élément de réponse se trouve dans mon interrogation vis-à-vis de la chaîne de montage du réel, que représente pour moi métaphoriquement la mine de Bayan Obo dans White Cloud. Je pense qu’assez tôt dans le projet du film, j’ai demandé à ChatGPT de me raconter comment les images génératives apparaissaient en proposant la métaphore d’un désert de sable. Le logiciel m’a répondu quelque chose de très poétique : il me demandait de me représenter l’espace latent comme un désert dont la configuration des dunes serait le résultat de strates et de strates d’images pulvérisées et concassées par le temps et par une force extérieure. Selon sa métaphore, quand on génère les images depuis l’espace latent, on les exhume des profondeurs vers la surface, on reconfigure les dunes de sable. Et j’ai d’ailleurs utilisé cette métaphore dans une autre œuvre intitulée The Gospel (2024), en y faisant figurer une voix qui imagine chaque point de ce désert de coordonnées, comme le résultat de triangulations d’où apparaissent les images.
D’une certaine façon, à partir de là, j’ai commencé à voir le travail des mineurs que je mettais en scène, pas celui évidemment réel de Bayan Obo, mais celui métaphorique de l’excavation que l’IA était en train de faire. Je l’ai vue comme une espèce d’usine originelle qui sert à fabriquer la « nouvelle » réalité : dès lors, le travail des mineurs pour faire exploser la montagne, pour faire venir les images, c’était une représentation de ce qui se passait aussi dans le réel. En définitive, je pense que White Cloud n’est pas qu’un film documentaire, c’est un film d’horreur, sur l’horreur du réel qui montre par l’IA le caractère apocalyptique et le prix à payer, en termes d’aliénation humaine et de catastrophe écologique, qui sous-tend notre monde voué à l’accélérationnisme technologique. Le caractère d’anticipation, presque science-fictionnel du film, n’est que le reflet déformé de cet accélérationnisme, comme dans un miroir déformant, un Portrait de Dorian Gray numérique, que nous renvoie l’IA. J’ai peu abordé la dimension écologique du film ici, mais Bayan Obo est un endroit qui a été durablement pollué par les opérations d’extraction minière. Tout le film est une parabole de l’engrenage infernal qui relie le développement exponentiel de la technologie, l’obsession de l’évasion par le virtuel, et les dégâts réels que cette situation perpétue en termes de coût humain et environnemental.
D. : J’ai l’impression que la séquence de fin du film résulte de la tentative, un peu malicieuse, de demander à l’IA elle-même d’imaginer comment réalise ses opérations de contrôle visuel et social – via la reconnaissance faciale notamment.
E. V. d. A. : Au début, j’avais une vision moins ramifiée de ce qu’était le projet, jusqu’à ce qu’à un moment donné, l’image dans l’image, la mise en abyme, devienne une obsession pour moi. Il fallait qu’on voie des écrans, et des vidéos dans ces écrans. Je voulais vraiment représenter un monde à tiroirs, en poupées gigognes ; je voulais que des télévisions apparaissent dans les images générées où se diffusent des programmes composés eux-mêmes d’images génératives, qui se regardent dans cette réalité façonnée par des algorithmes. En fait, c’était pour moi une manière de figurer le volume de l’IA, elle-même entraînée sur une quantité tellement immense d’images et de textes qu’une vie ne suffirait pas à en effleurer la surface. Ce genre d’IA est entraîné à partir d’Internet, au mépris de toute protection des données, donc vous imaginez la bibliothèque.
Je suis allé assez loin là-dedans. J’ai beaucoup enlevé, mais j’étais allé jusqu’au point d’essayer de fabriquer des publicités et des soap operas chinois, des programmes de streaming entiers. La séquence de fin du film est une publicité pour une entreprise qui cherche à vendre le concept d’une cité algorithmique, d’une smart city. Le prompt est venu sans effort, il a généré des dizaines de réponses qui étaient toutes fascinantes. Il a produit une variété extrême d’effets : une femme qui est tout à coup en métal liquide, des yeux qui s’ouvrent sur d’autres yeux… Ce genre d’images donne un accès direct à l’idéologie ambiante. Il montre la manière dont on aime se représenter le futur : interconnecté et flottant, comme la cité dans les nuages du début. On peut reconnaître là-dedans les pubs de Meta, les fantasmes d’applications bancaires dématérialisées, mais ici dans une version mutante et sans vernis. Ces images sont une manière d’aborder le caractère idéologique de l’utopie véhiculée par la technologie en allant vraiment au fond de cette réflexivité. Et en ce qui concerne la surveillance, il est bien documenté que la Chine a été pionnière dans l’utilisation de l’IA à cette fin. D’une certaine manière, cela avait aussi du sens de fabriquer un film en IA générative et de le situer en Chine pour cette raison. Et donc, fatalement, à force de chercher les limites de ce que je pouvais produire, j’ai commencé à m’intéresser à la manière dont la surveillance et l’IA pouvaient se représenter leur propre surveillance, en particulier la vision par machine, la reconnaissance faciale, etc., pour aboutir à une sorte de boucle de rétroaction (feedback loop) par laquelle la machine se regarde elle-même.
D. : On sait désormais que des multinationales comme Rio Tinto font usage de l’IA pour automatiser leur propre production, diminuer les coûts et le recours au travail humain, afin de développer une « mine intelligente[11] [11] “To further enhance productivity, Rio Tinto is aiming to develop ‘intelligent mines’ that link ‘pit-to-port’ to enable lightning-fast, automated decision making. […] Intelligent mines will generate further efficiency savings for large-scale operations. As with the case of the oil and gas industry, however, the primary consequence of integrating artificial intelligence into industrial mining is going to be an acceleration of the productivity and profitability of transnational corporations. Furthermore, if past trends hold, these companies will reinvest the efficiency savings to expand markets, production, and revenues.” Peter Dauvergne, AI in the Wild: Sustainability in the Age of Artificial Intelligence, Cambridge (Mass.), MIT Press, 2020, p. 139. ». Bien que la finalité soit évidemment très différente dans White Cloud, comment le film se positionne-t-il par rapport aux usages que l’industrie fait de l’intelligence artificielle, et notamment l’industrie extractive et minière ?
E. V. d. A. : Je ne prétends sûrement pas être un expert des caractéristiques spécifiques de l’automatisation dans l’industrie minière. La question est cependant évoquée par une séquence du film, alors que le mineur parle en voix off du fait que le travail est de plus en plus automatisé par des machines autonomes et des camions sans pilote, car je trouvais qu’il était très important de toucher cela du doigt. J’avais lu, quand je faisais le film, qu’on utilise de plus en plus la 5G dans les mines chinoises pour que des robots se chargent seuls de faire le travail. Plus généralement, cette vision en système de l’expérience humaine à l’échelle de la société, du divertissement, de l’individu et de ses émotions, comme un terrain susceptible d’être sondé pour en extraire un savoir, sert évidemment à une optimisation et à un contrôle accru du processus de travail et de l’existence entière.
Évidemment, c’est assez inquiétant de se dire qu’il existe un monde invisible en parallèle, qu’il existe des outils disposant d’une certaine capacité d’action qui exécutent des décisions influençant en retour l’avenir du monde et cherchant à l’optimiser. On comprend alors que la résistance peut ressembler à une rage impuissante, parce que, finalement, c’est une puissance qui est retirée à des millions de gens sur leur vie, aux démocraties et à leur système de légitimation, aux individus, à tous les corps intermédiaires. Et c’est ce qui, à mon avis, fait que les théories du complot sont devenues complètement mainstream, parce que c’est l’un des seuls refuges existants permettant d’expliquer le monde avec ses propres mythes, étant donné que toute son explication factuelle et objective se trouve progressivement reléguée à des opérations invisibles dont le fonctionnement est incompréhensible, même pour leurs programmeurs.
D. : On en revient au début de notre entretien et au début du film : le miroir de l’image générée artificiellement, c’est le conspirationnisme. Peut-être est-ce pour cela que les deux régimes d’images coexistent dans le même film : c’est qu’il existerait une sorte de relation d’interdépendance ou de réversibilité entre ces deux formes.
E. V. d. A. : Oui, je dirais que le conspirationniste est le versant de l’accélérationnisme technologique dont l’IA n’est que la dernière incarnation. Les théories du complot permettent de s’adonner à une forme de créativité dans la représentation du monde, de considérer le réel comme une matière malléable à l’envi et, en cela, permettent à des individus de s’inventer l’explication du monde qui leur convient et, comme dans un jeu multijoueur, de se constituer en communauté dans ces réalités alternatives. L’esthétique visuelle des négationnistes repose également sur l’hyper-interprétation et la réduction des images : les recycler, les agrandir, les saisir dans leur dimension granulaire. Je pense beaucoup à cela parce que mon prochain projet porte sur une théorie du complot concernant la tuerie de l’école primaire de Sandy Hook aux États-Unis, en 2012. Ce projet va probablement s’incarner dans un film ainsi que dans une forme théâtrale. Il postule que la tragédie de Sandy Hook est l’acte de naissance de la post-vérité. C’est en y travaillant que j’ai compris que les théories du complot étaient de l’art pour ceux qui les créent, un art de créer des mondes possibles. C’est-à-dire qu’inventer une théorie du complot, c’est construire avec les autres une chaîne humaine de créativité. Face à l’esthétique générée aléatoirement, c’est peut-être ce qu’il nous reste.
Notre conversation me fait penser à une anecdote que j’ai lue récemment, dans laquelle Paul Virilio, lors d’une conférence, s’est référé à une histoire selon laquelle on inventait des caméras si petites qu’elles pouvaient être transportées par des flocons de neige. Ces caméras étaient alors insérées dans des cristaux de neige artificielle, puis larguées par avion, de sorte qu’une infinité d’yeux se déposait partout, sans qu’aucun blind spot ne demeure. Un journaliste demanda à Virilio : « Mais de quoi allons-nous rêver quand tout deviendra visible ? » « D’être aveugles », répondit Virilio.