Vedere per (non) credere. L’era dei deepfake video

Dalla scoperta della prospettiva alle più estreme tecnologie digitali, l’uomo è sempre stato alla ricerca di una fedele riproduzione della realtà. A tal proposito, cosa sono i deepfake video? Quali ricadute sociali e artistiche potrebbero avere in un futuro già alle porte?

L’invenzione della prospettiva nel disegno fu un terremoto percettivo la cui portata è difficile da calcolare secoli dopo: immaginate le bocche aperte degli spettatori di fronte a quadri, arazzi, fondali teatrali decorati con strade, piazze e palazzi che avevano per la prima volta la capacità di trafugare la realtà e riproporla attraverso un elemento finzionale che riusciva a rappresentare una delle caratteristiche più importanti del senso della vista: la profondità.

Da quel momento, grazie agli studi di Brunelleschi, dal più avanzato laboratorio tecnico e artistico del mondo che era il Rinascimento italiano partì una lunga corsa mai doma verso quell’utopia totalizzante che è la riproduzione della realtà: finalità artistiche, di puro intrattenimento, oppure obiettivi meramente pragmatici di organizzazione della vita sociale. Fotografia e cinema, fino a pochi decenni fa, sembravano l’ultimo bastione di questa corsa, prima dell’entrata in scena delle tecnologie digitali. Queste, oltre a riprodurla riescono a manipolare la realtà creando dunque possibilità e rappresentazioni altre rispetto a quella conosciuta.

Le parole chiave sono, appunto, “manipolazione” e “ricreazione” e sono “armi di destrutturazione di massa”. Da questo punto di vista gli ultimi traguardi della tecnica sono rappresentati dai deepfake video. Parliamo di filmati realizzati grazie ad algoritmi di intelligenza artificiale che riescono a produrre i movimenti di un soggetto nonostante questi in verità non siano mai avvenuti.

Il software, partendo da un video base, riesce a imparare come il soggetto si muoverebbe nel caso in cui componesse altre espressioni o azioni. Queste espressioni e azioni possono essere create ad hoc da un secondo soggetto che ricopre l’ambiguo ruolo di attore o, meglio, di manipolatore. È una nuova realtà quella che prende forma, una differente genesi del reale si sposta un altro livello fenomenico. Perché in questo caso non siamo di fronte a fotomontaggi più o meno riusciti, ma a una riproduzione del reale priva di quelle caratteristiche che permetterebbero un immediato debunking risolutivo, un’azione che esponesse chiaramente ciò che c’è di falso in un documento lasciato circolare all’attenzione delle comunità.

In questo video, creato da BuzzFeed con l’attore (e regista) Jordan Peele, appare evidente il grado mimico di questa tecnologia: l’ex presidente Obama non ha mai eseguito quelle espressioni, ma il software ha imparato come la sua maschera facciale avrebbe reagito a tali espressioni.

Il caso dei deepfake video è esploso nell’ultimo anno e mezzo, perché solo recentemente si sono resi disponibili programmi che permettono questo grado di elaborazione alla portata di un utilizzatore medio. Come spesso accade sul Web, la nuova tecnologia ha trovato un primo campo di applicazione nel porno, da sempre avanguardia di sperimentazione delle nuove infrastrutture software: il risultato in quel caso era dettato dalle richieste dei fruitori, ovvero godere di performance sessuali esplicite le cui protagoniste fossero le grandi dive dello showbusiness. È di queste settimane l’articolo del Washington Post in cui Scarlett Johansson spiega le difficoltà nel combattere i deepfake porno realizzati con il suo viso. Ecco allora i volti di famose attrici hollywoodiane muoversi su corpi di attrici porno con un’accuratezza del dettaglio mai raggiunta prima. Il cortocircuito è evidente: sto guardando un’attrice che fa finta di provare un orgasmo con un corpo che non è il suo ma appartenente a un’altra donna che, a sua volta, sta fingendo un altro orgasmo.

La questione provoca diversi ordini di problemi. Il primo è di carattere sociale: non abbiamo ancora capito bene come reagire alle fake news, come far capire agli utilizzatori medi dei social media la necessità di controllare le fonti, di leggere con cura e di interpretare i testi, di analizzare toni e intrecci dei fatti raccontati; immaginate una notizia inventata e supportata da una prova video. Tant’è vero che i grandi gruppi editoriali e i dipartimenti delle università si stanno muovendo per creare team appositi e trovare tecniche di debunking, il Pentagono naturalmente non sta a guardare, è anzi uno dei principali finanziatori. L’obiettivo è quello di recuperare terreno e correre alla stessa velocità con cui i deepfake diventano sempre più sofisticati. Tra le ultime evoluzioni, infatti, c’è anche la possibilità di manipolazione a figura intera: se prima il software era in grado di concentrarsi solo sulla mimica facciale ora la questione si estende al corpo nella sua totalità. Nel video realizzato dalla ricercatrice di Berkeley, Caroline Chan, si vuole dimostrare proprio questa possibilità: il soggetto “target” non sarebbe in grado di eseguire le coreografie, eppure il video risultante (al netto di alcuni difetti ancora visibili) mostra il corpo della ricercatrice [contrassegnata nel video come “target result”] muoversi con il ritmo e la precisione dei gesti originali prodotti dai danzatori [contrassegnati come “video source”].

Quando anche i software per la creazione di voci e suoni attraverso algoritmi di intelligenza artificiale saranno efficienti e alla portata di tutti (e, come racconta questo articolo su Motherboard, il processo è già in atto) il gioco sarà completo.

Il fatto che tecnologie simili siano ormai alla portata di un utente commerciale è il segno di un grande cambiamento, l’accesso a questo tipo di possibilità è a tutti gli effetti un game changer. Si può fare tutto da casa, basta un computer ad alta capacità di elaborazione e una vasta quantità di immagini riferite al soggetto protagonista, il deeplearning infatti ha bisogno di “imparare” attraverso un’ingente quantità di informazioni per riprodurre il movimento.
Un giornalista del Guardian racconta di essersi messo alla prova con un software per PC, FakeApp, attraverso il quale ha creato un paio di esercizi interessanti, di cui uno è una sorta di mix tra Theresa May e Margaret Thatcher.

Siamo all’alba di un’epoca nella quale la prova regina di qualsiasi dibattito (o dibattimento), il video, perderà di efficacia proprio a causa del grado di manipolazione attuato da queste tecniche? Dovrà correre ai ripari anche la giustizia e dotarsi di tecnici e professionisti in grado, frame dopo frame, di individuare la veridicità dei video e di comportamentisti in grado di giudicare la verosimiglianza di una smorfia o di una azione; ovvero una nuova generazione di cultori della prossemica e dunque della recitazione. I più ottimisti tendono a placare i toni catastrofici, dopotutto da quando è nata la possibilità di riprendere la realtà immobile o in movimento e di fotografarla in modo realistico, il risultato è sempre stato quello di una raffigurazione parziale e soggettiva: è sempre qualcun altro a scegliere l’inquadratura e dunque ciò che è interno ed esterno a essa, ciò che si vede e ciò che non si vede. Siamo allenati a stare in allerta di fronte a ciò che è invisibile a causa del montaggio o dell’inquadratura; lo saremo altrettanto per quello che invece è visibile e che reclama di essere vero?

Avete presente quella strana sensazione di déjà-vu che ci colpisce quando guardiamo un video molto vecchio di cui eravamo protagonisti? Quei filmati in cui i cari amici ti inquadrano di nascosto alle feste di qualcun altro e ti beccano con il calice in mano, la lingua felpata e le capacità retoriche di un primate sotto sbornia. Quando rivediamo quei video, da sobri, la prima esclamazione è spesso: «Ma davvero ho fatto questo? Davvero ho pronunciato quelle parole?». Perché non ci sentiamo rappresentati, non ci identifichiamo più in noi stessi: la pelle e la forma del corpo, sono le nostre, gli occhi sono i nostri, ma noi non siamo così nella vita quotidiana. Ecco, i deepfake non autorizzati hanno più o meno questo effetto sui protagonisti, ma senza l’ilarità del vino, il dopo sbornia e le pacche sulle spalle degli amici.

Un’altra ricaduta riguarda le possibili attuazioni in campo artistico: filmati d’epoca nei quali i protagonisti eseguono nuove azioni, proferiscono parole mai dette. Immaginate Hitler contraddire la propria stessa dottrina; immaginate un futuro nel quale sarà possibile creare un film inedito che avrà come protagonista un Marlon Brando vivo e vegeto, rinato per mezzo della computer grafica e di un’intelligenza artificiale in grado di imparare accenti, movimenti, sfumature della sua recitazione grazie alle centinaia di ore di pellicola esistenti e disponibili. D’altronde per la narrativa fantascientifica non è qualcosa di nuovo, basti pensare alle pagine del romanzo di Philip Dick The Man in the High Castle, diventato anche una serie TV, in cui viene diffusa una serie di video falsi della vittoria della Germania nella seconda guerra mondiale.

Viviamo in un’epoca dove la nostra impronta digitale dimostra e decreta la nostra esistenza; postare un video oggi o lanciare una diretta Facebook espone, come primo dato, semplicemente il fatto che siamo vivi. Il deepfake potrebbe aprire, in questo senso, scenari inquietanti, fornendo la possibilità di generare una sorta di Aldilà virtuale, nel quale si muovono simulacri che avrebbero le nostre fattezze e la nostra voce. Qualcuno potrebbe avere il bisogno, o meglio l’ossessione, di non dire mai addio ai propri cari (come è accaduto qui) e tenerseli vicini, in uno schermo: l’elisir della vita eterna è un avatar digitale.

Andrea Pocosgnich

Gli articoli di Teatro e Critica, che sono frutto di un lavoro quotidiano di ricerca, scrittura e discussione approfondita, sono gratuiti da 8 anni.
Se ti piace ciò che leggi e lo trovi utile, che ne dici di sostenerci con un piccolo contributo?

LEAVE A REPLY

Please enter your comment!
Please enter your name here