Se l’IA capisce (bene) solo la lingua inglese

Di Sabrina Argoub*


Premessa
L’intelligenza artificiale è in grado di capire il linguaggio naturale degli esseri umani? Dipende da quale lingua parlano: il Natural Language Processing (cioè l’elaborazione del linguaggio naturale), è una tecnologia che, a oggi, risulta particolarmente efficiente per la lingua inglese, molto meno per le altre.

Perché ciò avvenga e quali sfide questo “language divide “ ponga alle redazione di tutto il mondo che vogliano implementare strumenti di IA, è tema del contributo prodotto dal JournalismAI Collab che pubblichiamo di seguito, e che riporta l’esperienza e la sperimentazione di due realtà giornalistiche come La Nación in Argentina e Inkyfada in Tunisia.


Il divario NLP
L'inglese non è l'unica lingua naturale

Il Natural Language Processing (NLP), o elaborazione del linguaggio naturale, è un'area dell'intelligenza artificiale che mira a comprendere, analizzare e dare un senso alle lingue umane. Riguarda lo sviluppo di sistemi che possono comprendere il linguaggio ed eseguire compiti come la traduzione, il controllo grammaticale e la classificazione degli argomenti ed è cruciale nello sviluppo di strumenti alimentati dall'AI per le redazioni giornalistiche.

Nella ricerca dell'innovazione e di nuovi formati coinvolgenti, l'NLP può essere uno strumento potente per le redazioni: secondo Agnes Stenbom, responsabile dati e specialista AI presso l’azienda technorvegese Schibsted e dottoranda al KTH Royal Institute of Technology, le redazioni di tutto il mondo potrebbero infatti sbloccare un grande potenziale in settori come l'analisi dei contenuti, gli approfondimenti editoriali e anche la creazione di contenuti investendo nella ricerca e nell'implementazione di modelli nelle loro lingue.

Tuttavia, lo sviluppo e l'implementazione della tecnologia NLP non è per nulla uniforme, perché la stragrande maggioranza dei progressi tecnologici sono stati fatti in sistemi NLP basati sull'inglese.

Per capire le implicazioni della disparità tra l'inglese e le altre lingue, abbiamo chiesto a due team di redazione del nostro JournalismAI Collab - La Nación in Argentina e Inkyfada in Tunisia - come stanno approcciando e implementando il Natural Language Processing a supporto del loro giornalismo.

Il problema dei dati mancanti

Secondo Chayma Mehdi - caporedattore di Inkyfada - lo svantaggio più evidente per le lingue non inglesi è la mancanza di dati.

Nel campo del NLP, le lingue si distinguono in lingue ad alta risorsa e lingue a bassa risorsa: le lingue ad alta risorsa sono quelle per le quali è disponibile una grande quantità di dati come le librerie software, che sono collezioni di funzioni e risorse che permettono l'applicazione della PNL. La lingua di gran lunga più ricca di risorse è l'inglese.

Molte aziende si sono già prese l'impegno di raccogliere, annotare e pubblicare dati che possono essere utilizzati per addestrare modelli NLP in inglese. Per le altre lingue, sono disponibili pochissimi dati, al punto che le agenzie stampa sono spesso costrette a trovare e raccogliere i dati da sole.

Non solo: anche quando le librerie software sono disponibili, non è una garanzia di successo. Per lingue come lo spagnolo, ad esempio, il processo richiede ancora molto tempo perché i modelli e le pipeline disponibili nelle librerie software non sono così addestrati come quelli in inglese. Così succede che la Data and innovation journalistDelfina Arambillet e il suo team a La Nación debbano spesso riaddestrare i modelli stessi e alimentarli con parole nuove e diverse per aumentarne la precisione.

Prova ed errore

Oltre ai dati, l'altra risorsa scarsa è il tempo. Il processo di implementazione delle tecnologie NLP nelle redazioni non inglesi non può tenere il passo con il ritmo veloce del ciclo delle notizie e, per ovviare al problema, La Nación usa gli strumenti di IA per progetti che non sono legati alle breaking news, e che quindi non devono rispettare scadenze rigide.

Flor Coelho, responsabile della ricerca e della formazione sui nuovi media a La Nación, spiega che «la gente ha bisogno di tempo per sperimentare e testare questi strumenti e dovrebbe avere l'opportunità di provare e fallire. È così che impariamo».

Flor ritiene anche di essere in una posizione privilegiata solo per il fatto di avere a disposizione un team dedicato alla ricerca su nuove tecnologie. Per progredire in questo campo, infatti, è importante impostare la strategia AI come parte dell'agenda della redazione: «In un certo senso, il team dei dati lavora come un'unità investigativa con un orizzonte a lungo termine - spiega la Coelho - Ma invece di indagare su una storia giornalistica, stiamo facendo una meta-inchiesta sulle nuove tecnologie e strumenti che miglioreranno il giornalismo che produciamo».

Come superare i limiti imposti dalla mancanza di dati e di tempo

Per vincere le loro sfide, le due newsroom che hanno preso parte alla sperimentazione hanno esplorato approcci diversi con il team di Inkyfada che suggerisce di guardare prima alle soluzioni esistenti. Duplicare il lavoro fatto in inglese, insomma, è il primo passo per applicare l'NLP alla lingua desiderata: «Guardiamo quali modelli funzionano in inglese e li mettiamo a punto per le nostre esigenze - spiega sempre Chayma Mehdi di Inkyfada - Valutiamo la qualità del modello e poi lo addestriamo nella lingua araba».

Quando la messa a punto dall'inglese a un'altra lingua funziona, questo approccio apre l'opportunità di applicare il modello a più soluzioni e persino di esplorare soluzioni multilingue. La strategia migliore è quella di esplorare entrambe le opzioni continuando a raccogliere e pulire i dati nella lingua desiderata per il compito specifico su cui si vuole lavorare.

Diversamente, per La Nación, la soluzione chiave è stata basarsi sulla collaborazione: costruire relazioni con le istituzioni accademiche locali aiuta a fornire più risorse sia per la ricerca accademica, sia per i progressi nelle tecnologie che la redazione sarà in grado di implementare.

Le redazioni possono fare squadra con le facoltà e idealmente fornire a ricercatori e studenti l'opportunità di applicare le loro competenze su casi di studio concreti. Di conseguenza, il carico di lavoro condiviso può rendere il lavoro su NLP meno dispendioso in termini di tempo.

In una prospettiva a lungo termine, la collaborazione è vantaggiosa anche perché gli studenti vengono introdotti al giornalismo, settore che di solito non è particolarmente attraente per i laureati in informatica.

Le chiavi del successo: supervisione umana e aspettative realistiche

Ogni lingua presenta sfide diverse a seconda della disponibilità di risorse di dati, della sua struttura, o per la presenza di aspetti culturali come atteggiamenti e tradizioni che definiscono il nostro modo di comunicare. Queste sfide sono presenti sia durante la costruzione di modelli che elaborano il linguaggio, sia da una prospettiva esterna, quando si guarda a come le persone reagiranno o apprezzeranno il testo generato dalla macchina.

"Penso che l'AI dedicata al linguaggio, in generale, sia un chiaro esempio di quanto l'intelligenza artificiale sia anche e soprattutto una questione culturale. Non c'è un approccio unico per tutti", aggiunge Agnes Stenbom. Per questo motivo, la supervisione umana e le aspettative realistiche sono fondamentali per il successo dell'implementazione dell'IA nelle lingue a bassa risorsa.

Come parte della sua ricerca su come il giornalismo può responsabilmente sfruttare le tecnologie AI, Agnes è stata recentemente co-autrice di un articolo con il suo collaboratore Tobias Norlund, in cui hanno cercato di valutare la percezione di "somiglianza umana" e "informatività" del testo prodotto da un modello NLP addestrato sui dati di un forum online svedese.

Ne è emerso che il modello si è comportato abbastanza bene, con il 68% dei suoi messaggi ritenuti plausibili per essere scritti da un essere umano ma, per più della metà dei post generati automaticamente, i valutatori umani non hanno trovato accordo sul fatto che potessero passare come simili a quelli umani oppure no.

"Per quanto piccolo fosse questo particolare studio di valutazione, si tratta di una rivelazione importante per il giornalismo - aggiunge la Stenbom - Dobbiamo essere consapevoli degli atteggiamenti e delle preferenze del nostro pubblico quando implementiamo soluzioni NLP".

Conclusioni
Le esperienze delle redazioni che cercano di far funzionare la PNL per il giornalismo in lingue diverse dall'inglese mostrano che ci sono ancora significativi ostacoli tecnici da superare. Tuttavia, le stesse barriere indicano la necessità e il potenziale per una maggiore collaborazione e co-creazione tra le redazioni e tra giornalisti e accademici.

 

* Sabrina Argoud collabora con JournalismAI Collab, l’esperimento collaborativo globale lanciato nel giugno 2020 dal JournalismAI, partner dell’Osservatorio IA : una piattaforma per le redazioni tramite la quale cooperare ed esplorare soluzioni innovative per migliorare il proprio lavoro giornalistico attraverso l'uso dell’IA.

RIPRODUZIONE RISERVATA © Copyright ANSA