Riconoscimento vocale – Speech to text
All'inizio del 2020 lo SCIC ha annunciato un progetto pilota – Speech to Text (S2T) – per sviluppare una soluzione di riconoscimento vocale che sfruttasse i più recenti progressi nell'ambito dell'intelligenza artificiale e dell'elaborazione del linguaggio naturale. Da allora, grazie al contributo degli interpreti dello SCIC, sono stati compiuti molti progressi. SCIC utilizza Microsoft Azure – l'attuale soluzione cloud della Commissione, dotata di un servizio standard di riconoscimento vocale – per creare trascrizioni, che vengono successivamente valutate da interpreti volontari. Dopo la correzione di eventuali errori, il testo viene reintrodotto nella macchina per consentirle di "apprendere" e migliorare l'accuratezza dei propri risultati.
Hanno partecipato al progetto colleghi di 23 lingue, che hanno messo a disposizione le loro competenze per verificare e convalidare le trascrizioni automatizzate prodotte da Microsoft Azure. Ciò garantisce la natura multilingue del progetto e permette allo SCIC di affermarsi come attore chiave nel settore delle attività vocali all'interno della Commissione europea.
Dopo l'iniziale fase pilota, è stato gradualmente ampliato il numero di interpreti partecipanti al progetto e ora tutto procede a pieno ritmo. La verifica della trascrizione automatizzata richiede agli interpreti di guardare il testo da una prospettiva differente. Ad esempio, hanno dovuto imparare a ignorare l'assenza di punteggiatura, maiuscole e trattini, che in questa fase della trascrizione non compaiono. Per dei professionisti del settore linguistico è un'operazione controintuitiva che ha richiesto una certa capacità di adattamento.
Ogni settimana i volontari si confrontano sulle varie questioni emerse durante il lavoro per contribuire a migliorare gli orientamenti in materia di trascrizione, che vengono poi messi a disposizione di tutti i partecipanti. Alcune perle generate dalla macchina, come menzionare ripetutamente "Applebee" in un testo greco o "Brad Pitt" in una trascrizione portoghese, conferiscono un tocco di leggerezza a questi momenti di confronto. Per il momento la macchina funziona meglio in certe lingue rispetto ad altre. Anche in inglese ha prodotto alcuni risultati molto divertenti, come per esempio trasformare il "commissioner Wojciechowski" nel "commissioner virtual husky". Naturalmente gli errori buffi e le incongruenze diminuiranno con il migliorare delle prestazioni.
Comunque sia, per arrivare a queste trascrizioni serve molto lavoro dietro le quinte. Bisogna scaricare, preparare e caricare in Microsoft Azure grandi file audio. Queste operazioni sono realizzate dalle équipe tecniche e da alcuni interpreti appositamente formati. Inutile dire che qualsiasi progetto che coinvolga un gruppo così ampio di persone richiede un grande coordinamento: a incaricarsene sono stati tre interpreti, rispettivamente del dipartimento rumeno, olandese e portoghese, che svolgono un ruolo di interfaccia tra l'équipe tecnica e gli interpreti volontari. Si occupano anche di inviare i pacchetti di lavoro ai colleghi, di rispondere alle loro domande e di contribuire a risolvere eventuali problemi. Una volta convalidata la trascrizione effettuata dalla "macchina", gli interpreti inviano le osservazioni sulle correzioni che hanno dovuto apportare ai coordinatori, che le riferiscono all'équipe tecnica.
L'équipe si occupa di uno degli aspetti più interessanti, ovvero capire come funziona il sistema e come farlo evolvere. Stando agli interpreti, è come insegnare a un bambino poliglotta a non mescolare le lingue, ma anche lasciare a questo bambino "robot" la libertà di evolvere da solo. La macchina impara ad affrontare le parti difficili, a correggersi, ad affinare costantemente la tecnica e non a ripetere gli stessi errori.
Si tratta di un progetto orientato al futuro, che offre delle prospettive promettenti, in particolare per le persone con disturbi dell'udito. Sfocerà in una serie di applicazioni concrete e di grande utilità, non solo per la Commissione europea – dove per esempio permetterà la generazione di sottotitoli automatizzati nelle conferenze stampa –, ma anche per tutti i cittadini europei, cui offrirà soluzioni su misura a lungo termine. Uno dei motori principali del progetto è permettere alla persone disabili l'accesso a una grande quantità di materiale.