Skip to main content
Knowledge Centre on Translation and Interpretation

SCIC-initiativer inden for sprogteknologi

SCIC-projekter

Talegenkendelse – tale til tekst

I begyndelsen af 2020 annoncerede SCIC et pilotprojekt – Tale til tekst (S2T) – for at udvikle en løsning til talegenkendelse i virksomheder, der skulle udnytte de seneste fremskridt inden for kunstig intelligens og natursprogsbehandling. Siden da er der gjort store fremskridt takket være bidraget fra SCIC's tolke. SCIC anvender Microsoft Azure – den nuværende cloud-løsning i Kommissionen, som tilbyder en standardtjeneste til talegenkendelse – til at lave transskriptioner, som efterfølgende vurderes af frivillige tolke. Eventuelle fejl rettes, og den reviderede transskription indføres i modellen for at forbedre dens nøjagtighed, og på den måde "lærer" maskinen og bliver bedre.


Kolleger fra de 23 kabiner deltog i projektet med deres sproglige ekspertise og kontrollerede og validerede automatiserede transskriptioner leveret af Microsoft Azure på deres respektive sprog. Dette sikrer projektets flersprogede karakter og bidrager til, at SCIC etablerer sig som en central aktør inden for taleaktiviteter i EU.

Efter den indledende pilotfase er antallet af tolke, der arbejder på projektet, gradvist blevet udvidet, og projektet er nu i fuld gang. Når tolkene kontrollerer den automatiske transskription, skal de se teksten med helt nye øjne. De har f.eks. været nødt til at lære, hvordan man ignorerer tegnsætning, store bogstaver og bindestreger, da transskriptionen på nuværende tidspunkt er helt "nøgen". Det føles kontraintuitivt for sprogfolk, og omstillingen har ikke været let.

Hver uge "mødes" de frivillige for at drøfte spørgsmål, de støder på under deres arbejde. Drøftelserne omfatter en bred vifte af transskriptionsspørgsmål og bidrager til at forbedre de transskriptionsretningslinjer, der er tilgængelige for alle deltagere. De guldkorn, som maskinen leverer, som f.eks. at nævne Applebee gentagne gange i en græsk tekst eller Brad Pitt i en portugisisk transskription, letter stemningen under drøftelserne. I øjeblikket klarer maskinen sig bedre på nogle sprog end andre, og den er kommet med nogle meget sjove transskriptioner, f.eks. "commissioner virtual husky" for "commissioner Wojciechowski", "cherry tea" for "charity", "backseat" i stedet for "Brexit" og "to fill in the cows" for "to fill up vacancies". Efterhånden som maskinen bliver bedre, vil der blive længere og længere mellem de morsomme fejl.

Før tolkene har noget at validere, skal der dog ske en masse bag kulisserne. Store lydfiler skal downloades, forberedes og uploades til Microsoft Azure. Dette gøres af de tekniske hold og nogle specialuddannede tolke. Det siger sig selv, at ethvert projekt, der involverer en så stor gruppe af personer, kræver en hel del koordinering, som tre tolke fra henholdsvis de rumænske, nederlandske og portugisiske kabiner har taget på sig. De fungerer i et vist omfang som grænseflade mellem det tekniske team og de frivillige tolke. De er også ansvarlige for at sende arbejdspakkerne til kolleger, besvare deres spørgsmål og hjælpe med de problemer, de måtte støde på. Efter valideringen af "maskinens" transskriptioner sender kollegerne deres kommentarer til de rettelser, de har foretaget, tilbage til koordinatorerne, som derefter rapporterer dette til det tekniske team.

En af de mest spændende opdagelser for teamet har været at se, hvordan systemet opfører sig, og hvordan de får det til at udvikle sig. Tolkene har beskrevet det som at lære et flersproget barn grundlæggende ting som ikke at blande sprog, men også at give dette "robotbarn" friheden til selv at udvikle sig. Maskinen lærer at håndtere de vanskelige dele, at rette sig selv, konstant at forfine sin teknik og ikke at gentage de samme fejl.

Det er et fremtidsorienteret projekt og et gennembrud med hensyn til de muligheder, det giver, især for hørehæmmede. Det vil føre til en lang række meget nyttige og konkrete anvendelser, ikke kun for Kommissionen, f.eks. i form af automatiserede undertekster på pressekonferencer, men også på længere sigt ved at tilbyde skræddersyede løsninger til de europæiske borgere. At gøre materiale tilgængeligt for personer med handicap er en af de vigtigste drivkræfter bag projektet.