Taligenkänning – tal till text
I början av 2020 inledde GD Tolkning pilotprojektet Tal till text (S2T). Målet var att ta fram en lösning för taligenkänning som skulle utnyttja de senaste framstegen inom artificiell intelligens och bearbetning av naturligt språk. Sedan dess har vi gjort stora framsteg tack vare bidraget från våra tolkar. GD Tolkning använder Microsoft Azure – kommissionens nuvarande molnlösning med en standardtjänst för röstigenkänning – för att skapa transkriberingar som sedan utvärderas av frivilliga tolkar. Eventuella fel korrigeras och den reviderade transkriberingen förs in i modellen för att förbättra exaktheten. På så sätt ”lär sig” maskinen och blir stadigt bättre.
Kollegor från de 23 tolkbåsen deltar i projektet och kontrollerar och validerar automatiserade transkriberingar från Microsoft Azure på sina respektive språk. Det säkrar projektets flerspråkighet och bidrar till att GD Tolkning etablerar sig som en central aktör när det gäller tolkning av tal inom kommissionen.
Efter den inledande pilotfasen har antalet tolkar som arbetar med projektet gradvis utökats och projektet är nu i full gång. När tolkarna kontrollerar den automatiserade transkriberingen måste de titta på texten med helt nya ögon. De har till exempel varit tvungna att lära sig att ignorera interpunktion, versaler och bindestreck, eftersom transkriberingen i det här skedet är ”naken”. Det känns kontraintuitivt för språkmänniskor och omställningen har inte varit lätt.
Varje vecka träffas de frivilliga tolkarna för att diskutera frågor som de stött på under sitt arbete. Diskussionerna omfattar ett brett spektrum av transkriberingsfrågor och bidrar till att förbättra de transkriberingsriktlinjer som alla deltagare kan ta del av. De guldkorn som maskinen levererar, t.ex. att upprepade gånger nämna ”Applebee” i en grekisk text eller ”Brad Pitt” i en portugisisk transkribering, lättar upp stämningen under diskussionerna. För närvarande fungerar maskinen bättre på vissa språk än andra, och den har kommit med en del festliga transkriberingar, t.ex. ”commissioner virtual husky” för kommissionär Wojciechowski, ”cherry tea” i stället för ”charity”, ”backseat” i stället för ”brexit” och ”to fill in the cows” för ”to fill up vacancies”. I takt med att maskinen blir bättre kommer naturligtvis de komiska felen att bli allt färre.
För att tolkarna ska få något att validera pågår mycket aktivitet bakom kulisserna. Stora ljudfiler måste laddas ned, förberedas och laddas upp i Microsoft Azure. Detta görs av de tekniska teamen och av vissa specialutbildade tolkar. Det säger sig självt att ett projekt som involverar så många människor kräver en hel del samordning, som tre tolkar från det rumänska, nederländska respektive portugisiska båset har tagit på sig. De fungerar i viss mån som en förbindelselänk mellan det tekniska teamet och de frivilliga tolkarna. De ansvarar också för att skicka arbetspaketen till kollegor, besvara deras frågor och hjälpa till med eventuella problem. Efter valideringen av ”maskinens” transkribering skickar kollegorna tillbaka sina kommentarer om de korrigeringar de gjort till samordnarna, som sedan rapporterar till det tekniska teamet.
Något av det mest spännande för teamet har varit att se hur systemet beter sig och hur man ska kunna utveckla det. Tolkarna har beskrivit det som att lära ett flerspråkigt barn grundläggande saker som att inte blanda språk, men också att låta ”robotbarnet” utvecklas fritt på egen hand. Maskinen lär sig att hantera de svåra delarna, rätta sig själv, ständigt förfina sin teknik och inte upprepa samma misstag.
Det är ett framtidsinriktat projekt och ett genombrott när det gäller nya möjligheter, särskilt för personer med hörselnedsättning. Det kommer att leda till en rad mycket användbara och konkreta tillämpningar, inte bara för kommissionen, t.ex. i form av automatisk undertextning på presskonferenser, utan även på längre sikt genom att erbjuda EU-invånarna skräddarsydda lösningar. Att göra material tillgängligt för personer med funktionsnedsättning är en av de främsta drivkrafterna bakom projektet.