Skip to main content
Knowledge Centre on Translation and Interpretation

Initiatieven van DG Tolken voor taaltechnologie

Projecten van DG Tolken

Spraakherkenning — Van spraak naar tekst

Begin 2020 kondigde DG Tolken het proefproject “Van spraak naar tekst” aan. Het doel was een eigen programma voor spraakherkenning te ontwikkelen op basis van de nieuwste ontwikkelingen op het gebied van artificiële intelligentie en natuurlijke taalverwerking. Sindsdien is er dankzij de bijdrage van de tolken van DG Tolken veel vooruitgang geboekt. DG Tolken maakt transcripties met Microsoft Azure, de clouddienst bij de Commissie die een standaard spraakherkenningsdienst aanbiedt. Die transcripties worden vervolgens door vrijwilligers-tolken beoordeeld. Eventuele fouten worden gecorrigeerd en de gereviseerde transcriptie wordt weer ingevoerd in het model om het nauwkeuriger te maken, zodat de machine “leert” en beter wordt.


Collega’s uit de 23 cabines hebben hun talenkennis ter beschikking gesteld van het project: zij hebben de automatische transcripties van Microsoft Azure in hun doeltaal gecontroleerd en gevalideerd. Zo wordt het meertalige karakter van het project gewaarborgd en kan DG Tolken binnen de Commissie een belangrijke rol spelen op het gebied van spraakactiviteiten.

Na de eerste proeffase zijn er geleidelijk meer tolken bij het project betrokken en is het project goed op gang gekomen. Wanneer de tolken de automatische transcriptie controleren, moeten zij de tekst met heel andere ogen bekijken. Zo hebben zij de interpunctie, hoofdletters en koppeltekens moeten leren negeren, aangezien de transcriptie in dit stadium “ruw materiaal” oplevert. Dat druist in tegen de intuïtie van taalprofessionals en het was niet makkelijk om de knop om te zetten.

De vrijwilligers bespreken wekelijks kwesties waar zij tijdens hun werk op stuiten. De besprekingen gaan over allerlei aspecten van transcriptie en helpen de transcriptierichtsnoeren voor alle deelnemers te verbeteren. Dankzij de juweeltjes waarmee de machine af en toe op de proppen komt — zoals ‘Applebee’ in een Griekse tekst of ‘Brad Pitt’ in een Portugese transcriptie — gaat het er tijdens het overleggen soms luchtig aan toe. De machine presteert momenteel in bepaalde talen betere dan in andere. Sommige transcripties zijn bijzonder grappig, zoals “commissaris virtual husky” voor “commissaris Wojciechowski” en “cherry tea” (kersenthee) in plaats van “charity” (liefdadigheid), of wat te denken van “backseat” (achterbank) voor “brexit” of “fill in the cows” (koeien invullen) voor “fill up vacancies” (vacatures vervullen). De machine wordt steeds beter en uiteindelijk zal die steeds minder humoristische fouten maken.

Er gebeurt overigens veel achter de schermen voordat de tolken een transcriptie kunnen valideren. Grote audiobestanden moeten worden gedownload, voorbereid en geüpload naar Microsoft Azure. De technische teams en een aantal speciaal opgeleide tolken houden zich daarmee bezig. Uiteraard vereist een project waarbij zoveel mensen betrokken zijn veel coördinatie. Daarvoor zorgen drie tolken uit respectievelijk de Roemeense, de Nederlandse en de Portugese cabine. Zij vormen in zekere zin de schakel tussen het technische team en de vrijwilligers-tolken. Ook sturen zij de werkpakketten naar collega’s, beantwoorden hun vragen en bieden hulp bij alle problemen waar zij mee te maken hebben. Nadat een transcriptie van “de machine” is gevalideerd, lichten de collega’s hun correcties toe aan de coördinatoren, die vervolgens verslag uitbrengen aan het technisch team.

Bijzonder spannend voor het team was te zien hoe het systeem zich gedraagt en hoe je het kunt finetunen. Volgens de tolken is het alsof je een meertalig kind basisbeginselen bijbrengt, bijvoorbeeld dat je talen niet mag vermengen, waarbij je dit ‘robotkind’ tegelijkertijd de vrijheid geeft om zichzelf te ontwikkelen. De machine leert om te gaan met moeilijke passages, zichzelf te corrigeren, zijn techniek voortdurend te verfijnen en dezelfde fouten niet nog eens te maken.

Dit toekomstgerichte project biedt baanbrekende mogelijkheden, met name voor slechthorenden. Dit zal tal van zeer nuttige en concrete toepassingen opleveren binnen en buiten de Europese Commissie, zoals geautomatiseerde ondertiteling bij persconferenties en — op langere termijn — oplossingen op maat voor de Europese burgers. Een van de belangrijkste doelen van het project is om materiaal toegankelijk te maken voor personen met een handicap.