Kõnetuvastus – kõne tekstiks teisendamine
2020. aasta alguses kuulutas SCIC välja katseprojekti – Speech to Text (S2T) (kõnest tekstiks) – et arendada välja kõnetuvastuslahendus, mis võimendaks uusimaid edusamme tehisintellekti ja loomuliku keele töötlemise valdkonnas. Pärast seda on tänu SCICi suuliste tõlkide abile tehtud palju edusamme. SCIC kasutab komisjoni praegust pilvelahendust Microsoft Azure, mis pakub standardset kõnetuvastusteenust, et luua transkriptsioone, mida seejärel hindavad vabatahtlikud suulised tõlgid. Vead parandatakse ja toimetatud transkriptsioonid sisestatakse tagasi mudelisse, et parandada selle täpsust. Sel moel masin „õpib“ ja muutub paremaks.
Projektis osales oma keeleteadmistega 23 tõlkekabiini: nad kontrollisid ja hindasid Microsoft Azure koostatud automatiseeritud transkriptsioone oma vastavates keeltes. see tagab projekti mitmekeelse laadi ja aitab SCICil saada Euroopa Komisjonis võtmerolli kõnedega seotud valdkonnas.
Pärast esialgset katseetappi on projekti heaks töötavate suuliste tõlkide arvu järk-järgult suurendatud ja projekt käib nüüd täie hooga. Automatiseeritud transkriptsiooni kontrollimiseks peavad suulised tõlgid teksti analüüsima teistsugusest vaatenurgast. Näiteks on nad pidanud õppima, kuidas eirata kirjavahemärke, suuri algustähti ja sidekriipse, kuna selles etapis on transkriptsioon vaid mustand. See on keelespetsialistidele ebaloomulik ning sellega harjuda ei ole olnud lihtne.
Iga nädal kohtuvad vabatahtlikud suulised tõlgid, et arutada küsimusi, millega on nad selle töö käigus kokku puutuvad. Arutelud hõlmavad paljusid transkriptsiooniga seotud küsimusi ja aitavad parandada kõikidele osalejatele kättesaadavaid transkriptsioonisuuniseid. Masina poolt toodetud pärlid, nagu „Applebee“ korduv kasutamine kreekakeelses tekstis või Brad Pitti ilmumine portugalikeelses transkriptsioonis lisavad aruteludele veidi lõbusust. Praegu toimib masin mõnedes keeltes paremini kui teistes ning see on tootnud mõningaid väga naljakaid transkriptsioone. Näiteks on see tõlkinud volinik Wojciechowski „virtuaalseks huskiks“ ning inglisekeelses transkriptsioonis nimetanud „heategevuse“ („charity) „kirsiteeks“ („cherry tea“). Samuti on esinenud selliseid lõbusaid variante nagu „Brexiti“ asemel „backseat“ (tagaiste) või „täita lehmi“ („fill in the cows“) „täita vabu töökohti“ („fill up vacancies“) asemel. Kuna masin muutub üha paremaks, jääb neid humoorikaid vigu ja muid ebakõlasid järjest vähemaks.
Selleks et tõlkidel oleks midagi hinnata, on palju telgitaguseid ettevalmistusi. Alla on vaja laadida suured audiofailid, seejärel need ette valmistada ja Microsoft Azuresse üles laadida. Seda teevad tehnilised meeskonnad ja mõned spetsiaalse koolituse saanud suulised tõlgid. On ilmselge, et nii palju inimesi hõlmavat projekti on vaja hästi koordineerida ning sellega tegelevad kolm suulist tõlki rumeenia, hollandi ja portugali keele kabiinidest. Nad tegutsevad teataval määral vahendajana tehnilise meeskonna ja vabatahtlike suuliste tõlkide vahel. Nemad vastutavad ka tööpakettide saatmise eest oma kolleegidele, vastates nende küsimustele ja aidates neid ilmnevate probleemide lahendamisel. Pärast „masina“ tehtud transkriptsiooni kinnitamist saadavad kolleegid oma märkused tehtud paranduste kohta tagasi koordinaatoritele, kes edastavad need tehnilisele meeskonnale.
Kõige põnevam on olnud meeskonnal jälgida, kuidas süsteem käitub ning leida viise, kuidas seda arenema panna; suulised tõlgid on seda protsessi kirjeldanud kui mitmekeelsetele lastele elementaarsete asjade õpetamist, näiteks mitte keeli segada, kuid samas andes ka sellele „robotlapsele“ piisavalt vabadust ise areneda. Masin õpib raskete osadega toime tulema, ennast parandama, oma tehnikat pidevalt täiustama ning samu vigu mitte kordama.
See on tulevikku suunatud projekt ja läbimurre selle pakutavate väljavaadete osas, eelkõige kuulmispuudega inimeste jaoks. See toob kaasa terve hulga väga kasulikke ja konkreetseid kasutusvõimalusi (mitte ainult Euroopa Komisjonis) näiteks pressikonverentsidel automatiseeritud subtiitrite kujul, aga pikemas perspektiivis ka Euroopa kodanikele kohandatud lahenduste pakkumiseks. Puuetega inimestele materjalide kättesaadavaks tegemine on projekti peamisi liikumapanevaid jõude.