Skip to main content
Knowledge Centre on Translation and Interpretation

<i>SCIC</i> iniciatīvas valodu tehnoloģiju jomā

<i>SCIC</i> projekti

Runas atpazīšana

2020. gada sākumā SCIC paziņoja par izmēģinājuma projektu “Speech to Text” (“S2T”), kas izveidots, lai izstrādātu korporatīvu runas atpazīšanas risinājumu, kurā izmantoti jaunākie sasniegumi mākslīgā intelekta un dabiskās valodas apstrādes jomā. Kopš tā laika, pateicoties SCIC tulku ieguldījumam, ir panākts liels progress. Lai izveidotu transkripcijas, kuras pēc tam vērtē brīvprātīgie tulki, SCIC izmanto “Microsoft Azure” –– Komisijas patlaban izmantoto mākoņrisinājumu, kas nodrošina standarta runas atpazīšanas pakalpojumu. Tiek izlabotas visas kļūdas un pārskatītā transkripcija ievadīta atpakaļ modelī, lai uzlabotu tā precizitāti; šādā veidā mašīna “mācās” un darbojas labāk.


Projektā ar savām valodu kompetencēm piedalījās kolēģi no 23 valstu kabīnēm, pārbaudot un apstiprinot “Microsoft Azure” izveidotās automātiskās transkripcijas attiecīgajās valodās. Tādējādi tiek nodrošināta projekta daudzvalodība, turklāt tas palīdz SCIC kļūt par nozīmīgu dalībnieku šajā jomā Eiropas Komisijā.

Pēc sākotnējā izmēģinājuma posma projektā strādājošo tulku skaits ir pakāpeniski palielinājies, un šobrīd projekts attīstās diezgan strauji. Tā kā tulki pārbauda automātisko transkripciju, viņiem uz tekstu jāraugās pavisam citām acīm. Piemēram, viņiem bija jāiemācās ignorēt pieturzīmes, lielos un mazos burtus un defisi, jo šajā posmā izveidotā transkripcija ir “kaila”. Valodu speciālistiem tas šķiet pretdabiski, tāpēc šī pāreja nav bijusi viegla.

Brīvprātīgie ik nedēļu tiekas, lai pārrunātu problēmas, ar kurām viņi saskārušies savā darbā. Pārrunas aptver plašu transkripcijas jautājumu loku un palīdz uzlabot visiem dalībniekiem pieejamās transkripcijas vadlīnijas. Mašīnas radītās pērles, piemēram, vairākkārtēja marihuānas pieminēšana grieķu valodas tekstā vai Breda Pita parādīšanās portugāļu valodas transkripcijā, dalībniekus uzjautrina. Pagaidām mašīna dažās valodās darbojas labāk nekā citās, un dažreiz piedāvātie varianti ir bijuši ļoti smieklīgi, piemēram, transkribējot “komisārs Voicehovskis” kā “komisārs virtuālais haskijs”, “charity” kā “cherry-tea” vai “Brexit” kā “backseat”, vai “to fill up vacancies” kā “to fill in the cows”. Mašīnas darbībai uzlabojoties, humoristisku kļūdu, protams, kļūs mazāk un tās būs daudz retākas.

Tomēr, lai tulkiem būtu ko apstiprināt, liela rosība notiek arī projekta aizkulisēs. Vispirms kāds lejupielādē un sagatavo lielas audiodatnes, kuras nepieciešams augšupielādēt “Microsoft Azure”. To dara tehniskās komandas, kā arī daži īpaši apmācīti tulki. Lieki piebilst, ka jebkurš projekts, kurā iesaistīta tik liela cilvēku grupa, prasa pamatīgu koordināciju, ko nodrošina trīs tulki –– no Rumānijas, Nīderlandes un Portugāles kabīnēm. Viņi zināmā mērā darbojas kā saskarne starp tehnisko komandu un brīvprātīgajiem tulkiem. Koordinatori arī nosūta darba paketes kolēģiem, atbild uz viņu jautājumiem un palīdz risināt problēmas, ar kurām saskaras kolēģi. Pēc mašīnas izveidotās transkripcijas apstiprināšanas kolēģi savus komentārus par veiktajiem labojumiem nosūta koordinatoriem, kuri tālāk tos nodod tehniskajai komandai.

Viens no aizraujošākajiem komandas atklājumiem bija noskaidrot, kā sistēma uzvedas un kā likt tai pilnveidoties. Tulki stāsta, ka tas ir tāpat kā mācīt daudzvalodīgam bērnam pamatlietas, piemēram, nejaukt valodas, taču arī ļaut šim “robotam-bērnam” brīvi attīstīties pašam. Mašīna mācās tikt galā ar sarežģītiem posmiem, labot sevi, nepārtraukti pilnveidot savu tehniku un neatkārtot vienas un tās pašas kļūdas.

Šis ir uz nākotni orientēts projekts, un tas ir izrāviens tā piedāvāto perspektīvu ziņā, it sevišķi domājot par dzirdes invalīdiem. Tas radīs virkni ļoti noderīgu un konkrētu pielietojumu ne tikai Eiropas Komisijā, piemēram, ļaujot preses konferencēs izmantot automatizētus subtitrus, bet arī ilgtermiņā, piedāvājot pielāgotus risinājumus Eiropas iedzīvotājiem. Viens no galvenajiem projekta virzītājspēkiem ir iespēja nodrošināt materiālu pieejamību personām ar invaliditāti.