Rozpoznawanie mowy – rejestracja wypowiedzi na piśmie
Na początku 2020 r. DG SCIC ogłosiła projekt pilotażowy – Speech to Text (S2T) – mający na celu opracowanie korporacyjnego rozwiązania w zakresie rozpoznawania mowy, wykorzystującego najnowsze osiągnięcia w zakresie sztucznej inteligencji i przetwarzania języka naturalnego. Od tamtej pory zrobiono w tym zakresie duże postępy dzięki współpracy tłumaczy ustnych z DG SCIC. SCIC wykorzystuje Microsoft Azure – rozwiązanie w chmurze stosowane aktualnie w Komisji. Zapewnia ono standardową usługę rozpoznawania mowy do tworzenia transkrypcji, które są następnie oceniane przez tłumaczy ustnych. Korygują oni wszelkie błędy, a poprawioną transkrypcję ponownie wprowadza się do modelu w celu zwiększenia jego dokładności. W ten sposób oprogramowanie „uczy się” i uzyskuje lepsze wyniki.
W projekcie uczestniczyli tłumacze z 23 kabin, którzy wykorzystali swoją specjalistyczną wiedzę językową do weryfikacji i walidacji automatycznych transkrypcji na ich języki wygenerowanych przez Microsoft Azure. Gwarantuje to wielojęzyczny charakter projektu i pozwala DG SCIC przejąć rolę centralnego punktu w KE zajmującego się technologią rozpoznawania mowy.
Po początkowej fazie pilotażowej stopniowo zwiększano liczbę tłumaczy ustnych pracujących nad projektem. Aktualnie projekt jest w fazie pełnej operacyjności. Ponieważ tłumacze ustni weryfikują automatyczną transkrypcję, muszą podejść do tekstu w zupełnie nowy sposób. Na przykład musieli nauczyć się nie zwracać uwagi na interpunkcję, duże litery czy łączniki, ponieważ na tym etapie transkrypcja ich nie uwzględnia. Takie podejście jest dla językoznawcy nienaturalne i trudno się na nie przestawić.
Ochotnicy co tydzień się spotykają i omawiają sytuacje, z jakimi mieli do czynienia. Dyskusje dotyczą szerokiego zakresu kwestii związanych z transkrypcją i pomagają ulepszyć wytyczne dotyczące transkrypcji dostępne dla wszystkich uczestników. Są i zabawne akcenty, bo maszynowy system nie zawsze dobrze rozumie mowę i czasami przekształca wyrazy lub ich zbitki w nazwy własne, takie jak Applebee czy Brad Pitt. Aktualnie program z jednymi językami radzi sobie lepiej, z innymi gorzej. Zniekształca słowa w taki sposób, że powstają różne „perełki”. Na przykład wymieniony w wypowiedzi „komisarz Wojciechowski” to w tekście angielskim „komisarz wirtualny husky”, „charity” to „cherry tea” (czyli herbata wiśniowa zamiast dobroczynności), a Brexit to „backseat”, czyli tylne siedzenie. Programowi przydarzają się również zupełnie kuriozalne pomyłki: „to fill up vacancies” czyli nabór pracowników to na przykład „zapełnianie krów”. Jednak w miarę udoskonalania oprogramowania, takie śmieszne błędy będą pojawiać się coraz rzadziej.
Zanim tłumacze przystąpią do walidacji trzeba wykonać wiele różnych czynności. Najpierw trzeba pobrać, przygotować i załadować do Microsoft Azure duże pliki audio. Zajmują się tym członkowie zespołów technicznych oraz tłumacze, którzy zostali w tym celu specjalnie przeszkoleni. Oczywiście każdy projekt z udziałem tak licznej grupy ludzi wymaga pełnej koordynacji, której podjęło się troje tłumaczy, z kabiny rumuńskiej, niderlandzkiej i portugalskiej. Pełnią oni w pewnym stopniu rolę łącznika między zespołem technicznym a uczestniczącymi w projekcie tłumaczami ustnymi. Koordynatorzy odpowiadają również za wysyłanie współpracownikom pakietów roboczych, odpowiadanie na ich pytania oraz pomaganie im w rozwiązywaniu wszelkich pojawiających się problemów. Po walidacji transkrypcji wygenerowanej przez program korektorzy przesyłają komentarze na temat wprowadzonych przez siebie poprawek koordynatorom, którzy z kolei przekazują je zespołowi technicznemu.
Uczestnicy projektu twierdzą, że najbardziej fascynującą rzeczą jest obserwowanie, jak zachowuje się system i jak można go udoskonalać. Tłumacze mówią, że ta praca przypomina uczenie wielojęzycznego dziecka podstawowych rzeczy, na przykład żeby nie mieszać różnych języków. Ale również pozostawiają temu robotowi-dziecku dużo wolności, aby mógł samodzielnie się rozwijać. Program uczy się radzić sobie z trudnymi częściami wypowiedzi, korygować swoje błędy, doskonalić swoją technikę i nie powtarzać tych samych błędów.
Jest to projekt przyszłościowy i przełomowy, jeżeli chodzi o perspektywy, jakie oferuje, zwłaszcza w przypadku osób niedosłyszących. Doprowadzi on do powstania wielu bardzo przydatnych i konkretnych zastosowań, nie tylko w różnych działach Komisji Europejskiej, na przykład w formie automatycznych napisów podczas konferencji prasowych, ale również, w dłuższej perspektywie, poprzez oferowanie obywatelom europejskim rozwiązań dostosowanych do indywidualnych potrzeb. Jedną z głównych sił napędowych projektu jest zapewnienie dostępu do materiałów osobom z niepełnosprawnością.