#153 È la fine di Babele?
1) Quanto manca al traduttore universale? 2) La machine translation riduce i traduttori Ue 3) Quando Google Translate divenne forte 4) Chi corregge l'autocorrettore? 5) Che fatica scegliere un frigo
ARTICOLI. LIBRI. VIDEO. PODCAST. LIVE. BIO.
EN ATTENDANT IL TRADUCITUTTO
Gli annunci si sprecano: domani potremo parlare tutte le lingue, grazie a un algoritmo. E la realtà a che punto sta? Abbiamo fatto un ampio giro di opinioni. L’incipit della copertina del Venerdì in edicola e online.
POLONIA (Germania). Forse Babele, intesa come la maledizione biblica dell’incomunicabilità, sarà superata per via algoritmica. Nell’attesa la presunta liberatrice, come nella Torre dipinta da Bruegel, è circondata dalle brume. Per rendermene conto mi è toccato spingermi fino alla mestissima periferia di Colonia dove ha sede uno dei cinque unicorni, vale a dire le aziende valutate l’anno scorso oltre un miliardo di euro, del Vecchio
continente. Negli uffici di DeepL, il traduttore automatico preferito dai traduttori umani, non si può neanche varcare l’uscio senza essere scortati a vista. In comune con i suoi omologhi americani il quarantunenne polacco Jarek Kutylowski, figlio di un matematico che l’ha portato qui quando ne aveva dodici, ha la felpa col cappuccio. Sorride, con la perturbante naturalezza di qualcuno cui hanno spiegato che gli esseri umani usano fare così. Lo spunto per l’incontro è un articolo di BusinessWeek che annunciava, già per dicembre scorso, l’arrivo del loro primo «interprete vocale che catturi automaticamente le parole del parlante, le traduca e le trascriva in un’altra lingua». Ovvero l’operazione che mia madre compie già da tre-quattro anni con Google Translate per intendersi con gli stranieri che ospita d’estate. Ma, a giudicare dal sottotesto del pezzo, con maggior precisione. Così chiedo l’intervista. Segue impegnativo carteggio. Ed eccomi nella disadorna sala riunioni di un’azienda che, dal 2017 a oggi, ha assunto 700 persone. Ha 20 mila clienti paganti, da Mercedes Benz a Fujitsu, che la userebbero per tradurre di tutto, dai siti alle email, nonché 10 milioni e passa di utenti mensili. Che ne apprezzerebbero la prosa meno robotica di Google Translate, altrimenti inarrivabile per dimensioni di scaricamenti (1 miliardo contro 25 milioni) e di lingue tradotte (133 contro 31). La domandona dunque è: siamo davvero alla vigilia del «traduttore universale» di cui favoleggia la rivista americana, in cui tutti potranno parlare con tutti, senza dover conoscere la lingua? E, se fosse uno scenario realistico, sarebbe anche del tutto desiderabile?
“IN GIAPPONE CON LA APP”
«Per molti versi una cosa del genere esiste già. In Giappone, con la nostra app, me la cavavo. Ma l’uscita del nuovo prototipo è stata ritardata» esordisce il fondatore. Di mesi o anni? «Qualche mese» (ne sono già passati cinque dalla nostra conversazione e ancora niente). E perché voi lilliput dovreste fare meglio dei più noti gulliver? «Perché Google o Meta fanno troppe cose diverse mentre noi facciamo solo traduzioni e, negli ultimi 5-6 anni, siamo riconosciuti come leader». Sareste più bravi perché, oltre a 20 editor assunti, impiegate anche oltre un migliaio di freelance nel mondo per affinare le traduzioni fatte dalla macchina? «Questo è solo uno di tre aspetti. Abbiamo infatti anche trovato un miglior equilibrio di testi, formali e colloquiali, con cui addestrare il nostro modello. E conta molto la sua architettura». Quali testi? «Non posso aggiungere altro». E cosa intende a proposito dell’architettura? «Sono informazioni confidenziali». Vorrei ribattere «e allora perché concedere un’intervista?» se non temessi di decretarne la fine precoce. È già abbondantemente chiaro, però, che è più gratificante conversare con un bot. A proposito: teme la concorrenza di ChatGPT e simili? «La traduzione automatica (Mt) è stata l’apripista dell’attuale IA (il nome stesso DeepL allude al deep learning, l’autoapprendimento delle reti neurali, con la “L” in comune anche con “language”, ndr). La concorrenza è una cosa buona e tutto questo parlare di IA ci farà comunque pubblicità. Noi stessi abbiamo addestrato un modello linguistico (Llm) e usiamo una rete neurale, ma diversa da quelle dell’IA generativa». Come si sente nei panni del Terminator di traduttori? «Non mi ci sento perché si tratta di un grande mercato dove c’è posto per tutti e perché vogliamo che ci sia sempre un umano che, in qualche punto della catena, si prenda la responsabilità della traduzione. Gli stessi timori esistevano per l’invenzione della lavatrice ma, come allora, il vantaggio collettivo sarà superiore allo svantaggio per alcuni». Sembra non cogliere che the human in the loop di cui parla potrebbe finire per essere un singolo che sovrintenderà a un enorme numero di traduzioni, essenzialmente smazzate dalle macchine. Come dimostra il rimpicciolimento inedito, nell’ultimo decennio, di un quinto dei ranghi dei celeberrimi traduttori dell’Unione europea di cui ci siamo occupati l’estate scorsa. Ma è ormai abbondantemente chiaro che la transizione digitale, pur con i suoi benefici, non sarà un pranzo di gala.
ANCHE I TRADUTTORI UE PIANGONO
Che non sia un pranzo di gala se ne stanno accorgendo i celeberrimi traduttori della Ue che ero andato a visitare l’anno scorso. L’inizio del pezzo:
BRUXELLES. La versione dell’algoritmo, più che libera, è libertaria: “Spinelli sani, giovani sani” avrebbe tradotto “healthy screens, healthy kids”, in un comunicato su un’iniziativa della Commissione europea per contrastare la dipendenza dei ragazzi dai telefonini. Avrebbe, perché quando una traduzione automatica incontra una traduttrice umana (almeno il 70 per cento è donna), tipo Paola Rizzotto o Ottavia Calamita qui davanti a me, la prima è una traduzione morta. Peccato però che la machine translation avanzi inesorabile (da alcuni giorni i comunicati stampa su ambiente e altre tre materie sono subito generati in automatico, nelle 24 lingue comunitarie, nell’attesa di versioni migliori) mentre qui sono diminuiti del venti per cento nell’ultimo decennio gli umani deputati a correggerne le topiche.
Lo psicologo Jonathan Haidt ha usato la metafora di Babele per descrivere l’incomunicabilità tra diverse bolle social. Qui invece, se non si inverte la tendenza, si rischia di scivolare verso il mono-idioma inglese (paradossale giacché, pur avendo lasciato l’Europa, Londra l’ha linguisticamente colonizzata) più un corollario di traduzioni automatiche. A cui si aggiunge un secondo, ancor più perverso scherzo del destino. Google Translate fece il gran salto di qualità quando qualcuno intuì che, invece di addestrarla con traduzioni amatoriali e da una lingua all’altra per volta, sarebbe servito alimentarla con un lavoro professionale e in tante lingue diverse contemporaneamente. Gli unici a fare su larga scala una cosa del genere erano i traduttori Ue. Così da Mountain View scaricarono milioni di documenti europei e il loro algoritmo divenne una forza della natura. Oggi software simili contribuiscono a ridurre i ranghi di chi, a propria insaputa, ne ha affinato la qualità. Le vestali del multilinguismo sono preoccupate?
Torniamo nella stanza di Rizzotto che, al dipartimento italiano di traduzione alla Commissione, dirige settanta persone che si smazzano una media di 100 mila cartelle all’anno. Laureata alla celebre Scuola superiore per interpreti e traduttori di Trieste, è entrata in servizio a Bruxelles nel 1995. «Un’era in cui si ricevevano ancora testi di carta che dettavamo ai segretari che usavano macchine da scrivere elettroniche con scritte verdi su piccoli monitor. Nei primi anni 90 sono apparse le traduzioni automatiche della Systran, piuttosto primordiali. Poi rimpiazzate da una versione sviluppata dai nostri ingegneri. Fino al 2013-2017 quando, con la traduzione automatica neurale, la qualità è migliorata moltissimo». Le reti neurali mimano i vari livelli di neuroni e sinapsi con cui è strutturato il cervello, le stesse che sostengono l’architettura di ChatGPT. eTranslation, proprio come il più celebre “cugino”, funziona bene fino a quando non funziona malissimo. Ce ne dà qualche dimostrazione Ottavia Calamita, a sua volta laureata a Trieste e oggi lead translator, ovvero quella che, se alla vigilia di Natale arriva la notizia della Brexit e c’è da tradurre centinaia di pagine in pochi giorni, è quella che rinuncia al panettone, ripartisce i compiti tra una squadra di colleghi e si mette sotto.
VARIE FORME DI AIUTO DIGITALE
Nello schermo che ha davanti c’è un documento diviso a metà. A sinistra un testo in inglese, a destra, praticamente riga per riga, le proposte di traduzione in italiano. E qui il discorso si complica perché questi suggerimenti il software di traduzione assistita Trados Studio li riceve da fonti diverse. Una si chiama Euramis, ed è la ciclopica banca dati di tutte le traduzioni fatte da altri traduttori come lei (o magari lei stessa: in ogni caso versioni di cui fidarsi) da cui prendere parole/frasi. Il sistema propone pezzi di testo, come – chiedo venia agli sviluppatori – una specie di correttore molto potenziato, assegnando a ogni frammento una percentuale di similitudine con il nuovo testo. Infine c’è la traduzione automatica di eTtranslation che genera un testo nuovo. La cosa da capire, scontata solo per chi è del mestiere, è che ormai quasi nessuna traduzione parte da un foglio bianco.
IL MOMENTO DI SVOLTA PER GOOGLE TRANSLATE
In tutto questo la cosa piuttosto paradossale è che se Google Translate, tra gli altri, è diventato così bravo a tradurre lo deve proprio al fatto di essersi alimentato delle fantastiche traduzioni fatte da… i traduttori della Ue come mi spiego una decina di anni fa l’ex capo della squadra che se ne occupava:
MOUNTAIN VIEW. Nei bagni di Google ci sono comunicati inintellegibili. Uno di questi riguarda, appropriatamente, i test sulle toilette e invita «a non alterare gli ambienti condivisi tra una prova e l'altra». Segue una serie di istruzioni che, dall'inglese corrente, virano verso una sorta di linguaggio macchina, con pezzi interi di codice informatico. Non si capisce niente (se non che devono funzionare benissimo: cessi così impeccabili neppure al Waldorf Astoria). Per tutto il resto c'è Google Translate. Ostetriche irlandesi che lo usano per dare indicazioni a una partoriente congolese che non parla inglese. Docenti britannici che l'adoperano, in una classe ultra-multietnica, per interagire con gli ultimi arrivati. Spasimanti globali, ma non poliglotti, che apprendono la differenza sottile ma significativa, se treschi in tedesco, tra Lebensgefährtin (compagna di vita) e Abschnitt Lebensgefährtin (compagna di un pezzo di vita).
A dieci anni dal lancio il traduttore automatico di Mountain View è irriconoscibile. Da materia prima per l'ironia di Umberto Eco è diventato uno strumento dall'utilità inconfutabile. Tanto più evidente, tanto più ermetica è la lingua da espugnare. Prendete una paginata in cinese o in arabo. Con le vostre forze (a meno di avere anni di studi specialistici alle spalle) capireste zero. Con l'aiutino GT vi fate un'idea più che sufficiente del senso. Non serve più nemmeno essere davanti a un computer. L'ultima versione della app per telefonino fa anche di meglio. Me la mostra Barak Turovsky, il capo-progetto, in un'anonima stanzetta del 1365 di Shorebird Way, una delle tante vie bordate da sicomori che costituiscono la Google Town. «Word Lens è una funzione abbastanza impressionante» giura questo ingegnere mezzo russo che ha lavorato nell'intelligence israeliana prima di trasferirsi in America a 28 anni. «Usa l'obiettivo dello smartphone per vedere una scritta straniera e tradurla istantaneamente, sullo schermo. È pensata per decifrare la segnaletica cittadina, i menù in lingue ignote e tante altre situazioni quotidiane di sopravvivenza all'estero». Sui cartelli che ha portato funziona benissimo, e c'è effettivamente una dimensione magica in queste lettere che si trasformano sotto i vostri occhi in una sequenza comprensibile. Sui giornali è meno agevole, perché il testo è troppo, troppo appiccicato e se non vi muovete bene sulla pagina vi viene il mal di mare (sui titoli è ok). Chi usa Android può addirittura scaricare il dizionario sul telefonino e non deve nemmeno spendere di connessione quando è all'estero.
Altrimenti il meccanismo è quello di sempre. Translate acquisisce il testo e interroga il suo enorme database. Quando salta fuori una corrispondenza, ci sono anche le traduzioni relative. A quel punto traduce, o meglio rimpiazza l'espressione nella lingua ignota nell'equivalente in quella nota. Un gigantesco trova e sostituisci. All'inizio il dabatabase era poca cosa e i risultati rispecchiavano quella povertà. Col tempo gli hanno dato da mangiare miliardi di pagine, praticamente tutto il web e oltre, e siamo a oggi. «Una fonte straordinaria sono stati i testi dell'Unione europea, tradotti nelle 24 lingue ufficiali» ammette grato Turovsky, soprassedendo che oggi Bruxelles è diventata il loro più acerrimo castigatore per vicende di monopolio. Ma dopo le fenomenali scorpacciate di questi anni, c'è ancora margine di miglioramento attraverso nuove letture? «Certo. Forse la crescita qualitativa non sarà rapida come lo è stata sin qui, ma restano vari aspetti da potenziare. I testi delle canzoni, ad esempio, sono molto difficili da rendere. Così come le forme idiomatiche. Insomma, meno il testo è standard e più diventa metaforico, più la macchina soffre».
Il problema più generale è poi che non tutte le lingue sono ben rappresentate sul web. «Circa metà delle pagine è in inglese, sebbene gli anglofoni rappresentino solo un quinto della popolazione. Viceversa, tra le grandi, cinese e hindi sono sottorappresentate». Uno studio sulla diffusione dell'inglese nell'Impero di mezzo certifica che un terzo dei cittadini l'ha studiato, ma la stragrande maggioranza non lo padroneggia. È il mercato più promettente? «Di certo è un mercato enorme, ma a noi interessa soprattutto funzionare da ponte tra persone che prima non potevano comunicare e ora possono. Parlo di oltre mezzo miliardo di esseri umani ogni mese, che producono circa un miliardo di traduzioni al giorno». Numeri metafisici. Una quantità di sinapsi sociali che prima, semplicemente, non esistevano per mancanza di recettori linguistici. Ovviamente non è vero che non siano anche un'occasione di far soldi. Intanto per i dati che Google accumula. E poi quando Turovsky dice che «è tutto gratis per l'utente» omette che, senza la frasi prodotte proprio dagli utenti, Translate non esisterebbe. Ciò è ancora più evidente nella Community, l'ultimo progetto che gli è cresciuto intorno, ovvero volontari che valutano e affinano le traduzioni o semplicemente rimpinguano le scorte elettroniche di dizionari carenti. Tipo un gruppo di bangladesi che, in un giorno solo, è riuscito ad aggiungere 700 mila lemmi. «Qualcosa di simile è successo anche in Thailandia. Molti utenti kazaki, poi, si lamentavano che il nostro servizio non prevedeva la loro lingua. Abbiamo spiegato loro che non c'erano abbastanza testi tradotti in rete e così, quando un membro del loro governo ha fatto un appello in tv, nei giorni successivi sono arrivate centinaia di migliaia di traduzioni». L'Italia è nella top ten degli utenti di Translate, che non è esattamente un punto d'onore linguistico (con tutto il rispetto per i compagni connazionali di Borat). Turovsky pesca una possibile spiegazione dalla sua autobiografia: in Russia sottotitolano i film, in Israele no, e lì tutti parlano inglese. Abbiamo un altro record folkloristico, che condividiamo coi francesi: tradurre frammenti di discorsi amorosi, i cui picchi sono stati registrati intorno a San Valentino. Ci piace farci riconoscere. E ci riusciamo anche algoritmicamente.
CHI CORREGGE L’AUTOCORRETTORE?
Una decina di anni fa, invece, mi ero occupato dei limiti dell’autocorrettore:
Un autocorrettore ci inguaierà. Se non l'ha già fatto. Non necessariamente com'è successo a Hall County, in Georgia, un paio di anni fa, quando la polizia sigillò per un paio d'ore una scuola dopo che uno studente aveva ricevuto un sms all'apparenza minaccioso ("gunman be at west hall today"). Peccato che l'"uomo armato" (gunman) era solo un "sarò" (gunna, in slang) automaticamente riscritto dal telefonino del mittente. Basta una consonante spostata e una aggiunta per far arrivare gli Swat team. Ma l'ordinaria Babele digitale rigurgita di aneddoti meno bellicosi. Al punto che, a quasi un quarto di secolo dalla sua invenzione, Apple sta per introdurre un correttore che corregge l'autocorrettore e che consentirà di mondare gli errori automatici anche dopo aver pigiato sul tasto "invia". Un salvavita in zona Cesarini contro il rovinoso paternalismo dell'algoritmo. Che tuttavia ci aiuta, e sempre più dovrà farlo, in un'èra in cui si va su internet (e si digita) più da smartphone e tablet che da pc. Odi et amo, quindi. Situazione ingarbugliata.
Tutto comincia con un matematico di Harvard di nome Dean Hachamovitch che nei primi anni '90 è nella squadra di Microsoft che lavora a Word. Sono anni seminali, con la fazione estetizzante (che punta alla bellezza dei font, per dire) e quella funzionalista, di cui fa parte il Nostro, interessata solo a rendere più efficiente il programma. Scrive un programmino che, con una semplice combinazione di tasti, sostituisce una parola sbagliata con quella giusta memorizzata in un glossario (tra gli errori più frequenti teh invece di the). Impiega un anno per rimpinguare la lista dei refusi più frequenti, comprese le parole per metà scritte accidentalmente in maiuscolo. Brevetta l'autocorrettore. Lo usa per qualche scherzo. Una volta manomette il pc del suo capo per far sì che quando digita Dean venga invece fuori il nome del suo collega Mike. Un'altra, invitato a parlare a scuola della figlia, fa in modo che quando alcuni dei genitori presenti provano a scrivere il nome della ragazzina questo viene sostituito con "La piccola principessa" (gli hacker posso avere un senso dell'umorismo molto tenero). Ma i limiti involontari dell'autocorrezione si manifestano quando, racconta Wired, un tale Bill Vignola scrive una mail esasperata a Bill Gates. Word corregge il suo nome in Vaginal e a lui non fa per niente ridere. Come a Goldman Sachs non piace affatto essere ribattezzata dal software Goddamn Sachs, fottuta Sachs, neanche ci avesse messo le mani qualche nerd di Occupy Wall Street.
Con gli anni i correttori sono diventati più intelligenti, ma gli errori non meno fenomenali. Il loro funzionamento si affida a un algoritmo probabilistico che segue il modello del cosiddetto noisy channel, concetto chiave della teoria dell'informazione. Per il quale il messaggio, all'origine chiaro e distinto, si intorbidisce passando attraverso un canale rumoroso che aggiunge, toglie o cambia di posto a varie lettere. Insomma, una specie di autolavaggio di dati che invece di pulire sporca. "Se scrivi koffee in un motore di ricerca" ha spiegato l'ingegnere di Google Mark Paskin al New York Times "potevi intendere la bevanda caffeinata o l'ex segretario generale dell'Onu. Ma coffee è un termine immensamente più popolare di Kofi. Anche se, statisticamente, scrivere caffè con la k è un errore assai raro. L'algoritmo tiene conto di tutte queste variabili, compreso il contesto semantico nel quale il termine si trova, e suggerisce quello giusto". Nei motori di ricerca come nell'autocorrettore, il meccanismo è lo stesso. Si tratta di una educated guess, indovinare a partire dalla conoscenza, ma pur sempre di indovinare si tratta.
La fallibilità dello strumento è ormai sancita nella cultura popolare. Ci sono siti, come Damn You Autocorrect, dedicati agli sciocchezzai partoriti dalla pedanteria spesso fuori luogo delle macchine. L'enigmista Stefano Bartezzaghi, che sa bene che cambiando l'ordine dei fattori testuali il prodotto cambia parecchio, ha una sua ricca casistica: "I miei lettori mi segnalano spesso casi di correzione automatica demenziale, del genere in medio stat virus, perché il computer non conosce virtus". Cita un disastroso caso trovato su internet in cui un figlio dice alla madre che sta uscendo dalla clinica in cui lavora (coming out of the clinic) e la madre gli risponde "Io e tuo padre lo abbiamo sempre sospettato, ma ti amiamo come prima". Il telefonino aveva corretto in coming out of the closet. Facendo scoprire al figlio che i genitori pensavano da sempre che fosse gay. Ipercorrettismo informatico che sfocia nel politicamente scorretto. Ancora Bartezzaghi: "Su tablet e smartphone scriviamo come se parlassimo, ma i nostri interlocutori ricevono lingua scritta, che resta. Io disinserisco i controllori automatici in ogni apparecchio che adotto: preferisco sbagliare da solo". Il filosofo del linguaggio Roberto Casati, direttore di ricerca al Cern francese, è meglio disposto: "Penso che l'aneddotica degli sbagli certo divertenti e a volte imbarazzanti dell'autocorrettore sia assolutamente negligibile di fronte alle migliaia di correzioni di cui beneficiamo. Bisogna ragionare statisticamente!". Che è proprio come ragiona il correttore stesso. Il che spiega l'abissale differenza qualitativa tra le correzioni fatte basandosi sui limitati glossari presenti sul telefonino o invece quelli enormi sedimentati nel cloud. Alla fine i suggerimenti della macchina sono desunti dall'intelligenza (o dalla stupidità) collettiva. Se, come pare, Volvo viene frequentissimamente corretto in vulva, vuol dire che è a quello – come Freud aveva già immaginato pre-Google – più che alle auto svedesi, che pensa la rete. Per non dire delle conseguenze cognitive di lungo periodo. Più l'autocorrettore (o auto correttore, come certi automatismi suggeriscono) diventerà affidabile, più gli delegheremo la nostra ortografia. È già successo con la memoria e con l'orientamento. La tecnologia si ripete sempre due volte: la prima come aiutino, la seconda come rimpiazzo.
SCEGLIERE UN FRIGO COME SPORT ESTREMO
L’ultima Galapagos:
Mi si è rotto il frigorifero. Così, di colpo. Sembrava stare benissimo, di tedesca e sana costituzione, quando il frigo ha cominciato a diventare tiepido e il congelatore artico. Mi piace pensare, sicuramente sbagliando, che non ha retto al caldo assassino di questi giorni. Quindi la prima reazione, da consumista efferato, è stata di comprarne un altro su Amazon dove, con 20 euro, ti smontano il vecchio e ti montano il nuovo. Però qualcuno mi ha ricordato il mantra ambientalista delle 5R (refuse reduce reuse repurpose recycle) e di colpo mi sono sentito un boomer texano. Così ho cancellato l'ordine e chiamato un tecnico. Anzi, sono andato da un tecnico, spiegandogli per filo e per segno (dopo aver studiato su vari tutorial) cosa sembrava non andare. Lui ha ascoltato per poi concludere: va visto. Quindi è venuto, ha toccato la serpentina del condensatore e ha concluso – in 2 minuti netti – che andava buttato. Io nel frattempo ho buttato 50 euro (mai ascoltare gli amici ambientalisti, sempre preferire l'amico romeno del ramo: "garanzia, allora tecnico; no garanzia, allora negozio"). Nel frattempo i dubbi si erano moltiplicati perché le classi energetiche sono cambiate e la vecchia A+ dovrebbe corrispondere all'attuale E. Vale la pena spendere 200 euro in più per prendere una classe C? Boh. E poi la rumorosità: 33 db corrispondono a quale situazione, esattamente? E quanto vale l'avere o non avere un digital inverter? Incredibilmente non c'è, almeno non l'ho trovato, un bel sito che permetta di comparare tutte queste variabili. So solo che, sul fronte più psicologico, mi ha colpito che uno dei tre finalisti ostentasse uno sconto del 58% rispetto al prezzo originario. Che affarone, pensi. Però esiste Keepa.com che permette di seguire l'andamento dei prezzi delle merci sui principali siti di commercio elettronico. Non era mai costato 1000 euro il frigo che ora vendono a 450. Alla fine ho preso il più simile a quello che mi ha appena lasciato. Il same old same old mi rasserena assai più della passiflora.
Epilogo
Il caldo agostano ci distrae ma a Gaza la strage continua indisturbata.