Google Translate dodao je podršku za 110 novih jezika u, kako tvrtka tvrdi, najvećem pokušaju proširenja ikada. Novopodržani jezici, koji uključuju afarski, kantonski, manski, noko, pandžapski (shahmukhi), tamazight (amazigh) i tok pisin, predstavljaju preko 614 milijuna govornika ili oko 8 posto svjetske populacije.
Google koristi umjetnu inteligenciju za proširenje broja podržanih jezika u sklopu svoje “Inicijative 1000 jezika”, koja je najavljena još 2022. Tvrtka kaže da je predana izradi modela umjetne inteligencije koji će podržavati 1000 najgovornijih jezika diljem svijeta .
Kako bi dodao podršku za nove jezike, Google je upotrijebio svoj PaLM 2 veliki jezični model, koji također pokreće generativne AI značajke poput sažetka e-pošte u Gmailu i ponovnog pisanja u Google dokumentima. PaLM 2 je obučen za paralelni višejezični tekst, a prema Googleu, pomaže svojoj prevoditeljskoj službi da učinkovitije uči jezike koji su blisko povezani jedni s drugima.
We’re using AI to add over 100 new languages to Google Translate, our largest expansion ever. Learn more ↓ https://t.co/jLGouceAIG
— Google (@Google) June 27, 2024
Novododani jezici uključuju neke glavne jezike koje koristi više od 100 milijuna ljudi, dok druge govore male autohtone zajednice. Za nekoliko jezika gotovo da i nema izvornih govornika, ali Google se nada da će ovo ažuriranje pomoći u njihovim naporima za revitalizaciju.
Ovo je ujedno i najveća ekspanzija Google Translatea na afričke jezike do danas, s gotovo četvrtinom novih jezika, kao što su Afar, Fon, Kikongo, Luo, Ga, Swati, Venda i Wolof, koji dolaze s tog kontinenta.
S druge strane spektra, tu je kantonski, koji je masivan jezik s milijunima govornika u Kini, Hong Kongu i Makau. Međutim, do sada nije bio dio Google prevoditelja, unatoč tome što je bio jedan od najtraženijih jezika, jer se često preklapa s mandarinskim u pisanju, što otežava pronalaženje podataka i treniranje modela.
Ažuriranje označava najznačajnije proširenje Google prevoditelja od 2022. godine, kada je usluga dodala podršku za 24 nova jezika koristeći Zero-Shot Machine Translation. Dodao je jezike kao što su mizo, koji je materinji za oko 800.000 ljudi u sjeveroistočnoj Indiji, i lingala, koji koristi više od 45 milijuna ljudi diljem središnje Afrike. Također je uveo podršku za više autohtonih jezika Amerike, kao što su Quechua, Guarani i Aymara, kao i engleski dijalekt Sijera Leonea koji se zove Krio.









