Latam-GPT: el model d'IA que vol donar veu pròpia a Amèrica Llatina

  • Latam-GPT és el primer gran model de llenguatge obert dissenyat des de i per a Amèrica Llatina i el Carib.
  • El projecte està liderat per CENIA a Xile, amb el suport de CAF, AWS, Data Observatory i més de 60 institucions de 15 països.
  • Es va entrenar sobre Flama 3.1 (70.000 milions de paràmetres) amb un corpus regional d'uns 300.000 milions de tokens en espanyol, portuguès i llengües locals.
  • El seu objectiu és reduir biaixos, reforçar la sobirania digital i servir com a bé públic per a educació, gestió pública i innovació.

Model d'intel·ligència artificial Latam-GPT

Xile ha presentat oficialment Latam-GPT, el primer gran model de llenguatge obert concebut específicament per a Amèrica Llatina i el Carib. La iniciativa aspira que la regió deixi de ser una simple usuària de sistemes creats a altres continents i passi a ocupar un lloc propi en el desenvolupament de la intel·ligència artificial.

Aquest projecte neix amb una vocació clara de sobirania tecnològica i cultural: dotar governs, universitats, empreses i organitzacions socials d'una base d'IA entrenada amb dades, idiomes i contextos llatinoamericans, reduint els biaixos i estereotips associats a models construïts principalment amb informació en anglès i des de l'anomenat Nord Global.

Un model de llenguatge fet des de la regió per a la regió

Impulsat des de Santiago de Xile, Latam-GPT es defineix com un gran model de llenguatge de codi obert dissenyat “des i per” Amèrica Llatina i el Carib. No es planteja com un simple chatbot comercial, sinó com una enorme base de coneixement on es recolzaran aplicacions, assistents i eines especialitzades adaptades a les realitats locals.

El lideratge va a càrrec del Centre Nacional d'Intel·ligència Artificial (CENIA), una corporació xilena de caràcter privat però amb finançament públic. Al seu voltant s'hi ha articulat una xarxa regional que inclou universitats, centres de recerca, fundacions, biblioteques, organismes públics i entitats de la societat civil de països com Xile, Brasil, Mèxic, Colòmbia, Perú, Equador, Uruguai, Argentina, Costa Rica, Panamà o la República Dominicana.

Durant l'acte de llançament, el president xilè Gabriel Boric va subratllar el to polític i estratègic del projecte, en afirmar que amb Latam-GPT "la regió s'asseu a la taula de l'economia digital del futur i deixa de ser únicament el menú". El missatge apunta que la IA deixa de ser un producte importat per convertir-se en un camp on l'Amèrica Llatina vol fixar les regles pròpies.

En la mateixa línia, el ministre de Ciència xilè, Aldo Valle, va remarcar que la regió no es pot limitar a consumir tecnologies desenvolupades foraperquè això arrisca la pèrdua de tradicions, llengües i formes de pensar que no queden ben representades en models globals.

Presentació de Latam-GPT a Xile

Dades, idiomes i corpus regional: respondre des de lexperiència llatinoamericana

Una de les claus de Latam-GPT està en el seu entrenament. Els models comercials predominants es basen majoritàriament en dades en anglès i contextos europeus o nord-americans. Estimacions esmentades pel Banc de Desenvolupament d'Amèrica Llatina i el Carib (CAF) apunten que l'espanyol i el portuguès a penes suposen al voltant del 4% i el 2% del material utilitzat en molts sistemes actuals.

Davant d'aquesta bretxa, l'equip de CENIA i els seus socis van aplegar un corpus específic per a la regió, conegut com Latam-GPT Corpus. Es tracta d'un repositori d'uns 300.000 milions de tokens -equivalents a desenes de milers de milions de paraules- obtinguts sota permisos i llicències explícites, curats per eliminar dades sensibles, continguts tòxics i desinformació.

Aquest conjunt inclou textos de humanitats, ciències socials, salut, educació, polítiques públiques, economia, medi ambient, arts i pobles indígenes, amb un èmfasi marcat en material en espanyol i portuguès. La intenció és que el model sigui capaç de manejar no només l'idioma estàndard, sinó també girs, varietats regionals i maneres de parlar pròpies dels diferents països.

A la seva primera fase, Latam-GPT se centra en espanyol i portuguès, encara que l'objectiu a mitjà termini és incorporar llengües indígenes i altres idiomes presents a Amèrica Llatina. Els impulsors consideren que aquesta diversitat lingüística és part essencial de la identitat que volen preservar a l'entorn digital.

Durant les demostracions del llançament, es van mostrar exemples de com els models globals descriuen amb gran detall batalles europees o episodis de la història nord-americana, però ofereixen respostes superficials o errònies sobre fites clau de la independència llatinoamericana. Latam-GPT pretén corregir precisament aquest tipus de desajustos.

Arquitectura tècnica: Truca 3.1 i 70.000 milions de paràmetres

Des del punt de vista tècnic, Latam-GPT es construeix sobre l'arquitectura Llama 3.1, amb 70.000 milions de paràmetres. Això ho situa a la mateixa lliga de mida que alguns dels models de llenguatge més avançats disponibles de forma oberta, cosa que li permet afrontar tasques complexes de comprensió i generació de text.

El procés de desenvolupament ha seguit les fases habituals daquest tipus de sistemes: recopilació i curació de dades, preentrenament del model base i una etapa posterior d'ajust fi, incloent benchmarks adaptats al context llatinoamericà i documentació específica sobre ètica i governança.

Per suportar aquest esforç, l'equip va recórrer inicialment a la infraestructura al núvol d'Amazon Web Services (AWS). Representants de la companyia van explicar que es va optimitzar l'ús de recursos per reduir significativament els temps d'entrenament, passant d'unes tres setmanes previstes al voltant de nou dies efectius.

El projecte compta a més amb el suport tecnològic del Data Observatory, que aporta experiència en processament de grans volums de dades i operació d'infraestructures crítiques. La combinació de núvol i supercòmput regional es considera clau perquè la regió pugui mantenir i evolucionar el model sense dependre del tot d'infraestructures externes.

Si bé el pressupost de Latam-GPT està molt per sota del que manegen els gegants de la indústria, els responsables subratllen que la clau del projecte no és competir de tu a tu amb els models més grans, sinó construir una cosa ajustada a les necessitats i recursos llatinoamericans, amb focus en la rellevància cultural més que a l'escala bruta.

Finançament, aliances i governança compartida

El projecte s'ha aixecat amb una barreja de finançament públic, suport multilateral i aportacions de socis tecnològics. Una part central del pressupost procedeix del Banc de Desenvolupament d'Amèrica Llatina i el Carib (CAF), que veu a Latam-GPT un pas concret cap a una sobirania digital més gran i capacitat pròpia en intel·ligència artificial.

CAF ha insistit que, en un context en què la IA redefineix la productivitat i el funcionament de les economies, Amèrica Llatina necessita infraestructures pròpies de còmput, dades i connectivitat. Latam-GPT encaixa en aquest full de ruta com un bé públic compartit que pot ser aprofitat per múltiples països i sectors.

A més de CAF i AWS, l'ecosistema inclou Data Observatory, organismes internacionals, ministeris de ciència i tecnologia, agències digitals, universitats, laboratoris i empreses tecnològiques de més de 15 països. En total, més de 100 professionals i més de 60 institucions han participat a la construcció del model 1.0.

En el pla polític, diversos governs de la regió –entre ells Brasil, Mèxic, Colòmbia, Perú, Costa Rica o Panamà– han signat acords formals per integrar-se a la iniciativa o utilitzar el model com a infraestructura compartida. En altres casos, com el d'Argentina, la implicació arriba sobretot des d'universitats i organitzacions civils, sense un compromís governamental equivalent.

Els impulsors subratllen que Latam-GPT s'ha organitzat mitjançant una governança publicoprivada que cerca equilibrar el paper de l'Estat, l'acadèmia i el sector privat, amb normes específiques sobre ètica, transparència i gestió de dades, i amb la intenció que el projecte quedi per sobre dels cicles polítics de cada país.

Un bé públic de codi obert per a educació, gestió pública i innovació

Una de les diferències més notables respecte a altres models és el seu plantejament com infraestructura oberta i bé públic. A diferència de les solucions comercials tancades, Latam-GPT s'ofereix com a base perquè universitats, administracions, startups i comunitats desenvolupin les seves aplicacions, sobre un model documentat i traçable.

El director de CENIA, Álvaro Soto, insisteix que Latam-GPT no és un fi en si mateix, sinó una plataforma sobre la qual es poden construir models derivats i eines específiques. La idea és facilitar materials, documentació i recursos que permetin a equips regionals iterar i adaptar-ho a diferents necessitats.

Entre els usos previstos destaquen camps com la educació -des d'assistents d'aprenentatge fins a sistemes de suport docent adaptats a currículums locals-, la gestió pública -per millorar l'atenció ciutadana, la redacció de documents o l'anàlisi de polítiques- i la innovació productiva en sectors com ara salut, logística o serveis.

Ja s'han anunciat col·laboracions concretes, com la de l'empresa xilena Digeu, que planeja desenvolupar robots conversacionals per atenció al client d'aerolínies i companyies de comerç, aprofitant la capacitat del model per entendre argot, modismes i ritmes de parla propis de cada país.

Sobre la taula també apareixen exemples potencials a hospitals amb problemes logístics, optimització de recursos mèdics, automatització de tràmits i suport a petites i mitjanes empreses que vulguin introduir IA sense dependre del tot de proveïdors estrangers.

Biaixos, identitat i sobirania digital com a eix del projecte

Un dels arguments recurrents a la presentació de Latam-GPT és la crítica als biaixos culturals i geogràfics presents en molts models globals. La majoria s'entrenen amb informació generada als Estats Units i Europa i, com a conseqüència, tendeixen a reproduir estereotips o llacunes de coneixement sobre altres regions.

Durant el llançament es van posar exemples concrets: models capaços de detallar minuciosament esdeveniments de la història europea, però que ofereixen respostes pobres o fins i tot incorrectes en parlar de processos històrics llatinoamericans. Per als promotors de Latam-GPT, aquesta asimetria es tradueix en una invisibilitat parcial de la regió a l'espai digital.

El nou model intenta respondre a aquest problema integrant des del principi dades i contextos propis d'Amèrica Llatina, en lloc d'afegir pegats posteriors. Aquesta aproximació, sostenen, no només millora la precisió de les respostes, sinó que reconeix el valor de llengües, tradicions i memòries històriques que sovint queden en segon pla.

El president Boric va lligar directament aquest esforç amb la idea de defensar la identitat llatinoamericana a l'entorn digital. En les seves paraules, construir un generador de llenguatge propi no és una raresa tècnica, sinó una manera de garantir que les veus de la regió segueixin presents quan la IA es converteixi en la principal capa de mediació del llenguatge.

Organismes com CAF i actors de l'ecosistema tecnològic regional consideren que projectes d'aquest tipus també poden servir com a agenda d'integració regional, oferint un objectiu comú on compartir infraestructures, talent i estàndards ètics en lloc de competir país per país.

Infraestructura i dades de Latam-GPT

Limitacions, reptes i possibles impactes al mercat d'IA

Tot i l'entusiasme institucional i mediàtic, els mateixos responsables reconeixen que Latam-GPT no pretén rivalitzar directament amb els models comercials més grans del món. Experts acadèmics assenyalen que la diferència pressupostària i d'infraestructura amb gegants tecnològics que inverteixen centenars o milers de milions de dòlars és difícil de salvar.

En lloc de centrar el debat en la competència directa, el projecte es planteja com una alternativa complementària amb fort arrelament regional, que pugui conviure amb altres models i fins i tot integrar-se en arquitectures híbrides on es combinin capacitats generals i especialització local.

Un dels reptes a curt termini serà mantenir i actualitzar el corpus de dades per reflectir canvis socials, legislatius o culturals, evitant que el model es quedi desfasat. També serà clau assegurar que l'accés obert no es tradueixi en usos irresponsables, per a això s'estan definint polítiques d'ús i restriccions específiques per a grans empreses comercials.

En paral·lel, governs i empreses tecnològiques insisteixen en la importància de formar talent local capaç de comprendre i treballar amb aquests sistemes. Sense equips especialitzats a la regió, adverteixen, amb la disponibilitat d'un model obert no n'hi haurà prou per generar l'impacte buscat en productivitat i desenvolupament.

Amb tot, les projeccions inicials apunten que eines basades en Latam-GPT podrien millorar la productivitat duna part significativa de la força laboral llatinoamericana, especialment en tasques intensives en text, atenció ciutadana, anàlisi documental i generació de continguts.

La posada en marxa de Latam-GPT situa Xile i el conjunt d'Amèrica Llatina en una posició diferent dins del mapa global de la intel·ligència artificial. Més enllà dels números de paràmetres o del pressupost invertit, el projecte marca un precedent: un model de llenguatge de gran escala, obert i entrenat de manera col·laborativa a partir de dades llatinoamericanes, que aspira a ser eina comuna per a educació, gestió pública, empreses i societat civil, ia reforçar l'autonomia digital de la regió en un moment en què la IA comença a intervenir gairebé totes les facetes.

Apple Intelligence
Article relacionat:
Apple Intelligence: situació actual, funcions i reptes per al futur

Segueix-nos a Google News