Google ha començat a mostrar de forma pràctica fins on pot arribar la nova generació de models de món amb Genie 3. A través de Project Genie, la companyia permet que usuaris seleccionats creïn i explorin entorns interactius generats per intel·ligència artificial a partir de descripcions en llenguatge natural i algunes imatges de referència.
Aquest moviment s'emmarca en l'aposta de Google DeepMind per sistemes capaços de simular dinàmiques complexes del món real, més enllà dels clàssics agents que dominen jocs tancats com els escacs o el Go. Tot i que, per ara, l'accés està restringit a subscriptors de pagament als Estats Units, el projecte apunta a un futur en què dissenyar mons virtuals podria ser tan senzill com escriure allò que un té al cap.
Genie 3: el model de món que és darrere de l'experiment
Al cor de Project Genie es troba Genie 3, un model de propòsit general desenvolupat per Google DeepMind. A diferència d'altres sistemes més estàtics, la seva funció no és només dibuixar paisatges bonics, sinó predir com canvia un entorn quan l'usuari es mou, interactua o altera elements dins seu.
Aquest tipus darquitectura es coneix com model de món: un sistema d'IA capaç d'anticipar l'evolució d'un escenari i l'impacte de les accions en aquest entorn. Genie 3 genera el camí pel qual avances en temps real, quadre a quadre, mantenint una coherència espacial i visual que va més enllà d'una simple animació o d'una passejada per una escena 3D congelada.
Per aconseguir-ho, el model utilitza generació autoregressiva, una tècnica amb què construeix el món pas a pas, recordant el que ja ha creat. Si el personatge es gira o torna sobre els seus passos, la IA “s'acorda” del que hi havia abans i ho reconstrueix de manera consistent, una cosa clau si es vol simular espais amplis i creïbles, ja sigui un entorn urbà, un paisatge històric o un món completament fictici.
Com funciona Project Genie: del text al món jugable
Project Genie es presenta com una aplicació accessible des del navegador, a l'estil d'altres serveis de Google basats en IA. No cal instal·lar res ni tenir coneixements tècnics avançats: la interacció es redueix, en essència, a descriure allò que es vol aconseguir i deixar que el sistema faci la resta.
El procés arrenca amb una fase del que Google anomena “esbossat de mons”. L'usuari respon a preguntes senzilles del tipus “Com és el teu món?” i aporta detalls sobre l'escenari (paisatge, clima, estil gràfic, atmosfera) i sobre la manera com prefereix explorar-lo: caminant, volant, conduint, muntant a cavall o altres modes de desplaçament. També s'hi indica la perspectiva desitjada, ja sigui en primera o en tercera persona.

A continuació, cal definir el personatge: pot ser una persona, un animal, un objecte o una altra entitat més abstracta. Amb aquesta informació entra en joc Nano Banana Pro, un altre model de Google que genera una imatge estàtica de vista prèvia. Aquesta mena de foto inicial serveix per comprovar si el món s'ajusta al que l'usuari té al cap abans de llançar-se a l'exploració interactiva.
Si el resultat no convenç, és possible retocar el prompt, canviar elements de l'escena, modificar l'aparença de l'avatar o ajustar l'estil visual. L'usuari pot pujar les pròpies imatges, utilitzar material generat per altres IAs o partir de fotografies reals, i el sistema combina totes aquestes dades per afinar l'entorn que després es transformarà en una experiència navegable.
Exploració en temps real: mons que reaccionen als teus moviments
Un cop definit el món i acceptada la vista prèvia, Project Genie passa al mode interactiu. Aquí és on Genie 3 desplega la capacitat de simulació: en avançar per l'escenari, el model genera en temps real allò que hi ha davant del jugador, tenint en compte el que ja ha creat i les regles físiques aproximades de l'entorn.
L'usuari es mou mitjançant controls habituals en videojocs de PC, com ara les tecles W, A, S i D per desplaçar-se, i pot ajustar la càmera canviar l'angle de visió. L'experiència s'executa a una resolució de fins a 720p i amb una velocitat d'interacció al voltant dels 20-24 fotogrames per segon, suficient per oferir una sensació de fluïdesa raonable en aquesta fase experimental.
Exemples proposats per Google inclouen, per exemple, un oceà d'onades gegants vist des de la punta d'una taula de surf, o un escenari d'alta muntanya amb neu deformable en què el jugador encarna un alpinista amb moviment omnidireccional. En tots dos casos, l'interès no està només en el paisatge inicial, sinó com l'entorn respon a les accions, als canvis de direcció o als salts del personatge.
Remesclar, compartir i experimentar amb altres mons
Project Genie no es limita a començar des de zero cada cop. Una de les seves funcions més cridaneres és la capacitat de “remesclar mons” ja existents. Els usuaris poden explorar escenaris creats prèviament, bé per ells mateixos, bé per altres persones, o seleccionats en una galeria curada, i fer-los servir com a base per generar noves versions.
Aquesta opció de remescla permet aplicar noves instruccions sobre un món ja generat, alterant el seu estil, afegint elements, canviant la forma en què s'explora o modificant per complet el tipus de personatge. A més, hi ha una manera de generació aleatòria, l'anomenat “randomizer”, que proposa entorns amb característiques impredictibles per a qui busqui inspiració o simplement vulgui experimentar.
En acabar una sessió, el sistema ofereix la possibilitat de descarregar vídeos del recorregut, una manera senzilla de compartir les creacions en xarxes socials, en plataformes de vídeo o en contextos professionals, com estudis d'animació, disseny de nivells o laboratoris de recerca que vulguin documentar les proves.
Limitacions tècniques i estat actual del projecte
Malgrat tot el seu potencial, Google insisteix que Project Genie és, per ara, un prototip de recerca en fase primerenca. Això es nota en diverses restriccions que el mateix laboratori detalla al bloc i als avisos d'ús.
La més clara és la limitació temporal de les sessions: cada món només es pot explorar durant un màxim de 60 segons, que és el límit de memòria visual que Genie 3 pot gestionar actualment de manera estable. Això acota la durada de les experiències, que ara com ara s'assemblen més a microaventures o escenes breus que a videojocs complets.
A més, Google adverteix que els escenaris no són completament fotorealistes ni segueixen sempre al peu de la lletra les indicacions de lusuari. La física també pot resultar aproximada: certs comportaments, col·lisions o moviments poden no respectar en tot moment les lleis del món real, cosa esperable en un sistema que encara està en desenvolupament.
Un altre punt assenyalat és el control dels personatges, que poden mostrar certa latència o manca de precisió en la resposta a les ordres de lusuari. Encara que la taxa de fotogrames és raonable, petites demores al control es noten, especialment per als que vénen acostumats a videojocs comercials molt polits.
Finalment, algunes capacitats avançades de Genie 3 anunciades en demostracions anteriors encara no són presents en aquesta versió. Entre elles, els esdeveniments desencadenables que modifiquen el món a mesura que s'explora, una característica que podria donar peu a dinàmiques molt més riques, però que de moment segueix al full de ruta.
Accés restringit i plans dexpansió geogràfica
En aquesta primera etapa, l'accés a Project Genie és limitat a usuaris majors de 18 anys subscrits a Google AI Ultra als Estats Units. Aquesta subscripció, amb una elevada quota mensual, deixa clar que l'experiment s'adreça inicialment a un públic reduït i amb un perfil més aviat professional o molt entusiasta.
Google ha assenyalat la seva intenció de ampliar la disponibilitat a altres territoris una vegada que el sistema sigui més robust i hagi recollit prou informació sobre el seu ús real. Encara que no s'han concretat dates ni països, cal esperar que, si el prototip avança, s'acabi obrint pas cap a altres mercats clau, entre ells la Unió Europea i, dins d'ella, Espanya.
Aquesta expansió, en qualsevol cas, dependrà no només de qüestions tècniques, sinó també de qüestions requisits regulatoris i de protecció de dades que són especialment estrictes a Europa. La mateixa Google insisteix que anirà pas a pas i que no dubta a tancar projectes que no encaixin amb els seus objectius, cosa que ja s'ha vist amb altres serveis de la companyia.
Un laboratori per a l'AGI i la creació digital
Més enllà de l'impacte immediat en videojocs o entreteniment, Genie 3 i Project Genie encaixen a l'estratègia de Google DeepMind per avançar cap a sistemes d'intel·ligència artificial més generals. Els models de món són especialment valuosos per entrenar agents que necessitin comprendre contextos complexos, predir conseqüències i actuar de manera coherent en entorns canviants.
Les aplicacions potencials van des de la robòtica i la simulació d'escenaris físics fins al modelatge d'animacions, la recreació de localitzacions històriques o l'exploració de mons ficticis al cinema, la televisió i els continguts interactius. Poder iterar ràpidament sobre entorns generats per IA redueix temps i costos, cosa que podria interessar tant a estudis petits com a grans productores europees.
Alhora, obrir un prototip d'aquest tipus a usuaris externs funciona com un banc de proves a gran escala. Les interaccions, els errors i les idees que aportin els participants ajudaran a ajustar el model, a identificar casos d'ús que potser ja no s'havien previst avaluar riscos, tant tècnics com ètics, associats a aquestes simulacions cada cop més realistes.
Amb Genie 3 i Project Genie, Google està temptejant un terreny on la creació de mons virtuals es torna molt més accessible, encara que encara amb límits clars en qualitat visual, control i durada de les experiències; si l'experiment madura i supera la fase d'accés restringit, es podria convertir en una eina rellevant també per a usuaris i empreses d'Espanya i de la resta d'Europa interessats en noves formes de disseny interactiu i simulació amb IA.