(KMG) - Pekinška akademija za veštačku inteligenciju je u ponedeljak objavila Emu3, multimodalni svetski model koji objedinjuje razumevanje i generisanje modaliteta teksta, slike i videa kroz predviđanje sledećeg tokena.
Emu3 uspešno potvrđuje da predviđanje sledećeg tokena može poslužiti kao moćna paradigma za multimodalne modele, skaliranje izvan jezičkih modela i pružanje najsavremenijih performansi u multimodalnim zadacima, rekao je Vang Džuongijuen, direktor Akademije, u saopštenju za javnost.
„Tokenizacijom slika, teksta i video-zapisa u diskretni prostor, obučavamo jedan transformator od nule na mešavini multimodalnih sekvenci“, rekao je Vang, dodajući da Emu3 u potpunosti eliminiše potrebu za difuzijom ili kompozicionim pristupima.
Prema akademiji, programeri su primetili da se pojavila nova prilika za istraživanje multimodalnosti kroz ujedinjenu arhitekturu, eliminišući potrebu za kombinovanjem složenih modela difuzije sa velikim jezičkim modelima.
Priredio: Radosav Berbatović