Kineska akademija za VI lansirala model koji objedinjuje video, sliku i tekst

(KMG) - Pekinška akademija za veštačku inteligenciju je u ponedeljak objavila Emu3, multimodalni svetski model koji objedinjuje razumevanje i generisanje modaliteta teksta, slike i videa kroz predviđanje sledećeg tokena.

Emu3 uspešno potvrđuje da predviđanje sledećeg tokena može poslužiti kao moćna paradigma za multimodalne modele, skaliranje izvan jezičkih modela i pružanje najsavremenijih performansi u multimodalnim zadacima, rekao je Vang Džuongijuen, direktor Akademije, u saopštenju za javnost.

„Tokenizacijom slika, teksta i video-zapisa u diskretni prostor, obučavamo jedan transformator od nule na mešavini multimodalnih sekvenci“, rekao je Vang, dodajući da Emu3 u potpunosti eliminiše potrebu za difuzijom ili kompozicionim pristupima.

Prema akademiji, programeri su primetili da se pojavila nova prilika za istraživanje multimodalnosti kroz ujedinjenu arhitekturu, eliminišući potrebu za kombinovanjem složenih modela difuzije sa velikim jezičkim modelima.

Priredio: Radosav Berbatović

Kineska akademija za VI lansirala model koji objedinjuje video, sliku i tekst

Our Privacy Statement & Cookie Policy