Tuesday  8  Apr Sijevim koracima

Kineska akademija za VI lansirala model koji objedinjuje video, sliku i tekst

2024-10-22 16:03:42
Share:

(KMG) - Pekinška akademija za veštačku inteligenciju je u ponedeljak objavila Emu3, multimodalni svetski model koji objedinjuje razumevanje i generisanje modaliteta teksta, slike i videa kroz predviđanje sledećeg tokena. 

Emu3 uspešno potvrđuje da predviđanje sledećeg tokena može poslužiti kao moćna paradigma za multimodalne modele, skaliranje izvan jezičkih modela i pružanje najsavremenijih performansi u multimodalnim zadacima, rekao je Vang Džuongijuen, direktor Akademije, u saopštenju za javnost.

„Tokenizacijom slika, teksta i video-zapisa u diskretni prostor, obučavamo jedan transformator od nule na mešavini multimodalnih sekvenci“, rekao je Vang, dodajući da Emu3 u potpunosti eliminiše potrebu za difuzijom ili kompozicionim pristupima.

Prema akademiji, programeri su primetili da se pojavila nova prilika za istraživanje multimodalnosti kroz ujedinjenu arhitekturu, eliminišući potrebu za kombinovanjem složenih modela difuzije sa velikim jezičkim modelima.

Priredio: Radosav Berbatović

Our Privacy Statement & Cookie Policy

By continuing to browse our site you agree to our use of cookies, revised Privacy Policy. You can change your cookie settings through your browser.
I agree