Jak jsem nedávno předpovídal brzy začnou vycházet modely pro úpravu videí. Jedním z prvních krůčku je Gen-1.
Společnost Runway AI vydala šestého února Gen-1, novou neuronovou sít určenou pro generování videa na základě textového zadání. Představte si jí jako Dall-E, Midjourney nebo Stable Diffusion, jen místo toho, aby generovala obrázky generuje rovnou videa. Jedná se o diffusion model pro generování na základě vizuálního nebo textového popisu. Model Gen-1 tedy negeneruje video jen z textového popisu. Potřebuje na vstupu vzorové video, které následně podle vašeho textového popisku či obrázku upraví.
V paperu se mluví o 4 hlavních funkcích:
1. Stylizaci – model upraví video do stylu podle vašeho obrázku
2. Storyboarding – místo zástupných objektů vygeneruje něco, co ve videu potřebujete
3. Maskování – na videu najde objekty a ty podle vašeho přání upraví
4. Renderování – vylepší základní 3d model o nové textury, světla a stíny
Model zatím bohužel není na vyzkoušení, ale můžete se zapsat na čekací listinu nebo prohlédnout ukázková videa.