• banner

OpenAI Point E: Vytvorte 3D mračno bodov z komplexných priebehov v priebehu niekoľkých minút na jednom GPU

V novom článku Point-E: Systém na generovanie 3D mračien bodov z komplexných signálov, výskumný tím OpenAI predstavuje Point E, systém podmienenej syntézy textu 3D mračna bodov, ktorý využíva modely difúzie na vytváranie rôznych a zložitých 3D tvarov poháňaných zložitým textom. narážky.za pár minút na jednom GPU.
Úžasný výkon dnešných najmodernejších modelov generovania obrázkov podnietil výskum v oblasti generovania 3D textových objektov.Na rozdiel od 2D modelov, ktoré dokážu generovať výstup v priebehu niekoľkých minút alebo dokonca sekúnd, modely na generovanie objektov zvyčajne vyžadujú niekoľko hodín práce GPU na vytvorenie jednej vzorky.
V novom článku Point-E: Systém na generovanie 3D mračien bodov z komplexných signálov výskumný tím OpenAI predstavuje Point·E, systém textovej podmienenej syntézy pre 3D mračná bodov.Tento nový prístup využíva model šírenia na vytvorenie rôznych a zložitých 3D tvarov zo zložitých textových signálov za minútu alebo dve na jednom GPU.
Tím sa zameriava na výzvu prevodu textu do 3D, čo je rozhodujúce pre demokratizáciu tvorby 3D obsahu pre aplikácie v reálnom svete, od virtuálnej reality a hier až po priemyselný dizajn.Existujúce metódy na konverziu textu do 3D spadajú do dvoch kategórií, z ktorých každá má svoje nevýhody: 1) generatívne modely možno použiť na efektívne generovanie vzoriek, ale nedokážu efektívne škálovať pre rôznorodé a zložité textové signály;2) vopred trénovaný textovo-obrázkový model na spracovanie zložitých a rôznorodých textových podnetov, ale tento prístup je náročný na výpočty a model sa môže ľahko zaseknúť v lokálnych minimách, ktoré nezodpovedajú zmysluplným alebo koherentným 3D objektom.
Preto tím preskúmal alternatívny prístup, ktorého cieľom je skombinovať silné stránky vyššie uvedených dvoch prístupov, pomocou modelu difúzie textu do obrázka trénovaného na veľkej sade párov text-obrázok (čo mu umožňuje zvládnuť rôznorodé a zložité signály) a 3D model difúzie obrazu natrénovaný na menšom súbore párov text-obrázok.súbor údajov o páre obraz-3D.Model text-to-image najprv navzorkuje vstupný obrázok, aby sa vytvorila jediná syntetická reprezentácia, a model image-to-3D vytvorí 3D mračno bodov na základe vybratého obrázku.
Generatívny zásobník príkazu je založený na nedávno navrhnutých generatívnych rámcoch na podmienené generovanie obrázkov z textu (Sohl-Dickstein a kol., 2015; Song & Ermon, 2020b; Ho a kol., 2020).Používajú model GLIDE s 3 miliardami parametrov GLIDE (Nichol et al., 2021), doladený na vykreslených 3D modeloch, ako model transformácie textu na obrázok a sadu modelov difúzie, ktoré generujú oblaky bodov RGB. transformačný model.obrázky k obrázku.3D modely.
Zatiaľ čo predchádzajúca práca používala 3D architektúry na spracovanie mračien bodov, výskumníci použili jednoduchý model založený na prevodníku (Vaswani et al., 2017) na zlepšenie účinnosti.Vo svojej architektúre modelu difúzie sa obrázky mračna bodov najskôr vložia do vopred pripraveného modelu ViT-L/14 CLIP a potom sa výstupné siete privedú do konvertora ako značky.
Vo svojej empirickej štúdii tím porovnal navrhovanú metódu Point·E s inými generatívnymi 3D modelmi na vyhodnocovanie signálov z detekcie objektov COCO, segmentácie a súborov údajov podpisov.Výsledky potvrdzujú, že Point·E je schopný generovať rôznorodé a zložité 3D tvary z komplexných textových signálov a zrýchliť čas odvodenia o jeden až dva rády.Tím dúfa, že ich práca bude inšpiráciou pre ďalší výskum syntézy 3D textu.
Predtrénovaný model šírenia mračna bodov a hodnotiaci kód sú k dispozícii na GitHub projektu.Document Point-E: Systém na vytváranie 3D mračien bodov zo zložitých indícií je na arXiv.
Vieme, že nechcete nechať ujsť žiadnu novinku ani vedecký objav.Prihláste sa na odber nášho obľúbeného týždenníka Synced Global AI Weekly a získajte týždenné aktualizácie AI.


Čas odoslania: 28. decembra 2022