Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Tencenta odsłonił”Hunyuan3D 2.0„System AI, który w ciągu kilku sekund przekształca pojedyncze obrazy lub opisy tekstowe w szczegółowe modele 3D. System zazwyczaj wymaga długiego procesu – szybkie, zautomatyzowane zadanie może zająć wykwalifikowanym wykonawcom kilka dni lub tygodni.

Podobnie jak poprzednik, nowa wersja modelu jest dostępna w obu wersjach jako projekt open source przytulanie twarzy I GitHubNatychmiastowe udostępnianie technologii programistom i badaczom na całym świecie.

„Tworzenie wysokiej jakości zasobów 3D to dla artystów czasochłonny proces, dlatego automatyczne generowanie jest długoterminowym celem badaczy” – pisze zespół badawczy firmy w artykule. Raport technicznyZmodernizowany system opiera się na fundamentach swojego poprzednika, oferując jednocześnie znaczną poprawę szybkości i jakości.

Jak Hunyuan3D 2.0 zamienia obrazy w modele 3D

Hunyuan3D 2.0 wykorzystuje dwa główne komponenty: hunyuan3d-dit Natomiast podstawowy kształt tworzy hunyuan3d-paint Dodaje szczegóły powierzchni. System najpierw tworzy wiele widoków 2D obiektu, a następnie buduje z nich kompletny model 3D. Nowy system naprowadzania zapewnia dopasowanie wszystkich widoków obiektów – rozwiązując typowy problem w modelach 3D generowanych przez sztuczną inteligencję.

„Umieściliśmy kamery na określonych wysokościach, aby uchwycić maksymalne pole widzenia każdego obiektu” – wyjaśniają naukowcy. Takie podejście, w połączeniu z metodą łączenia różnych punktów widzenia, pomaga systemowi uchwycić szczegóły, które często przeoczają inne modele, zwłaszcza nad i pod obiektami.

Diagram pokazujący, jak Hunyuan3D 2.0 przekształca pojedynczy obraz pandy w model 3D poprzez techniki propagacji wielu widoków i rekonstrukcji widoków rzadkich. (Źródło: arxiv.org)

Szybciej i dokładniej: co wyróżnia Hunyuan3D 2.0

Wyniki techniczne są imponujące. Według standardowych pomiarów branżowych, Hunyuan3D 2.0 tworzy dokładniejsze i atrakcyjniejsze wizualnie modele niż istniejące systemy. Wersja standardowa tworzy kompletny model 3D w około 25 sekund, podczas gdy mniejsza, szybsza wersja wykonuje tę pracę w zaledwie 10 sekund.

Tym, co wyróżnia Hunyuan3D 2.0, jest jego zdolność do obsługi zarówno tekstu, jak i obrazu, co czyni go bardziej wszechstronnym niż poprzednie rozwiązania. System wprowadza także innowacyjne funkcje, takie jak „adaptacyjne prowadzenie bez klasyfikatorów” i „wprowadzanie hybrydowe”, które pomagają zapewnić spójność i szczegółowość generowanych modeli 3D.

Według opublikowanych testów porównawczych Hunyuan3D 2.0 osiąga: Wynik CLIP wynoszący 0,809, przewyższając zarówno rozwiązania typu open source, jak i zastrzeżone alternatywy. Technologia ta oferuje znaczną poprawę syntezy tekstur i dokładności geometrycznej, przewyższając istniejące rozwiązania we wszystkich standardowych wskaźnikach branżowych.

Głównym osiągnięciem technologicznym systemu jest możliwość tworzenia modeli o wysokiej rozdzielczości bez konieczności stosowania ogromnej mocy obliczeniowej. Zespół opracował nowy sposób na zwiększenie szczegółowości przy jednoczesnym utrzymaniu wymagań przetwarzania – co jest częstym ograniczeniem innych systemów 3D AI.

Postęp ten ma znaczenie dla wielu branż. Twórcy gier mogą szybko tworzyć wersje testowe postaci i środowisk. Sklepy internetowe mogą pokazywać produkty w 3D. Studia filmowe mogą efektywniej podglądać efekty specjalne.

Tencent udostępnił prawie wszystkie części swoich systemów za pośrednictwem Hugging Face. Programiści mogą teraz używać kodu do tworzenia modeli 3D współpracujących ze standardowym oprogramowaniem do projektowania, dzięki czemu można go natychmiastowo wykorzystać w zastosowaniach profesjonalnych.

Chociaż technologia ta stanowi znaczący krok naprzód w zautomatyzowanym tworzeniu 3D, rodzi pytania o to, jak artyści będą pracować w przyszłości. Tencent postrzega Hunyuan3D 2.0 nie jako zamiennik ludzkich artystów, ale jako narzędzie, które radzi sobie z zadaniami technicznymi, podczas gdy twórcy skupiają się na decyzjach artystycznych.

Ponieważ treści 3D stają się coraz ważniejsze w grach, zakupach i rozrywce, narzędzia takie jak Hunyuan3D 2.0 sugerują przyszłość, w której tworzenie wirtualnych światów jest tak proste, jak ich opisywanie. Wyzwaniem na przyszłość nie będzie tworzenie modeli 3D, ale podjęcie decyzji, co z nimi zrobić.


Source link