Zrobiłem sobie Awatara AI. I Ty też możesz!

Będziesz w szoku, jak dobry wyszedł.

May 16, 2025

Bla bla bla.

Tyle osób gada o tych Awatarach AI, a przecież “jak ostatnio sprawdzałem” były raczej mizernej jakości.

Beznadziejna synchronizacja ust, nienaturalna mimika i robotczny głos.

…Takie były realia kilka miesięcy temu. A przecież wszyscy wiemy, że kilka miesięcy to, w przybliżeniu, kilka lat ś-w-i-e-t-l-n-y-c-h w świecie AI.

Odświeżyłem sobie nieco tę świadomość, kiedy natknąłem się na najnowszy model/ update/ wersję (zwał, jak zwał) narzędzia HeyGen.

A dzisiaj, krótko i przyjemnie, pokażę Wam, co dokładnie jest możliwe, żebyście zachowali pełną świadomość i bezcenną czujność w Internecie.

Rynek komercyjnych narzędzi do tworzenia Awatarów i Lip-Sync’u (synchronizacji ruchu warg), na ten moment, dzieli się między dwóch gigantów.

Hedra i HeyGen.

Na szczęście, co potwierdzają moje skromne testy, narzędzia te niespecjalnie wchodzą sobie w paradę. Każde z nich ma swoją specjalizację.

Hedra

Ich główną przewagą rynkową jest, uwaga, multimodalność i omnimodalność.

Tylko co to niby znaczy?

Multimodalność jest całkiem prosta do zrozumienia - to możliwość tworzenia zdjęć, filmów i dźwięku w jednym miejscu, w jednym interfejsie.

Omnimodalność odnosi się do ich najnowszego modelu “Character-3” i polega na łączeniu owych zdjęć, filmów i dźwięków w jednej sieci neuronowej, dzięki czemu dostajemy spójną całość. Wszystkie elementy (zdjęcia, filmy, dźwięk) są przetwarzane jako jedność (a nie oddzielne elementy), dzięki czemu otrzymujemy realne emocje, mimikę i gestykulację wygenerowanych awatarów.

Ale co to znaczy dla nas, użytkowników?

Najprościej - Hedra jest fenomenalna w tworzeniu animowanych (nierealistycznych) awatarów. Będzie Twoim sprzymierzeńcem, jeśli chcesz ożywić swoją starannie wygenerowaną postać z ChataGPT. Zdjęcia ożywają, przekazując realne emocje i żywą mimikę.

Poniżej mój przykład (z całkowicie darmowej wersji):

Głos w tym i przyszłych filmach został wygenerowany w płatnej wersji Elevenlabs, korzystając z funkcji klonowania głosu.

HeyGen

Powiem szczerze - byłem sporym sceptykiem tego narzędzia. Czułem jakąś dziwną, podświadomą niechęć. Wszystko to takie piękne, nowoczesne i pachnące. Chyba zbyt wiele razy naciąłem się na takie śliczniutkie rozwiązania AI…

A oprócz tego, zacząłem ze złej strony. Chciałem porównać je z wyżej wspomnianym poprzednikiem. Wkleiłem tę samą postać do ich najnowszego, rzekomo fenomenalnego modelu Avatar IV i dostałem… gniota.

Na szczęście, po kilku dniach i powtarzających się poleceniach wróciłem dać drugą szansę. Usiadłem wygodnie przy biurku, założyłem ulubioną czarną bluzę i wybrałem opcję “Generate an Avatar”.

Łącznie dostarczyłem marne 39 sekund swojego naturalnego nagrania. Jedyne, czego musiałem przestrzegać to: dobre oświetlenie, brak nadmiernej gestykulacji i zamykanie ust po skończonym zdaniu.

HeyGen przez kilka minut przetwarzał dostarczone materiały, a to, co dostarczył… czapki z głów, nie ma co.

Zresztą co ja Wam będę gadał. Zobaczcie sami:

Tak przynajmniej zareagowałem za pierwszym razem…

Ale emocje zdążyły opaść. Ja obejrzałem całość drugi, trzeci raz i koniec końców nie byłem aż tak zadowolony. Wiedziałem, że da się lepiej.

Przede wszystkim - głos. Jest do kitu.

Wróciłem do Elevenlabs, wykupiłem pakiet za skromne 5 dolarów. Umożliwiło mi to sklonowanie swojego głosu na podstawie 20-minutowej ścieżki dźwiękowej z ostatniego, przyjemnego materiału:

To był brakujący element układanki.

Stworzyłem nagranie po raz kolejny. Tym razem, w nieco bardziej praktycznym zastosowaniu - czytając streszczenie wiadomości o nowym agencie Google’a.

Przekopiowałem nowe nagranie do edytora, dodałem kilka zdjęć i automatyczne napisy. Gotowe.

Efekt końcowy zszokował. I nie był to szok pokroju “fajnej ciekawostki”. Był to szok, który otwiera oczy na cały szereg nowych możliwości. Szok, który ekscytuje, pobudza i niepokoi.

W ramach ‘testu’ opublikowałem materiał na YouTube, który w pół godziny zdobył… 1.5 tys. wyświetleń.

Gotowi? Oto, jak zaprezentował się mój Awatar w wersji 2.0:

…

Co myślicie? Odpowiada Wam przekazywanie wiadomości w takiej formie? Czy świadomość awatara całkowicie skreśla materiał?

Pytam, bo naprawdę jestem ciekaw Waszej opinii.

Najważniejsze newsy z minionego tygodnia:

1. Gemini wkrada się do urządzeń Google’a

Google właśnie ogłosił stopniowe wdrażanie swojego flagowego LLM’a kolejno do smartwatchy, telewizorów, samochodów, a nawet słuchawek nausznych.

2. Sakana AI robi to inaczej

Japoński startup Sakana przedstawił nowy typ modeli AI, tzw. CTM - Continuous Thought Machine. Podejmuje on decyzje podobnie jak ludzie, krok-po-kroku, rozkładając je w czasie, zamiast robić to natychmiastowo, jak wszystkie aktualne LLM’y. W przeciwieństwie do większości firm z branży, inspirują się naturą przy rozwijaniu technologii sztucznej inteligencji.

3. Papież Leon wskazuje na AI jako wyzwanie dla ludzkości

Nowo mianowany papież zwraca szczególną uwagę na technologię sztucznej inteligencji, jako potencjalne zagrożenie dla godności, sprawiedliwości oraz pracy ludzkiej.

Na końcowy uśmiech

ChatGPT, aka “zabójca” Photoshopa.

Dołącz do społeczności! Póki czas.

Lista oczekujących ciągle rośnie. Kolejność zapisów wpływa na ostateczną cenę społeczności. Więcej info na www.chlopskirozum.ai.

Wiecie, że nie proponowałbym Wam nic bez ogromnej wartości w środku :)

Wielkie dzięki za dziś.

Wszystkiego dobrego,

Mikołaj Abramczuk

Chłopski Rozum.ai

Discussion about this post