Čínské nástroje pro generativní AI si vytvářejí unikátní místo na trhu, kombinující zábavu a praktické výhody, přičemž hrají klíčovou roli při zachování kulturního dědictví.
Mezi nimi se nachází nástroj pro převod obrázků na video s názvem Vidu-1.5, který byl představen minulý týden startupem z Pekingu. Tento nástroj je označován jako multimodální model, který podporuje konzistenci mezi více entitami.
V praxi to znamená, že AI dokáže vygenerovat video už ze tří vstupních obrázků. Například ve videu, které společnost sdílela, jsou vstupy – »muž, futuristický mecha oblek a rušná městská krajina v noci« – plynule spojeny do soudržné montáže, a to vše během pouhých 30 sekund.
Porozumění a kontrola více entit – jako je osoba, oblečení a prostředí – byla vždy největší výzvou v technologii generovaného videa na bázi AI.
Od doby, kdy ChatGPT představil svou revoluční Soru, rychle na scénu vystoupilo více čínských technologických firem, které představily nabídky s unikátními vlastnostmi. Vidu od ShengShu Technology je jedním z oblíbených příkladů.
»Podívejte se, jak je ten oblek konzistentní,« zaujal Stefano Rivera, nadšený fanda produktů AI, ve tweetu, kde se označil za »super-fandu« Vidu »od prvního dne«.
Tento nástroj pro generování obsahu (AIGC) již podnítil kreativní nadšení mezi globálními jednotlivými tvůrci, což vedlo k hravým a imaginativním klipům, jako je Leonardo DiCaprio předvádějící haute couture na módní přehlídce, Elon Musk projíždějící na elektrickém skútru v nápadné čínské bundě, a série japonských anime scén.
Největší průlom Vidu spočívá v ustanovení logických vztahů mezi několika objekty určenými uživatelem v rámci scény, uvedl Tang Jiayu, generální ředitel Shengshu Technology, v písemné odpovědi pro Xinhua.
U předchozích nástrojů pro generování videa z textu, jako je »chlapec držící dort v křišťálovém prostředí«, by výsledek vždy poskytl nesouvisející obrázky chlapce, dortu a křišťálu, něco jako otevření tajemného boxu. Nyní, díky konzistenci mezi více subjekty, mohou být identity chlapce, dortu a křišťálu zachovány během celého videa a kontinuita zůstává věrná skutečnosti, uvedl Tang.
Čínští podnikatelé jako Tang, spolu s globálními investory s významným kapitálem, rychle směřují do sektoru AIGC a rozšiřují svou tržní přítomnost v Číně.
V srpnu spustila Zhipu AI svůj produkt pro generování velkých videí Ying. Tento měsíc Kuaishou, vedoucí čínská video platforma, představila svou aplikaci KLING AI v obchodech Apple a Android, která nabízí možnost pokračování zápisu, jež umožňuje uživatelům prodloužit generovaná videa až na přibližně tři minuty.
Minulý týden se na seznamu 50 nejvíce inovativních čínských firem podle Forbes objevilo osm společností s velkými modely, což tvořilo nejvyšší podíl mezi vybranými firmami.
Čína podala a spustila více než 180 modelů pro generování AI obsahu, které mohou poskytovat služby veřejnosti, uvedl úředník z Čínské správy kyberprostoru v srpnu.
Z více než 1 300 globálních modelů velkých jazykových modelů (LLM) Čína tvoří více než 30 procent, což ji činí druhým největším přispěvatelem po Spojených státech, podle bílého knihy o globální digitální ekonomice zveřejněného v červenci Čínskou akademií informačních a komunikačních technologií.
Generativní AI by měla přidat odhadovaných 7 bilionů amerických dolarů do globální ekonomiky, přičemž Čína by měla přispět přibližně třetinou této částky, což představuje přibližně 2 biliony dolarů, jak ukazuje zpráva McKinsey.
AI pro ochranu kulturního dědictví
Kromě usnadnění tvorby zábavy pro online uživatele se nástroje AIGC stále častěji používají v různých scénářích v Číně. Jedním z nich je ochrana a propagace kulturního dědictví.
Domácí nástroj generativní AI s názvem Jimeng, vyvinutý firmou ByteDance, byl použit k vytvoření plně AI generovaného sci-fi krátkého dramatu zaměřeného na propagaci starověké čínské kultury, což je v zemi první tohoto druhu.
»Sanxingdui: Future Apocalypse,« zveřejněné v červenci, sleduje děj v blízké budoucnosti, kde protagonisté vstupují do digitálně rekonstruovaného starověkého království Shu, které sahá více než 3 000 let zpět, aby odvrátili hrozící krizí civilizace.
Dvanáctidílná série využívala více generativních technologií, včetně psaní scénáře AI, návrhu konceptů a storyboardů, převodu obrázků na video, editace videa a vylepšení mediálního obsahu.
Využitím svého proprietárního multimodálního velkého modelu analyzovali inženýři AI společnosti ShengShu rozsáhlé sbírky dat z starověkých nástěnných maleb z paláce Yongle, největší taoistické chrámové stavby v Číně.
800 let staré malby v chrámu čelí problémům, jako je blednutí barev, prach a zkáza. Nicméně jejich grandiózní měřítko, charakteristický styl a bohatá propracovanost výrazně zkomplikovaly restaurátorské snahy.
Inženýři vyškolili AI na datech čínské nástěnné malby, což jí umožnilo pochopit a replikovat charakteristický styl těchto maleb, od barev po techniku malby štětcem.
To umožnilo automatizované restaurátorské úkoly, jako je digitální kolorování a vyplňování chybějících detailů, a AI může napodobit malířské techniky malířů nástěnných maleb k přepracování tvářových rysů božstev na malbách, uvedl Tang.
(Xinhua)