Rozhovory

Když chybí přirozená nedokonalost. O AI s Martinem Ondráčkem

Martin Lukeš • Aktualizováno: 2. 1. 2024 v 13:02 • Rubrika: Rozhovory

Když chybí přirozená nedokonalost. O AI s Martinem Ondráčkem

Umělá Inteligence, nebo chcete-li, AI (Artificial Intelligence). Pojem, který byl lidskému chápání ještě před 25 lety tak vzdálený, že byl námětem sci-fi filmů a románů. Po dvou desítkách let jde ale o pojem hojně skloňovaný ve většině oblastech lidské tvorby. Od překladů cizojazyčných textů, strojového učení, přes deepfake videa a reprodukce reálného hlasu až po softwarové prvky s umělou inteligencí, kterou využívají pokročilé systémy nejmodernějších fotoaparátů. No a pak je tu kapitola sama o sobě. Strojové generování obrazů a umělé vytváření fotografií, u kterých už je velmi těžké rozeznat, že se nejedná o realitu. A přesně na toto téma jsme si povídali s Martinem Ondráčkem, členem Galerie Megapixel a velkým fanouškem generování těchto uměle vytvořených obrazů.

Mohl byste se v krátkosti představit? Odkud jste, pracujete nebo studujete a tak obecně?

Jmenuji se Martin Ondráček, toho času působím v Brně, kde se již několik dekád věnuji projektování staveb a souvisejícím činnostem. K AI jsem se dostal postupně přes různé vizualizační, modelovací a foto-editační programy.

Předpokládám správně, že než jste se dostal k nástrojům AI, tak jste fotil? Případně jak dlouho a co?

Bylo to v několika obdobích. Mým prvním vlastním fotoaparátem byla československá bakelitová analogová Corina, poté PENTACON Praktica. Ještě dříve v 80. letech jsem měl možnost díky svému strýci občas zmáčknou Flexaret a potom pozorovat a asistovat u jeho umění v domácí fotokomoře, na což dodnes velmi rád vzpomínám. Rok 2003 tuším první digitální fotoaparáty Canon, Olympus s tehdy závratným rozlišením 5 Mpx. Mezitím různé více či méně vybavené digitální fotoaparáty, tehdy pouze kompakty. Jednu raritu, která měla velmi slušnou výbavu, od výrobce počítačů HP Photosmart R818, mám funkční dodnes. Výbavou posledních 10 let je zrcadlovka od Nikonu, kterou jsem pořídil společně i s několika klasickými objektivy z analogových zrcadlovek, kdy jsem podlehl trendu bokehu a starých objektivů a k tomu manuál v podobě úžasné publikace pana Romana Pihana, kterou jsem se propracovával do focení DSLR.

Dnes, pokud potřebuji něco fotit, tak si techniku půjčím. Focení je pro mne nyní spíše profesně dokumentační záležitost. Při klasickém focení to byly různé inspirační vlny od běžného dokumentování všedních i nevšedních denních událostí, přes různé přírodní struktury, domácí mazlíčky, občas portrétní snímky. Za aktivního fotografa se ale vůbec nepovažuji, spíše je to pro mne nyní více dokumentační nástroj s občasným, spíše sporadickým focením.

Vzpomenete si, kdy jste otevřel pomyslnou Pandořinu schránku a zkusil poprvé vygenerovat nějaké obrázky pomocí platformy postavené na principu umělé inteligence?

Dá se říct, že přibližně v roce 2021, díky hardware od NVIDIE, jsem objevil jejich testovací programy na generování tváří, které „neexistují“. Zvolil jste pohlaví, věk, etnikum a výstupem byla fotograficky věrná tvář osoby, kterou neuronová síť z databáze NVIDIE vygenerovala. Potom se asi na konci roku 2022 objevil generátor, který začal zvládat více parametrů, kdy po uploadu dvou snímků byl výstupem jedinec, který měl být údajným genetickým následovníkem osob z obou portrétů. Generátor ještě pořád funguje https://www.artbreeder.com/. Někdy v polovině roku 2022 Midjourney uvolnilo svoji službu veřejnosti. Několikrát jsem tehdy platformu vyzkoušel, a zachytil jsem okrajově v té době i fenomén NFT, ale moc nechápal, co tím lidstvo sleduje.

K NFT jsem se dostal aktivně až v tomto roce, jedná se o platformu, které má s výstupy AI vcelku úzkou vazbu. Je to velmi zajímavá technologie, ale celé to jaksi po tom raketovém startu na počátku nyní trochu „shořelo v atmosféře“, respektive to spíše ještě doutná, takže možná dojde k nějaké stabilizaci této platformy.

Na jaře roku 2023 jsem se asi spíše náhodou dostal ke službě Google Collab Notebook, která umožňovala pomocí rozhraní Stable diffusion automatic1111 spustit platformu Stable diffusion - SD, která v daném období měla a stále má neuvěřitelné množství možností jak parametrů nastavení, tak různých již připravených AI naučených modelů. Problém byl ale v dosti komplikované cestě při spouštění programu, pro lokání instalaci, kterou rovněž umožňuje, musíte mít velmi výkonné PC.

Postupně začaly vznikat další a další online AI platformy, které byly uživatelsky přívětivější, takže nyní jsem, po různém testování, u několika platforem, u kterých přibližně tuším a mám odzkoušené, co mohu očekávat. Kombinuji přibližně 3-4 platformy, každá z nich má svoje přednosti i minusy. Ještě si vzpomínám, že před vlnou popularizace AI, byly jejich předchůdci, jestli se to dá tak nazvat – jednoduché jednoúčelové programy online či jako lokální instalace, které jsem používal například pro generování tzv. bezešvých opakovaných textur pro vizualizace, to nyní AI zvládá velmi bravurně a jsou na to již přímo specializované platformy například pro materiálové textury, pro textilní vzory.

Sám jsem před několika měsíci některé nástroje zkoušel, ale musím se přiznat, že mě výsledky nikterak nepřesvědčily. Když jsem před pár dny narazil na vaši tvorbu v Galerii, byl jsem doslova ohromen. Troufám si říci, že u podobných výstupů už jen velmi těžko někdo pozná, zda jde o fotografii, grafiku, nebo právě AI výstup. Můj prvotní nezdar může být samozřejmě způsoben několika faktory. Neznal jsem ten správný postup, nepoužíval jsem ten správný nástroj anebo v té době ještě jednoduše nebyly výstupy tak dobré. Podobně zkušenosti jako mám já, bude mít asi více lidí. V čem myslíte, že byl ten největší problém?

Záleží na volbě platformy AI generátoru. Dnes už jsou i jednořádkové generátory, které dávají slušné výstupy. Myslím, že obecná frustrace začátečníků by měla být podstatně nižší, než ještě před několika měsíci. V podstatě skoro každý měsíc se objevují nové a nové platformy. Když si vyberete, musíte s danou platformou umět „mluvit“, zadat jí správně její řečí, co chcete. Nemohu říci, že jsem v této mluvě obzvlášť zdatný, ale nějaké základy jsem načerpal. Pokud si vytvoříte slovní základ, už poté jen přidáváte nadstavbu. Jako dítě se naučíte základní slovník a potom projdete základní, střední a vysokou školou a používáte už i technickou mluvu… zjednodušeně. Problém je, že každá platforma má svoji řeč a to i v rámci svých derivátů – mluvím hlavně o SD, takže je to vše o troše improvizace, troše znalostí, zkušeností, experimentování.

Po nějaké době přijde nová aktualizace a ono se to začne chovat zase trochu jinak. Procesy jde i automatizovat, vytvořit si svůj styl, na který AI naučíte a vylepšujete ho. Pár stylů jsem si takto vytvořil, ale stále to vnímám spíše kreativně. Díky možnostem variací si můžete pro finální výstup zvolit ten, z osobního pohledu, nejlepší. Následující den se na to podíváte a řeknete si, že to je hrůza, smažete to a zkusíte něco nového. Podíváte se, jak to dělají kolegové, co vystavují na webu, inspirujete se…

Zdroje jsou v tomto dosti obsáhlé, včetně učebnic postupů a zdrojů příkazů. Osobně bych tedy doporučil 3 základní cesty ke zdrojům:

každá platforma má svoje manuály a tam vysvětlený princip způsobu zadávání výzev
lze použít stávající rastrový zdroj (snímek, ilustrace, malby, kresba...) a nechat ho AI „přečíst“ a ona vytvoří textové znění výzvy, jak ji vidí ona. Poté ji můžete modifikovat – tzv. img2prompt
některé platformy mají v sobě integrovaný systém průvodce, pomocí kterého lze sestavit základ dané výzvy, aby uživatel systém zadávání pochopil a následně si ho přizpůsoboval dle svého uvážení, takže zde je asi možná cesta pro nového uživatele, když neví, jak začít.

K otázce rozpoznatelných znaků AI ve výstupech. Prvky, u kterých poznáte, že za dílem stojí AI, už mám trochu načtené. Někde je to více, někde zase méně viditelné. Jde o znaky jako extrémně přestylizované snímky s až neuvěřitelnými detaily a nereálnou precizností, různé skryté deformace nebo opakování určitých prvků, které objevíte až po zvětšování snímku. Osobně se snažím ponechávat ve výstupech určitou nedokonalost a spíše ji následně kompenzovat zajímavým obsahem, sdělením daného výstupu. U „nefotografických“ výstupů jako je malba nebo kresba je to jednodušší, protože zde to oko pozorovatele (alespoň to moje) tolik neeviduje. Jsou už i platformy AI, které umí rastrové soubory skenovat a kontrolovat, jestli jsou dílem člověka.

Vyzkoušel jsem tyto služby a nemohu říci, že by to zcela nefungovalo. U několika výstupů mne ale AI přesvědčovala, že jde o ruční práce – konkrétně šlo o čistě grafické motivy (AI malba nebo kresba), ne AI fotografie. Google například do výstupu svého generátoru vkládá svoje vlastní speciální ID, které snímky následně identifikuje jako vytvořené pomocí AI. Nyní běžně používáme tiskárny a málokdo si uvědomuje, že každá stránka obsahuje identifikaci tiskárny v podobě miniaturních žlutých bodových znaků. Předpokládám, že AI platformy do svých výstupů rovněž něco podobného vkládají.

Vím, že je na trhu hned několik nástrojů od různých značek, které generují obsah vytvořený AI, ať už jde o text, grafiku, obraz, nebo dokonce video, hlas, či hudbu. Pokud se budeme bavit o nástrojích určených ke tvorbě obrazu, pak je asi nejvíce skloňovaný Midjourney, DALL-E 2 a Stable Diffusion. Ve hře jsou ale další velcí hráči a o slovo se také hlásí Adobe, Google a další. Které nástroje jste vyzkoušel a se kterými aktuálně pracujete nejvíc?

Google jsem již sice zmínil, ale byla to pouze jejich platforma pro využití spuštění programu Stable diffusion (SD), nyní používám deriváty SD v podobě leonardo.ai, playground.ai, mst.ai. a getimg.ai. Vyzkoušel jsem i Firefly od Adobe, ale díky tomu, co mám odzkoušeno u Stable diffusion, mne to neoslovilo. Je to trochu jiná filozofie práce s AI. Občas použiji DALLE- E3. Midjourney dlouhou dobu nepoužívám, takže osobně nemohu posoudit, ale v rámci AI webových prezentací je to asi opravdu převážná část produkce, kterou na webu vnímám. Poslední verze dokáže opravdu divy, nicméně je tam právě ta přestylizovanost až ultra dokonalost, něco mezi rozhraním realismu a super kvalitních vizualizací. Chybí mi v tom trochu ta „přirozená nedokonalost“. Google má vlastní službu Imagen Vertex AI, ale tu jsem zatím nezkoušel.

Pokud chcete jít hlouběji, už nestačí Google nebo Bing, ale musíte být součástí nějaké komunity – např. na Discordu a tam se dostanete k systémům, které umí jak statický snímek, tak nyní i vcelku zajímavá, neříkám dokonalá, AI videa – např. služby Moonvalley.ai, PikaLabs, runwayml.com, deforum SD; zdrojová služba pro SD huggingface.com a další. Je toho velmi hodně a záleží na tvůrci, co zvolí, jak to propojí, využije. Chvílemi si připadáte jako malé dítě v obřím hračkářství, nevíte co dříve, a než něco trochu pochopíte a použijete, už je zase něco nového a lepšího.

Je to samozřejmě hodně široké téma, ale dokázal byste nějak v kostce popsat rozdíly mezi jednotlivými nástroji, které jste měl možnost vyzkoušet?

Každý z nich má svoje specifika a obtížnost, některý se hodí více pro AI grafiku, malbu, kresbu, jiný více pro AI fotografii, pokud se to tak dá nazvat. Jednořádkové generátory mají podstatně méně možností ohledně individualizace při zadávání promptu, nicméně v případě DALLE-E3 nebo SDXL, jsem byl některými i stručně zadávanými výzvami dost překvapen.

Zjednodušeně asi něco, jako když položíte vedle sebe fotografické možnosti běžného mobilu, kompaktního fotoaparátu a zrcadlovku. Z každého zařízení lze získat zajímavé, ale i špatné výstupy, což je na obsluze, umění a vidění autora. Pokud chcete maximální kontrolu nad výstupy, musíte jít po složitějších platformách, které nyní stále ještě nejsou úplně uživatelsky přívětivé – stejně jako když přepnete zrcadlovku na plně manuální režim. Kouzlem je, že když se povede výstup v jedné platformě, můžete ho následně stanovit jako referenční vzor platformě druhé, doplnit ho o její schopnosti a vytvořit tak další výstup. Možností kombinací je v podstatě neomezeně, něco jako kdybyste měl například u zrcadlovky možnost použít třeba funkci dírkové kamery.

Teď se asi dostanu k tomu klíčovému, co bude zajímat asi všechny, kteří ještě žádný AI nástroj nikdy nezkusili. Je znám nějaký základní princip, jak pomocí nějakých klíčových slov a štítků specifikovat, jak by měl výsledný obraz vypadat, a editor mi následně po různě dlouhém výpočtu vyplivne nějaké návrhy? Některé nástroje mají ještě také možnost vybrat si styl obrazu, například zda má mít filmový vzhled, nebo má simulovat analogovou fotografii, případně nějaký malířský styl, nebo má mít fantasy podání atd.

Uživatel začíná tím, že definuje, co od generovaného obrázku očekává. Mohou to být klíčová slova, zkratky nebo znaky, které daný výraz buďto akcentují nebo naopak upozaďují. Říkají, v jakém poměru má být daný požadovaný motiv ve výstupu zastoupen. Toto je základní tvorba typu textového zadávání výzvy – prompt, takzvaně txt2img. Tyto informace slouží jako vstupy pro nástroj, který má generovat odpovídající obrázky. Já jsem si to po zkušenostech zobecnil na „předmět“ „obsah“ a „rámec“. V „předmětu“ popisujete hlavní motiv, scénu, kompozici a to lze doslovně nebo heslovitě. V „obsahu“ styl, technické parametry, světlo, záznamové médium, jako třeba analog se zrnem nebo DSLR, fyzikální vlastnosti. V „rámci“ doplníte popis pozadí, uzavření předmětu a obsahu.

Takto by měla být výzva postupně v textu napsána. Toto je moje subjektivní konstrukce, kterou jsem si praxí takto vytvořil. A nyní přichází porušení této konstrukce. Vše lze kreativně přeskládat tak, že popis „rámce“ předřadíte před „předmět“ a „obsah“, nebo ho vřadíte mezi ně. Každý z těchto parametrů můžete zesílit nebo upozadit znaky „()“ nebo „[]“ – bavíme se stále o principu zadávání výzev platformy SD, nicméně jsem zkoušel použít i výzvy na platformu DALLE nebo nějaké archivní výzvy pro MJ následně zadané SD a taktéž to fungovalo. Takže pravidlo číslo jedna je, v podstatě, že neplatí žádná pravidla a pokud nepoužíváte „zaklikávací“ platformy, které nabízejí různé přednastavené styly, máte neomezené možnosti. Jediným omezením je vaše představivost při formulování textu výzvy.

Pokud se bavíme o polo až skoro samoobslužných systémech platforem AI generátorů, stručně je lze shrnout asi následovně:

Přednastavené textové výzvy

Některé generátory mají možnost dosazovat nejvíce používaná hesla a texty do výzev formou klíčových slov – naklikáte, doplníte, necháte bez korekce nebo požádáte platformu AI, aby prompt zkorigovala, až tak automatizované a komfortní to je, nicméně ne tak tvůrčí. Kreativce to určitě neosloví, začátečníci zajásají.

Přednastavené stylizace a efekty

Některé generativní nástroje umožňují uživatelům vybrat si různé styly nebo efekty, které mají být aplikovány na vygenerované obrázky. To může zahrnovat simulaci filmového vzhledu, malířského stylu nebo jiných kreativních efektů.

Diverzita a výběr

Již většina platforem umožňuje uživatelům vybrat z několika různých generovaných návrhů, což poskytuje různorodost a možnost výběru nejlepšího výsledku – je to standardně 1 až 4 výstupy, které můžete následně případně ještě remixovat.

Trénink a ladění modelů

Vývojáři těchto nástrojů často trénují modely na velkém množství dat a ladí je, aby generovaly co nejlepší výsledky. Kvalita generovaných obrázků může být ovlivněna kvalitou tréninkových dat a složitostí modelu. Tyto modely lze použít v rámci volby výstupu nebo si je vytvořit a nacvičit vlastní cestou.

Pokud nejsem s výsledkem spokojen, mohu upravit nebo doplnit klíčová slova a celý proces opakovat, dokud nebude výsledek vyhovovat mé představě. Tohle je nějaký rámcový postup. Co je tím dalším krokem, tedy další úrovní dovedností, díky které budou nástroje generovat obraz co nejvíce dle mých představ?

Je to v rozvinutí textu výzvy, kde můžete klást důraz na jednotlivá slova, souvětí, popř. je upozadit. Pro tento účel se používají již zmíněné speciální znaky. Dále pokud máte výsledky výzvy v podobě rastrového výstupu, můžete ho dále použít jako řídící referenční snímek, kterým je další výstup inspirován souběžně s méně či více upravenou další výzvou. Dále můžete snímek převést v platformě do režimu inpainting – zjednodušeně něco jako jednoduchý grafický editor, kde vymaskujete dané oblast a dáte pokyn, že v nich chcete provést nějakou lokální změnu opět formulováním výzvy. Já spíše využívám pouze základní výzvu a výstupy jsou tak tzv. txt2img (textová výzva pro vytvoření obrazu). Dále máte možnosti výzev typu tzv. img2img viz. zmíněný řídící referenční snímek za nový, kombinace img+txt2img, txt2video, txt2audio… Kombinací je v tomto velice mnoho. Zde je takový pěkně vytvořený stručný manuál i s instruktážními videi pro pochopení a doplnění: https://getimg.ai/guides

Pokud se s výsledky generování klíčových slov nebo textu pro výzvu nebojíte experimentovat a upravovat je, posunete se dále v úrovních dovednosti pro generování obsahu. Ve stručnosti se postup dá shrnout na několik dalších kroků, které mohou pomoci dosáhnout lepších výsledků a generovat obsah co nejvíce dle představ:

Používání modelu

Použijete speciálně AI vycvičený model na konkrétní výzvu. Modely jsou u většiny platforem již k dispozici pro různé styly. Nevýhodou je, že se v generování objevuje jistý opakující se prvek zdroje daného vybraného modelu. Postupem je tedy dále vlastní individuální naučení AI dle svého vlastního modelu s osobní vizuální preferencí a preferencí pro klíčová slova a generovaný obsah – zní to dosti kostrbatě, ale zde si zjednodušeně poskládáte výstupy, které se Vám jeví jako ty nejlepší v daném stylu, tyto klasickým uploadem dodáte AI a necháte ji model nacvičit. Způsob učení je závislý na platformě, kterou používáte a délka výcviku, co jsem měl zatím možnost odpozorovat, je v jednotkách až desítkách minut, někdy i hodin podle vytížení platformy. Poté model můžete aplikovat pro svoje další výstupy.

Výběr parametrů

Generativní modely umožňují nastavit různé parametry. Vyplatí se s těmito parametry experimentovat, abyste dosáhli požadovaných výsledků. Toto je opět spíše na individuálním experimentování.

Manuální úpravy

Buďto klasickým postprocesem nebo přímo v generátoru, pokud je nabízí. Standardně AI generuje výstupy 512x512, 768x768, 1024x1024, 1536x1536… některé i vyšší. Ve výsledku je dále nutný minimálně upscale, který generátory sice umožňují ale mám vyzkoušeno, že výstup tímto spíše degradují, takže používám externí nástroje pro upscale. Jít cestou nejvyššího možného rozlišení generátoru není správná cesta, protože paradoxně nejblíže zadání výzvy jsou výstupy v nižším rozlišení. U vyššího rozlišení dochází k vizuálním deformacím, takže výstup s tiskovou kvalitou rozlišení bývá občas velký kompromis mezi kvalitou výstupu v zadání výzvy a rozlišením – tyto dva parametry jdou paradoxně trochu proti sobě.

Konzultace s komunitou

Pokud se snažíte generovat obsah v konkrétním stylu, můžete konzultovat na platformách. Vždy se někdo ozve a poradí, čímž získáte další znalost, žádný hotline od AI generátorů nečekejte, pokud nejste předplatitelé a pokud to tedy vůbec platforma v předplatném nabízí. Já jsem v tomto z 90 % samouk.

Etika a korektnost

S ohledem na neomezené možnosti je pouze na tvůrci a jeho sebekontrole, co AI v výzvě vygeneruje a následně zveřejní. Některé platformy již standardně blokuji z jejich pohledu problémové výrazy ve výzvě, které vyhodnotí jako závadné z pohledu autorských, etických, jiné naopak splní výzvu bez omezení.

Automatizace

Pokud hledáte více automatizovaný přístup, můžete zkoumat možnosti vytvoření vlastního modelu, který se AI naučí. Poté svůj už vytvořený styl pouze doplňujete, precizujete a modifikujete.

Zatím jsem to nikdy nezkoušel, ale zajímalo by mě, když zadám stejná klíčová slova stejnému nástroji třeba druhý den, nebo kdyby seděli dva editoři vedle sebe, a napsali výzvu se stejným zadáním, jak moc se bude lišit výsledek?

U platformy SD, kde můžete dostatečně přesně výzvu popsat a zadat včetně těchto parametrů (rozlišení, steps, guid.scale, seed, sampler..), si troufám tvrdit, že výsledek budete mít pokaždé stejný a to na jakémkoliv PC při použití stejné platformy. Čistá verze SD dokonce do výstupů, které jsou v PNG formátu, vpisuje kompletní „DNA“ nebo rodný list dané výzvy, jak bych to nadneseně nazval, a to přímo do souboru, takže ve snímku jsou obsaženy všechny informace, ke kterým se následně můžete vždy zpětně vrátit nebo v podstatě podle těchto integrovaných záznamů vytvořit úplně identický výstup – pro vlastní inventarizaci a archivaci perfektní věc. U jednořádkových platforem, nebo derivátů SD, kde máte možnost volit i nějaký již konkrétní styl, který platforma nabízí (Leonardo, MST, Playground, Getimg,), jsem tuto možnost integrace přímo do výstupu nezaznamenal, takže si musíte vytvořit záznam, pokud to platforma přímo nenabízí v rámci uložení výstupů, což ne vždy bývá v plném rozsahu nastavení.

Občas je tedy následně trochu problematické se k nastavení vrátit v plném rozsahu pokud si nevedete evidence stylu, výstupu, který se Vám zdá jako ten správný, použitelný pro další zadávané výzvy. Každopádně většina těchto platforem ukládá výstupy do galerie, a pokud nejste předplatitelem, jsou tyto vstupní parametry volně dostupné i ostatním uživatelům, což je dobré pro samostudium a výuku, nikoliv již při chránění si svého know-how, pokud si vytvoříte svůj vlastní styl. Tyto sestavy pro výzvy jsou v podstatě to nejcennější, co do tvorby vkládáte, protože z pouhého výstupu nikdo zpětně tento řetězec parametrů nevyčte, pokud nezíská tedy verzi ve formátu PNG, ve které se ona DNA zapisuje. Toto platí pro čistou verzi platformy SD.

Jde nějakým způsobem nástroji dát nějaká vstupní data, například v podobě skici, obrázku, nebo fotky, se kterou bude dále pracovat tak, aby byl výsledek přesnější vzhledem k mé představě?

Ano, existují různé způsoby, jak dát nástroji vstupní data, jako jsou skici, obrázky nebo fotografie, aby byl výsledek přesnější vzhledem k vašim představám. Je to ve zkratce systém výzvy img2img – vstupní data rastr jako vzor, referenční zadání. Závisí to na konkrétním nástroji a aplikaci, kterou používáte. Vyzkoušel jsem tyto způsoby zadávání, je to zajímavé, ale zatím jsem dále nějak zásadně tento způsob aktivně nezačal používat.

Zdrojovému rastrovému formátu můžete dát parametr, u kterého tento vstup bude AI vnímat jako vizuální zdroj, na který bude dále aplikovat Vaši textovou výzvu a to s poměrem priority buďto výzvy nebo zdrojového rastru, nebo můžete zdrojový rastr nechat AI přečíst v podobě funkce img2prompt, což je vytvoření výzvy, kterou AI vygeneruje přečtením zdrojového rastru obrázku. Takže opět velmi variabilní a u každé z platforem generátoru, pokud to nabízí, to funguje ale zase bohužel vždy trochu jinak = musíte opět experimentovat.

Je nějaký rozdíl v tom, když jsou klíčová slova zadávána v češtině a v angličtině?

Tady jste mne touto otázkou vcelku dostal. Vůbec by mne nenapadlo použít češtinu, protože doposud vše zadávám v angličtině. Takže pro to, abych mohl následně odpovědět, jsem provedl pokus, kdy AI dostala pokyn ve stejném formátu v anglické a české verzi (některá slova ale mají v obou jazycích stejný přepis – 4K, DSLR, HDR), takže nelze tvrdit, že by příkaz v českém jazyce nebyl zpracován, ale nebyl zcela obsahově vyslyšen a výstupy jsou překvapující – stručně zjednodušeně zadání je „portrét ženy s kočkou“ „portrait of a woman with a cat“ – výstupy jsou bez jakékoliv následné korekce.

ENG verze / CZ verze

Závěr je tedy ano, obsahový rozdíl v tom je, bokeh v anglickém originálu příkazu například vůbec není, čeština k tomu AI nějak donutila, kočka a žena nikde.

Jak detailně je možné vyladit obraz. Dám příklad, vygeneruji si nějaký obličej, se kterým jsem zhruba spokojen, ale chtěl bych například jiný účes nebo jiné světlo a pozadí. Nestane se, že když upravím klíčová slova, upraví mi generátor celý obraz a přijdu tak i o ty prvky, se kterými jsem byl spokojen?

Ano, touto cestou skoro jistě o aktuální výstup přijdete, pro tento typ úprav se musí aplikovat postup, který jsem již zmínil, a to obraz do funkce inpaint nebo outpaint. Tato funkce je již v jednodušších verzích integrována i v některých zmíněných platformách SD (getimg.ai nebo leonardo.ai). nebo např. od Adobe Firefly můžete mít tuto funkci jako plugin do Photoshopu. Vymaskujete nástrojem editoru dané platformy oblast ve které chcete něco měnit a dáte novou výzvu už pouze s textem obsahu té změny.

Osobně jsem několikrát vyzkoušel a zatím mne to až tak moc nepřesvědčilo, což nelze říct, že je špatně na straně AI. Tuto funkci dále nějak zásadně nepoužívám – do jednoho z výstupů v galerii „Zjevení“ jsem pomocí tohoto nástroje vložil siluetu postavy – vypozoroval jsem, že AI vyhodnotí obraz jako celek a v daném stylu následně dokomponuje změny v požadované oblasti. Tímto jsou změny tedy vcelku konzistentní se stylem obrazu a pro oko nepozorovatelné jako následná úprava. Inpaint mění obsah uvnitř snímku, outpaint vně – dopočítá například snímek z poměru 1:1 na 2:3 nebo 7:4, a to včetně obsahu, kdy doplní vizuální snímek do výsledného poměru.

https://getimg.ai/guides/inpainting-with-stable-diffusion
https://getimg.ai/guides/outpainting-with-stable-diffusion

Kromě generování realistických fotografií umí dnes nástroje vytvářet také obrazy v různých malířských stylech, dokonce také animace. Ve vašem portfoliu jsem našel právě celý set výstupů, které spadají spíš do výtvarného umění. Je nějaký zásadní rozdíl v tom tvořit zadání pro fotografie a pro výtvarné výstupy?

AI má obrovskou paletu pro možnosti tvorby, zjednodušeně není problém dát výzvu fotografická malba, kreslená malba, malovaná kresba a přidat, že to chcete ve stylu malířského období (kubismus, abstrakce…), ve stylu fotografické techniky (bromoil, daguerrotypie…) v podstatě v reálném světě nesourodé nereálné kombinace, které opět umožňují skoro neomezené kombinace a z toho plynoucí více či méně zdařilé výstupy. Takže pravidla jsou sice nějak daná, ale pokud je porušíte, pouze rozšíříte kreativní pole pro tvorbu výstupu.

Zjednodušeně tedy lze říci, že lze aplikovat tyto základní principy.

Pro generované AI fotografie

Konkrétní popis scény: Můžete poskytnout detailní popis toho, co by měla fotografie zachytit, včetně kompozice, objektů, osvětlení a atmosféry.

Referenční fotografie

Můžete přiložit referenční fotografie nebo popisy existujících fotografií, které by měly sloužit jako inspirace pro generovanou fotografii - zde pozor na autorská práva

Styl a nálady

Určitý styl nebo nálady, které by měla fotografie vystihovat, mohou být také důležité pro zadání.

Pro generované AI výtvarné výstupy:

Malířský styl: Můžete popsat nebo odkazovat na konkrétní malířský styl, který chcete, aby generovaný obraz emuloval. Například impresionismus, kubismus, surrealismus atd.

Barvy a kompozice: Popisujte požadavky na barvy, kompozici a obecný estetický dojem, který má generovaný obraz vytvořit.

Inspirace a reference: Můžete přiložit obrázky existujícího výtvarného umění, které vám slouží jako inspirace – zde pozor na autorská práva .

Abstraktní vs. konkrétní: Rozhodnete, zda chcete, aby generovaný výtvarný výstup byl abstraktní a expresivní nebo konkrétní a detailní.

Asi se shodneme na tom, že AI velmi brzy zasáhne do lidské činnosti, ať už na pracovní, tak i na soukromé úrovni. V čem vidíte vy, jakožto pokročilejší uživatel, největší potenciál generované grafiky?

Již nyní různé komerční platformy integrují AI do svých služeb v podobě např. přednastavených vzorů pro tzv. tisky na vyžádání, některé fotobanky mají již svoje AI generátory, ke kterým se jako členové zdarma dostanete a může tvořit do jejich databáze. Dále je to fenomén NFT, kde rovněž AI generátory jsou součástí některých platforem. AI má již přístup do 3D modelovacích programů, kde pomocí nástavby spoluvytváříte finální výstup, zde je to o spolupůsobení reálného vytvořeného digitálního 3D modelu a jeho doplnění pomocí AI do finální podoby do 2D rastrového výstupu vizualizace. Je to velký krok v produktivitě tvorby například v rutinním 3D modelování, produktovém designu, neuvěřitelné možnosti ve variacích, které máte doslova online a následně můžete volit ty nejlepší, nejoptimálnější.

V souvislosti s „kreativním“ nedodržováním byť nezávazných pravidel při zadávání výzev jsem vyzkoušel například doslovný přepis textu z Bible, textu písně, textu Ezopovy bajky. Tento přepis byl buďto do statického výstupu nebo video výstupu. Vyzkoušel jsem i text samotné výzvy „nazpívat“ AI s tím, že byl následně přidán k oživenému statickému snímku, vše tak, že text byl zadán do výzvy v plném rozsahu a ponecháno na AI, jak se s tím vypořádá. Výsledky zajímavé, dovedu si představit, že takto si lze časem například vizualizovat psaný text s tím, že čtenář tak může dostat nadstavbu ve formě vizuální podoby jím čteného textu. AI se dnes využívá i k sepsání konceptů scénářů. Na webu je již mnoho krátkých AI filmů, které nesou menší nebo větší známky nedokonalosti, ale podle toho, co jsem viděl přibližně necelý rok zpět ve statických výstupech, a jaká je jejich úroveň nyní, lze očekávat, že něco podobného nastane i u videa. Takže si asi lze odvodit jak velmi mocný nástroj z toho vzniká.

Umělá inteligence již zasahuje do různých oblastí lidské činnosti a bude hrát stále větší roli v budoucnosti. Co se týče generované grafiky, AI má obrovský potenciál a přináší několik klíčových aspektů, které lze tedy ve stručnosti shrnout asi následovně:

Rychlá a efektivní tvorba obsahu: AI může rychle generovat obrazy, grafiku a videa na základě různých vstupů a parametrů. To může urychlit proces tvorby obsahu pro designéry, umělce, tvůrce her a další profesionály.

Personalizace: AI může analyzovat chování uživatelů a generovat personalizovaný obsah. To má potenciál v oblasti marketingu, reklamy.

Vylepšení existujících obsahů: AI může být použita k vylepšení stávajících fotografií a videí, což je užitečné pro retušování, obnovu historických snímků, filmů.

Tvůrčí asistence: AI může sloužit jako nástroj pro tvůrce a umělce, poskytující inspiraci, nápady či spolupráci na tvorbě obsahu.

Generativní umění: AI umožňuje vytvářet unikátní generativní umění, které je často inovativní a abstraktní. To je oblast, kde se kreativita a technologie spojují.

Simulace a vývoj her: V herním průmyslu může AI být využita k vytváření realistických světů, postav a animací.

Design a architektura: V oblasti designu a architektury může AI pomoci s tvorbou návrhů, vizualizací a modelováním.

Vzdělávání a výzkum: AI může být použita pro výzkumné účely a vzdělávání, například při simulacích nebo generování didaktických materiálů.

Je však důležité brát v úvahu etické a právní aspekty využití AI v generované grafice, včetně otázek soukromí, autorských práv a manipulace s obsahem.

Velkým otazníkem nad celou sférou AI jsou autorská práva, protože mnohé programy se učí na obrazech a dílech, které vytvořil někdo jiný a které podléhají autorskému právu. Generovaná díla tedy svým způsobem nejsou čistě neautorská a vzniká kolem toho poměrně mnoho jak akademických, tak autorských a právnických sporů. Máte k této problematice nějaké bližší informace a jak to vnímáte ze svého subjektivního pohledu?

Problematika autorských práv v kontextu umělé inteligence a generovaných děl je složitá a stává se stále významnějším tématem diskuzí a právních sporů. V USA běží několik žalob na provozovatele platforem AI ohledně zdrojů pro učení AI, a koncem léta tohoto roku americký federální soud rozhodl, že umění vytvořené umělou inteligencí nelze chránit autorským zákonem, toto je pohled USA, kde jsou s využíváním AI podstatně dále. Ze své praxe s AI čerpám z online znalostních zdrojů a od uživatelů právě spíše z USA, občasné prodeje realizuji na platformách sice celosvětových ale sídlících v USA a tím pádem v legislativním rámci těchto platforem a destinací. Evropa nyní spíše medituje nad tím, co to vlastně AI vůbec je a EU byrokratický systém teprve připravuje pro tento segment legislativu.

V USA osciluje otázka využívání zdrojů pro učení AI, které jsou právě předmětem soudních žalob a jsou zde pohledy typu neexistuje-li autor, tak se nelze domáhat autorských práv ve vztahu k výtvorům AI, za předpokladu, že dílo není nápadně podobné nějakému autorsky chráněnému dílu. Znamená to zjednodušeně, že když použijte například tvorbu typu img2img na nějakém autorském zdroji a je to více než zřejmé, asi máte problém. Použijete-li do výzev mimo styl i jména konkrétních autorů, což je trochu skrytější verze, tak výstup asi bude podstatně inspirován autorským dílem daného zmíněného tvůrce a podobnost podstatně navozovat, tak i přesto, že to nebude jasná kopie, tak i zde máte asi taktéž problém. Na poměr autorství v generativním umění se nahlíží mírou individuality zapojení autora/obsluhy AI do vytvoření jedinečnosti výstupu.

Časová náročnost takové tvorby je v poměru sekund vůči hodinám či dnům. Pokud využíváte jednotlivé platformy, je nutné se zajímat o podmínky použití generativních výstupů z hlediska následného nekomerčního či komerčního využití. Za zdrojové učení AI by měl zodpovídat poskytovatel služby online platformy, který Vám tuto službu poskytuje.

Dále už ve stručnosti moje subjektivní shrnutí klíčových aspektů ohledně otázky autorských práv:

Vlastnictví autorských práv: Generativní modely AI, zejména ty založené na neuronových sítích, se učí na velkém množství existujícího obsahu, což zahrnuje pravděpodobně i autorská díla, která jsou součástí nějaké veřejné prezentace a tím pádem volně zobrazitelná a dostupná na internetu. V rámci různých prezentačních platforem již nyní má autor prezentovaného obsahu možnost zakázat přístup AI k obsahu pro účely jejího učení. Aktuálně je ale generovaného obsahu AI již tolik, že dochází k situaci, kdy se zdrojem pro učení stávají již samotné výstupy AI, zjednodušeně taková kanibalizace zdrojů.
Identifikace autora: Vytvoření díla AI obvykle není spojeno s konkrétním člověkem jako autorem, což komplikuje identifikaci autora pro účely autorských práv. Toto způsobuje právní nejistotu ohledně toho, kdo má právo na dílo – v USA již vyřešeno, jak se k tomu postaví zbytek světa zatím nelze dovozovat.
Deriváty a transformace: Některé zákony o autorských právech umožňují tvorbu odvozených děl a transformace existujícího obsahu za určitých podmínek. V případě AI generovaných děl může být otázka, zda jsou tato díla pouze kopie nebo zda mají dostatečnou originalitu, zmíněný převažující poměr zapojení autora před automatizací AI.
Licencování a dohody: Někteří tvůrci obsahu mohou vytvářet díla AI na základě dohod, které upravují vlastnictví a využití takových děl. Je důležité, aby tvůrci byli jasně a transparentně informováni o tom, jak budou jejich díla využívána. Zjednodušeně máte zadavatele, který si u Vás objedná dílo vytvářené AI a následně ho využívá již mimo kontrolu zpracovatele zadání, který ho spoluvytvořil pomocí AI. Ten by měl samozřejmě při zadání a vytváření respektovat stejné principy tvorby, jako by byl koncovým uživatelem generovaného obsahu.

Je důležité, aby se právní a regulační rámce přizpůsobily rychlému vývoji AI a generativního obsahu. Zároveň je třeba najít rovnováhu mezi ochranou autorských práv a podporou inovací. Zmírňování nejistoty ohledně autorských práv v generativním umění může pomoci vytvořit prostředí, kde tvůrci mohou tvořit a inovovat s větší jistotou a respektem k právním předpisům. Měla by existovat otevřená diskuze mezi právníky, tvůrci AI, umělci a společností, aby se pro tuto problematiku našla spravedlivá a udržitelná řešení.

Zároveň je třeba mít na paměti, že technologie AI může být také využita k ochraně autorských práv a detekci porušení těchto práv. Celkově je to velmi komplexní otázka, která vyžaduje pozornost několika různých zainteresovaných stran a průzkum nových právních a regulačních přístupů k řešení problémů spojených s autorskými právy a generativním obsahem. Nyní je to vše ve velmi rychlém vývoji, ale spíše na straně technologie, protože zdroje platforem AI rostou jak houby po dešti v jednotkách za měsíc a je to nyní tak trochu taková digitální zlatá horečka.

Žádný objekt v obrazových příloha k tomu článku není skutečný. Všechny byly vygenerovány programy založených na principu A.I.
(archiv: Martin Ondráček a Martin Lukeš)

Sdílet na

Facebook

Twitter

E-mail

Komentáře k článku

Diky za skvely rozhovor!

Mirka, 2. 12. 2023 |Reagovat

Přečtěte si také

Vyhlášení výsledků fotosoutěže PORTRÉTNÍ RETUŠ a video soutěže ONE-TAKE

30. 4. 2024 v 11:10 • RUBRIKA: BLOG

Jak fotit digitální zrcadlovkou (DSLR) a bezzrcadlovkou: 38. díl - optimalizace dynamického rozsahu

MARTIN LUKEŠ • 23. 4. 2024 v 14:16 • RUBRIKA: FOTOPORADNA

Jak fotit digitální zrcadlovkou (DSLR) a bezzrcadlovkou: 37. díl - režim HDR a expoziční bracketing

MARTIN LUKEŠ • 12. 4. 2024 v 11:28 • RUBRIKA: FOTOPORADNA

Všechny články rubriky Rozhovory

Když chybí přirozená nedokonalost. O AI s Martinem Ondráčkem

Obsah

Mohl byste se v krátkosti představit? Odkud jste, pracujete nebo studujete a tak obecně?

Předpokládám správně, že než jste se dostal k nástrojům AI, tak jste fotil? Případně jak dlouho a co?

Vzpomenete si, kdy jste otevřel pomyslnou Pandořinu schránku a zkusil poprvé vygenerovat nějaké obrázky pomocí platformy postavené na principu umělé inteligence?

Je to samozřejmě hodně široké téma, ale dokázal byste nějak v kostce popsat rozdíly mezi jednotlivými nástroji, které jste měl možnost vyzkoušet?

Přednastavené textové výzvy

Přednastavené stylizace a efekty

Diverzita a výběr

Trénink a ladění modelů

Používání modelu

Výběr parametrů

Manuální úpravy

Konzultace s komunitou

Etika a korektnost

Automatizace

Zatím jsem to nikdy nezkoušel, ale zajímalo by mě, když zadám stejná klíčová slova stejnému nástroji třeba druhý den, nebo kdyby seděli dva editoři vedle sebe, a napsali výzvu se stejným zadáním, jak moc se bude lišit výsledek?

Jde nějakým způsobem nástroji dát nějaká vstupní data, například v podobě skici, obrázku, nebo fotky, se kterou bude dále pracovat tak, aby byl výsledek přesnější vzhledem k mé představě?

Je nějaký rozdíl v tom, když jsou klíčová slova zadávána v češtině a v angličtině?

Pro generované AI fotografie

Referenční fotografie

Styl a nálady

Sdílet na

Komentáře k článku

Přečtěte si také

Vyhlášení výsledků fotosoutěže PORTRÉTNÍ RETUŠ a video soutěže ONE-TAKE

Jak fotit digitální zrcadlovkou (DSLR) a bezzrcadlovkou: 38. díl - optimalizace dynamického rozsahu

Jak fotit digitální zrcadlovkou (DSLR) a bezzrcadlovkou: 37. díl - režim HDR a expoziční bracketing

Aby náš web správně fungoval

Možnosti nastavení souhlasu