Probao desetke ai sajtova i na kraju zakljucio da su svi isti i da nikad neces dobiti bas ono sto zelis. Grok se pokazao kao najbolji.
Umjetna inteligencija zapela u krugu klišeja
- poruka: 5
- |
- čitano: 3.538
- |
- moderatori:
vincimus
- +/- sve poruke
- ravni prikaz
- starije poruke gore
Problem s umjetnom inteligencijom je što o njoj govore programeri, dakle proizvođači, a ne korisnici, dakle potrošači. Ovo što ovdje čitam već sam čuo od grafičkih dizajnera. NIšta neočekivano, jer kolikogod program bio sofisticiran, on je uvijek šablona, pa su i rješenja šablonska. Automat ostaje automat ma koliko bili izrađeni i dorađeni njegovi dijelovi. Kreativnost se očituje u neočekivanosti, u nestandardnosti i udaljavanju od norme, u spajanju nespojivog, da tako kažem. No teško je razumjeti kreativnost nekome tko nije i sam kreativan. Meni se sve čini da je AI zagazila predaleko, da se hoće primijeniti i tamo gdje se ne može i ne treba primijeniti.
vise je problema vidljivo iz clanka, toliko ocitih da se pitam nije li ovaj test proveden s namjerom da ne uspije, odnosno da dokaze ciljanu poantu.
jezicni i slikovni modeli nisu trenirani na jednaki nacin.
dakle, ono sto je jezicnom modelu "prime minister", slikovnom modelu je izuzetno apstraktan token, koji,da, moze varirati od sredovjecnog cike, srednjevjekovnog mudraca, ustvari iskreno sumnjam da je neki bitniji broj tokena posvecen frazi "prime minister".
isto je i s ostatkom prompta - to prvo nije sintaksa koju stari model poput sdxl moze shvatiti, a drugo, jos bitnije, to je prompt koji je jezicnom modelu savrseno jasan
upit - opisi sto je premijer jucer radio?
odgovor: "Premijer je proučavao strateške dokumente, pokušavajući uvjeriti javnost u krhki mirovni sporazum dok je žonglirao s teretom svog posla usred nadolazeće vojne akcije“
savrseno ima smisla, jer je teret vizualizacije scene na korisniku.
kada se taj isti prompt pokusa provuci kroz image model, koji su to zadani parametri koje ce on razumjeti i "crtati"? od tokena ce shvatiti eventualno da se "premijer" odnosi na muskarca, nedefiniranof izlgeda, starosti, da je negdje nedefinirano, da radi nesto nedefinirano, "documets" ce cec prepoznati, no bez daljnjeg navodjenja to mogu biti bilo kakvi papiri, novine, posteri......
di naravno da ce povecanjem broja iteracija on ispucati sve sto ima, i poceti crtati gluposti...
dakle, jednostavno, nespojivo, za sada, jer cak i modeli koji su specijalizirani da neke kratke opce natuknice pretvaraju u hiper detaljne promptove sa slozenom sintaksom koju moderni modeli (flux2,qwen, zit npr.) savrseno shvacaju rade upravo to - detaljan opis svakog pojedinog elementa slike.
a ne jednu recenicu kojoj je svrha postojanja da onaj koji je cita zamisli kako to u detalje izgleda.
Its just the way of it, son. We all sell our souls sooner or later.
vise je problema vidljivo iz clanka, toliko ocitih da se pitam nije li ovaj test proveden s namjerom da ne uspije, odnosno da dokaze ciljanu poantu.
jezicni i slikovni modeli nisu trenirani na jednaki nacin.
dakle, ono sto je jezicnom modelu "prime minister", slikovnom modelu je izuzetno apstraktan token, koji,da, moze varirati od sredovjecnog cike, srednjevjekovnog mudraca, ustvari iskreno sumnjam da je neki bitniji broj tokena posvecen frazi "prime minister".
isto je i s ostatkom prompta - to prvo nije sintaksa koju stari model poput sdxl moze shvatiti, a drugo, jos bitnije, to je prompt koji je jezicnom modelu savrseno jasan
upit - opisi sto je premijer jucer radio?
odgovor: "Premijer je proučavao strateške dokumente, pokušavajući uvjeriti javnost u krhki mirovni sporazum dok je žonglirao s teretom svog posla usred nadolazeće vojne akcije“
savrseno ima smisla, jer je teret vizualizacije scene na korisniku.
kada se taj isti prompt pokusa provuci kroz image model, koji su to zadani parametri koje ce on razumjeti i "crtati"? od tokena ce shvatiti eventualno da se "premijer" odnosi na muskarca, nedefiniranof izlgeda, starosti, da je negdje nedefinirano, da radi nesto nedefinirano, "documets" ce cec prepoznati, no bez daljnjeg navodjenja to mogu biti bilo kakvi papiri, novine, posteri......
di naravno da ce povecanjem broja iteracija on ispucati sve sto ima, i poceti crtati gluposti...
dakle, jednostavno, nespojivo, za sada, jer cak i modeli koji su specijalizirani da neke kratke opce natuknice pretvaraju u hiper detaljne promptove sa slozenom sintaksom koju moderni modeli (flux2,qwen, zit npr.) savrseno shvacaju rade upravo to - detaljan opis svakog pojedinog elementa slike.
a ne jednu recenicu kojoj je svrha postojanja da onaj koji je cita zamisli kako to u detalje izgleda.
Mislim da si dobro pogodio bit problema.
Ono što sam počeo viđati kod ekipe koja generiraju brutalne slike, su zapravo fotografi/kreativci, jer oni znaju jako detaljno objasniti što žele. Objasne kut iz koje se gleda, objektiv kamere, osvjetljenje, poza subjekta u fotki, koji su materijali prisutni na slici, i sve to do jako sitnih detalja. I vidi vraga, rezultati budu odlične slike. A onda sa druge strane ja kad kažem "napravi sliku di osoba gleda u nebo" dobiti ću ono što je on pretpostavlja da bi najčešće takva slika mogla biti, pa dobijemo te dupliće koji su slični jedno drugome.
Ono što meni najviše pomaže je kada radim slike/grafiku sa nano banana, što mogu brzo i lako iterirati, jer mu odmah komuniciram koje promjene želim (ponašam se kao onaj najgori klijent kojeg dizajner freelancer može imati
):
Spusti subjetku ruku, stavi oblak na lijevi dio, makni mačku iz kadra, stavi malo drveća, previše je makni sada, daj malo popravi svjetlo...
I onda dođem do onoga što mi treba
da, nano banana (gemini) je odlican, ali je istovremeno zbog cinjenice da ga ne mozes vrtiti lokalno ustvari shizofrenicni paranoik s manijom proganjanja, tesko filtriran i cenzuriran (mozda ne model per se, vec sajt koji ga hosta), tako da.
upravo to je kljuc razumijevanja generiranja slika - vremena prompta tipa "1woman, milf, busty" su prosla. vremena ogranicenog broja tokena su prosla.
novi modeli rade na principu kojeg bih ja nazvao multisefmentirani teksutalni opis, ili slikovitije - kratka prica.
gdje je do najsitnijih detalja opisano apsolutno sve - od same scene, subjekta, atmosfere, osjecaja kojeg slika izaziva, kuta kamere, osvjetljenja - sve sto covjek moze zamisliti, moze napisati, i u ovisnosti koliko detaljno i kvalitetno je napisano, dobit ce tocno ono sto je zamislio. ok, mozda ne identicno, ali, dobit ce gotovo covjecji pogled, kao da 10 ljudi procita istu stranicu knjige i svako od njih pokusa prenjeti u sliku svoju viziju.
jezicni model, bilo koji, moze se koristiti za postavljanje neke generalne ideje o slici, ali sami kvalitet ce ovisiti iskljucivo o mastovitosti prompta, njegovoj detaljnosti i posvecenosti detaljima, poaebice onim vezanim za tehnicke karakteristike slike.
dobra lokalna alternativa nano banani je qwen edit, koji radi istu stvar, u osnovi photoshop vodjen tekstom, no, banana je bolja.
sto bi se trebalo promijeniti uskoro izlaskom full modela z image, i z image edit modela, jer cak i basic "osiromaseni" turbo model rastura, sto god da mu zadas da generira...... i nije cenzoriran, doduse kao i svi modeli neke stvari jednostavno odbija napraviti ili ih ne napravi tocno, no, i to se mijenja.....
Its just the way of it, son. We all sell our souls sooner or later.
