Jak pisać skuteczne prompty do AI? Generowanie obrazów i sztuki

Sztuczna inteligencja to potężne narzędzie, które można wykorzystać do szybkiego generowania obrazów. Jest w stanie wykonać pracę, która w innym przypadku zajęłaby wiele godzin. W dodatku wykonuje ją w kilka sekund! Prompty to komendy, od których zaczyna się magia AI.

AI jest już wykorzystywana do:

  • tworzenia sztuki “na zawołanie”,
  • generowania obrazów do mediów społecznościowych,
  • tworzenia fotorealistycznych zdjęć, krajobrazów,
  • poprawiania istniejących grafik,
  • opracowywania miksów różnych motywów, zdjęć i kreacji.

Przykład? Poprosiliśmy Midjourney o wygenerowanie fotorealistycznego zdjęcia mentora, który może nas nauczyć lepszego promptowania.

Obrazy wygenerowane przez Midjourney. Prompt (2 poprawki): Create photorealistic image of a technology IT mentor, who will be guiding the journey to learn AI prompting, include computer or modern screen, some commands for prompting. Show some positive emotion of curiosity. Man with hair. On the Screen show some prompts. Lighting brighter, award-winning photography, technology, friendly, safe, secure, photorealistic, fine details, Photographic-filter, deep focus –ar 3:2 –v 6.1

Co to jest prompt?

Prompt to komenda, którą wydaje się sztucznej inteligencji. Prompty stały się narzędziami do projektowania sztuki i obrazów. Za pomocą promptów, czyli prostych komend w postaci paru linijek tekstu, jesteśmy w stanie wygenerować obrazy i użyteczne grafiki.

Jak pisaliśmy w artykule o podstawach promptowania, prompt to po prostu sposób na opisanie sztucznej inteligencji tego, co dokładnie chcesz się od niej uzyskać. W naszym przypadku będziemy więc szczegółowo opisywać to, co chcielibyśmy otrzymać na grafikach.

Czy warto zacząć uczyć się promptingu?

Warto nauczyć się tworzenia skutecznych promptów, bo dzięki temu można szybko uzyskać oryginalne grafiki, które zrealizują nasze biznesowe i osobiste cele. Obrazy te mogą być przydatne:

  • do postów na media społecznościowe, które przyciągną wzrok i pomogą wyróżnić się w sieci,
  • do prezentacji, wzbogacając slajdy i pomagając lepiej przekazać informacje lub pomysły,
  • materiałów marketingowych, takich jak ulotki, plakaty czy reklamy, które można stworzyć bez potrzeby wynajmowania grafika,
  • generowanie obrazów daje duże możliwości w realizowaniu pomysłów artystycznych, tworzeniu dekoracji lub unikalnych prezentów,
  • przydają się również w nauce i edukacji, bo pomagają zilustrować, zrozumieć iz zapamiętać skomplikowane tematy.

Na pierwszy rzut oka korzyść jest oczywista: nie trzeba uczyć się skomplikowanego narzędzia graficznego, wystarczy umiejętność formułowania promptów. Dzięki temu osiągnięcie zamierzonego efektu jest prostsze i szybsze, nawet bez umiejętności rysowania czy fotografowania. Pytanie jednak brzmi, czy promptowanie jest na tyle proste, żeby osiągnąć to, co podpowiada nam kreatywność i wyobraźnia?

Najważniejsze modele AI do generowania obrazów

Rewolucję AI napędza model językowy GPT-4 (Generative Pretrained Transformer, czyli wytrenowany transformer generujący). Jest to model machine learning, który służy to generowania tekstu. Sztuczna inteligencja wywołana promptem próbuje przewidzieć dalszą część tekstu.

Najważniejsze transformery text-to-image, czyli tworzenie grafik za pomocą tekstowych instrukcji, to Midjourney, DALL-E zintegrowany z ChatGPT od OpenAI i Stable Diffusion,.

Jak pisać dobre prompty?

Trzymając się kilku zasad będziemy w stanie szybko przejść z poziomu początkującego promptera do osoby mogącej wygenerować obrazy do wielu różnych zastosowań.

  • opisz dobrze temat grafiki,
  • odkryj i stosuj style artystów, które są rozpoznawane przez używany przez Ciebie model,
  • wyjaśniaj szczegóły swoich intencji i kontekst, przykładowo za pomocą wykrzykników, aby zwiększyć wagę komendy i nawiasów, aby zmniejszyć wagę komendy.

Ważne jest, aby już od samego początku korzystać z dorobku innych badaczy AI i inspirować się opublikowanymi promptami innych użytkowników.

Prompty w Midjourney

Midjourney to jeden z modeli do generowania obrazów. Aby korzystać z Midjourney, musisz założyć konto na Discordzie. Zarejestruj się, zaloguj i zapisz do serwera Midjourney, gdzie będziesz mógł tworzyć grafiki. Warto utworzyć własny serwer Discord i zaprosić tam bota, aby Twoje grafiki nie ginęły w gąszczu grafik innych użytkowników. Pozwoli Ci to mieć kontrolę nad projektami. Szczegółowa instrukcja jak szybko wystartować z Midjourney.

Midjourney jest dostępne w abonamencie. Koszt podstawowego planu to 96 dolarów rocznie, a plan średni kosztuje 288 dolarów rocznie. Płatność realizowana jest za pomocą Stripe. Warto zacząć od najniższego planu, aby nie przepłacać. Niezdecydowani użytkownicy mogą przystąpić do miesięcznej subskrypcji za 10 dolarów, aby potem kupić roczny abonament dopiero po potwierdzeniu, że to narzędzie naprawdę się przydaje.

Jaka jest największa korzyść już na start? Zamiast uczyć się zaawansowanych narzędzi graficznych, takich jak Corel czy Photoshop, w Midjourney skupiasz się na konstruowaniu tzw. “prompta”. Poprzez odpowiedni dobór słów i parametrów możesz stworzyć grafikę bliską z Twoją wizją.

Możesz korzystać z promptów po polsku, ale wyniki mogą być mniej precyzyjne niż w języku angielskim. Korzystanie po polsku będzie wiązało się z większym wysiłkiem dostosowania prompta.

Aby stworzyć pierwszą grafikę, użyj komendy "/imagine treść-prompta". W miejscu “treść-prompta” wpisz szczegółowy opis, na przykład: "/imagine wise trustworthy mentor to teach about AI". Pole na prompt będzie miało czarne tło. Midjourney wygeneruje cztery propozycje grafiki, które możesz następnie powiększyć lub modyfikować.

Układ grafik w Midjourney.
Kolejność grafik w Midjourney. Wybierz grafikę, na której chcesz dalej pracować i ją ulepszać.

Rozumienie komend i przycisków to klucz do modyfikowania grafik. “u1, u2, u3, u4” to opcje powiększenia danej wersji grafiki, a “v1, v2, v3, v4” pozwalają na stworzenie nowej wersji grafiki. Ikonka strzałek zapętlonych umożliwia wygenerowanie kolejnej wersji na podstawie tego samego promptu.

Pamiętaj, że grafiki tworzone w Midjourney są publiczne, każdy użytkownik może je zobaczyć i wykorzystać. Midjourney nie daje pełnych praw autorskich do grafik; AI nie jest uważane za twórcę, a Ty, jako autor promptu, nie jesteś właścicielem dzieła w sensie prawnym.

Jeśli chcesz dodać tekst do grafiki, zwróć uwagę na szczegóły i poprawność. Używaj podwójnych cudzysłowów, a po wygenerowaniu sprawdź efekt, często dobry efekt wymaga dodatkowych poprawek.

Futurystyczne miasto wygenerowane przez AI jednym promptem.
Prompt Midjourney: futristic city made out of glass : : close shot : : 3,5 mm, realism, octane render, 8 k, exploration, cinematic, trending on artstation, realistic, 3,5 mm camera, unreal engine, hyper-detailed, photo-realistic maximum detail, volumetric light, moody cinematic epic concept art, realistic matte painting, hyper photorealistic, concept art, volumetric light, cinematic epic, octane render, 8 k, corona render, movie concept art, octane render, 8 k, corona render, cinematic, movie concept art, cinematic composition, ultra-detailed, realistic, hyper-realistic, volumetric lighting

Jeśli przebijesz się przez instrukcję dla początkujących, kolejnym krokiem jest stworzenie warsztatu do promptingu. Społeczność Midjourney ma na Discordzie dostęp do promptów i obrazów wygenerowanych przez społeczność.

Przykład “designu projektu” wyobrażonego obiektu.

Prompt Midjourney: a full page design of spaceship engine, black and bronze paper, intricate, highly detailed, epic, infographic, marginalia –ar 9:16

Warto sprawdzić dokumentację modelu Midjourney.

Przydatne opcje Midjourney

Remix Mode: włącz go w /settings, aby modyfikować już wygenerowane grafiki.

Stylizacja --stylize <0-1000>: wyższa wartość nadaje obrazowi artystyczny charakter.

Vary Strong / Vary Subtle: silne i subtelne różnicowanie wersji grafiki pozwala uzyskać ciekawe odmiany promptu. Popraw efekt trochę licząc na szczęście.

Proporcje obrazu -ar: zmienia kształt obrazu, np. -ar 16:9 dla szerokich kadrów. Musi być w liczbach całkowitych, nie pisz zatem 1.5:1, tylko 150:100

Chaos --chaos <0-100>: dodaje losowości do wyników, nadając bardziej eksperymentalny charakter.

Seed: to unikalny identyfikator nadający grafikom losowy charakter. Jego znajomość umożliwia uzyskanie powtarzalnych wyników --seed.

Negatywne promptowanie --no <element>: usuwa niechciane elementy, np. --no water.

Jakość --quality <0.5-2>: wyższa liczba ma zapewnić lepszą szczegółowość grafiki.

Styl --style <nazwa>: wybierz styl grafiki, np. --style anime, --style photorealistic.

Panning: rozszerza kadr i pozwala dzięki temu zwiększyć grafikę.

Describe /describe: przesyłasz grafikę i otrzymujesz propozycję prompta, który mógłby taką wygenerować. Przydatny przy próbie powtórzenia stylu.

Blending /blend: umożliwia łączenie kilku obrazów w jeden, tworząc bardziej skomplikowane kompozycje, lub kombinacje motywów z różnych grafik.

Tryb raw --raw: zapewnia bardziej naturalny efekt, ograniczając stylizację.

Prompty w ChatGPT (DALL-E 3)

DALL-E, wymawiamy “Dalli”, generuje obrazy z komend tekstowych. Jest to wersja modelu GPT-4, trenowana na miliardach obrazów z internetu. Dostęp do DALL-E 3 mają wszyscy użytkownicy ChatGPT.

DALL-E 3 ma swoje solidne mocne strony w porównaniu do konkurencji. Jest zintegrowany z ChatGPT, co pozwala w jednym miejscu tworzyć i edytować obrazy oraz zadawać pytania o zmiany. DALL-E 3 jest po prostu łatwiejszy. Midjourney działa przez Discorda (lub w ograniczonym stopniu przez stronę internetową), co może być mniej intuicyjne dla nowych użytkowników.

DALL-E 3 umożliwia edytowanie obrazów, np. dodawanie lub usuwanie elementów, co daje dobrą kontrolę nad gotowym efektem. Midjourney koncentruje się na generowaniu nowych obrazów, ale również umożliwia edytowanie obrazów lub ich fragmentów.

ChatGPT pomaga przy złożonych promptach, dzięki czemu DALL-E 3 lepiej interpretuje skomplikowane opisy i detale, co jest przydatne przy tworzeniu bardziej realistycznych obrazów. Midjourney nadaje się świetnie do tworzenia artystycznych i kreatywnych obrazów, ale może nie oddawać dokładnie złożonych instrukcji, chociażby przez to, że usuwa część “nieważnych” według niego słów z prompta.

Z drugiej strony, DALL-E 3 ma bardziej restrykcyjne zasady bezpieczeństwa, aby unikać “nieodpowiednich” obrazów (kryteria akceptowalności ustala OpenAI!). Midjourney jest mniej ograniczone, co pozwala na większą swobodę artystyczną.

Prawa autorskie i komercyjne użycie to jeszcze niezbyt poznany obszar. Właściwie wszystkie narzędzia do generowania obrazów pozwalają na komercyjne wykorzystanie obrazów. DALL-E 3 ma bardziej restrykcyjne zasady dotyczące praw autorskich i wizerunków znanych osób, co zwiększa bezpieczeństwo przy użyciu grafik w biznesie, ograniczając jednocześnie możliwości tworzenia.

Jak szybko zacząć tworzyć obrazy w ChatGPT?

Po prostu wejdź na stronę ChatGPT i napisz w nowej konwersacji z botem jaki obraz chciałbyś zobaczyć.

Spróbujmy zadać mu zadanie podobne do tego, jakie dostał konkurent, czyli zdjęcie mentora technologicznego:

Prompt ChatGPT: Ultra photorealistic image of a technology mentor guiding someone in learning AI prompting. The mentor, a man with short hair, looks curious and positive, seated at a modern computer screen showing a gallery of detailed images without any text or letters. The scene is bright, friendly, and secure, inducing trust. The lighting is high-quality and vibrant, with award-winning photographic clarity, fine details, deep focus, and a sleek, modern technology setting. –ar 3:2

Nasz prompt, który skopiowaliśmy z Midjourney został w całości przepisany przez ChatGPT na bardziej przyjazny użytkownikowi. Jest to wręcz opisywanie historii, która dzieje się na grafice. Efekt jest gorszy, grafika to bardziej obrazek niż zdjęcie, teksty na ekranie, czy nierówne okna wymagają poprawy.

Prompty w Stable Diffusion

Stable Diffusion to technologia AI do generowania obrazów. Dostęp do niej jest w trybie Open Source, ma małe wymagania sprzętowe i jest praktycznie otwarty dla każdego. Czyni go to najlepszym wyborem dla tych, którzy nie są jeszcze gotowi na inwestycję w AI w postaci subskrypcji oprogramowania.

O Stable Diffusion możesz dowiedzieć się z reddita, a przykładowa instrukcja instalacji oprogramowania znajduje się tutaj. Aby wygenerować wysokiej jakości obraz w Stable Diffusion, prompt powinien pokrywać kilka obszarów.

  1. Temat (Subject) – powinien być dobrze i szczegółowo opisany
  2. Kategoria sztuki (Medium) – przykładowo: portrait, digital painting,
  3. Styl (Style) – popart, modernist, hyperrealistic
  4. Artysta (Artist) – np. Picasso
  5. Strona internetowa będąca źródłem zdjęć (Website) – np. pixabay, unsplash, artstation
  6. Rozdzielczość (Resolution) – unreal engine, 4k, 8k
  7. Dodatkowe szczegóły (Additional details)
  8. Kolor (Color) – vintage, gold…

Przykład stylu:

Stable Diffusion potrafi wygenerować nawet szkice w stylu renesansowych projektantów. Prompty są dostępne we wszystkich modelach.

Zastosowany prompt: a full page design of spaceship engine, black and bronze paper, intricate, highly detailed, epic, infographic, marginalia -ar 9:16

Jaki prompt został użyty do wygenerowania obrazka? Reverse engineering

Jak sprawdzić jaki prompt został użyty do wygenerowania obrazu? Midjourney ma tę opcję wbudowaną w komendę /describe. Jeśli zapytasz się ChataGPT o prompt, również odpowie po analizie przesłanej grafiki lub po sprawdzeniu adresu obrazka z internetu.

Czy da się odkryć prompty z obrazu?

Jak dokładniej sprawdzić prompty? Służy do tego na przykład CLIP Interrogator. Oprogramowanie sprawdza style, medium oraz artystów, po czym generuje najbardziej prawdopodobny prompt.

Jak promptowanie zmieni świat?

Ludzki mózg nie jest w stanie przetworzyć wszystkich informacji dostępnych na świecie. Dzięki sztucznej inteligencji możemy przystąpić do zadań, które wcześniej były dla ludzi niemożliwe. AI walnie przyczynia się do automatyzacji procesów. Automatyzacja to proces, w którym maszyny są tworzone tak, aby działały jak ludzie, lub mówiąc dokładniej, roboty. Proces odbywa się za pomocą komputerów i obejmuje zmniejszenie liczby kroków potrzebnych człowiekowi do wykonania zadania. W efekcie następuje zwiększenie wydajności i produkcji.

Tworzenie grafik i obrazów przechodzi właśnie rewolucję. Sztuczna inteligencja jest wykorzystywana do generowania obrazów zachwycających swoją jakością i łatwością ich stworzenia. W pierwszej kolejności pomoże to artystom usprawnić warsztat i zarobić więcej pieniędzy. Publiczność i biznes otrzyma również źródło fantastycznych dzieł.

Czy prompting to umiejętność przyszłości?

Wykorzystanie AI w generowaniu treści ma wiele zalet.

  • Po pierwsze, jest szybsze niż treści tworzone przez ludzi. Oszczędza się zatem pieniądze na kosztach pracy.
  • Po drugie, sztuczna inteligencja jest w stanie tworzyć treści, które są bardzo atrakcyjne i interesujące. Stanowi to poważną konkurencję do obrazów tworzonych ręcznie.
  • Po trzecie, wykorzystanie sztucznej inteligencji generuje obrazy wysokiej jakości, dzięki czemu mogą one znaleźć zastosowanie w biznesie i sztuce.
  • Po czwarte, AI zapewnia również spójność materiałów, wykorzystując algorytmy do tworzenia wzorów i struktur w obrazach. Może być to ważne dla firm, którym zależy na konsekwentnym wizerunku.

W IT wielu ludzi uświadomiło sobie już, że rola inżyniera promptingu i umiejętność wydawania komend sztucznej inteligencji to klucz do sukcesu w przyszłości. Wszyscy startujemy z jednego punktu, warto zatem szybko dołączyć do wyścigu. AI pozostaje z nami na dłużej.

Najnowsze artykuły

Dowiedz się więcej:

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Sprawdź nas na facebooku!