Midjourney V6 Style Reference – endlich durchgängige Bildstile?
Sind Style References die neue Funktion, auf die alle gewartet haben? Das will ich in diesem Artikel herausfinden und euch zeigen, wie man mit der neuen Funktion arbeiten kann und was noch nicht gut funktioniert.
Wie bei allen neuen KI-Features ist noch nicht alles perfekt. Viele KI-Tools wurden in ihrer Beta-Version veröffentlicht und werden erst durch die Nutzung und Feedbacks der User:innen nach und nach verbessert. Wir sind also die Testpersonen und helfen, KI mitzutrainieren.
Während sich mein Buch "KI für Kreative – Künstliche Intelligenz für Grafik und Design" gerade im Druck befindet und Anfang März in den Handel kommt, hat Midjourney eine neue Funktion veröffentlicht, die Style References. Doch das macht nichts, denn im Buch lernst du verschiedene Tools kennen, wie du deine eigenen Prompts entwickelst und KI in deinen Kreativworkflow integrierst. So fällt es dir leichter, neue Funktionen zu testen und in deinen Workflow zu integrieren. Denn für blutige Anfänger:innen kann es frustrierend sein, wenn es nicht ganz so klappt wie erwartet.
Was sind Style References?
Midjourney bietet schon länger verschiedene Möglichkeiten, um mit Stilen zu arbeiten. Es gibt Stylize, um die Bilder "künstlerischer" zu gestalten, was man mit dem Parameter --stylize und Werten zwischen 0 und 750 machen kann. Dann gibt es Style, womit man den Raw-Modus aktivieren kann, um KI-Bilder mehr "realistisch" zu gestalten. Besonders bei der Version 6 soll das zu besseren Ergebnissen führen. Den Raw-Modus kann man mit --style raw am Ende des Prompts aktivieren. Dann gibt es den Style Tuner, dessen Funktionsweise ich im Buch erkläre. Doch was ist nun "Style References"?
Zum Zeitpunkt dieses Artikels ist die Funktion so neu, dass man dazu noch nichts in der Dokumentation von Midjourney finden kann. Doch im Discord-Channel wird man fündig.
Diese Funktion soll es User:innen erlauben, konsistentere Stile über mehrere generierte Bilder hinweg anzuwenden, indem man ein Referenzbild hochlädt. Das bedeutet, dass man auch eigene Bilder und Referenzen nutzen kann, was die Funktion vom sehr gut gemachten Style Tuner abhebt, denn da arbeitet man ja mit einem Bildprompt und wählt dann verschiedene generierte Referenzbilder aus.
Das Bild muss hochgeladen werden, entweder im Discord oder aus einer anderen Bildquelle (Achtung: Rechte Dritter beachten!). Zusätzlich benötigt man einen Textprompt, der dann mit dem Parameter --sref URL enden soll. Diese Funktion funktioniert leider nur in den neuen V6-Modellen von Midjourney.
Erste Schritte mit Style References
Zunächst wollte ich probieren, wie man ein Kampagnenvisual generieren und dann adaptieren könnte. Als fiktives Projekt habe ich an etwas wie Outdoor und GoPros gedacht (inspiriert durch 7 vs. Wild). Das Urpsrungsbild habe ich mit der Version 5.2. gemacht, da ich zunächst nicht wusste, dass es die Funktion nur mit V6 gibt. Das Ergebnis war aber toll, also habe ich mit dem Ausgangsbild gearbeitet. Ich zeige euch gleich noch denselben Prompt mit Version 6.
/imagine a young woman standing in a forest in colorful clothes making selfie with a go pro whole throwing camera in the air, strong sunlight, happiness overflow, wide angle perspective, birds view, editorial photoshoot
Bild 1 mit Version 5.2, Bild 2 mit Version 6 generiert.
Ich habe mich für das Bild aus Version 5.2 entschieden, da es genau das ist, was ich im Kopf hatte. Doch nun müssen wir ja zu Version 6 wechseln, was natürlich auch anders an die Bildgenerierung herangeht als das vorherige Modell. Um zum Modell V6 zu wechseln, gebe ich in Discord in die Kommandozeile /settings ein. Hier kann ich nun die Version wechseln, oder am Ende eines jeden Prompts mit dem Parameter --v 6.0 die gewünschte Version angeben.
Da ich das Ausgangsbild mit Midjourney generiert habe, muss ich es nicht hochladen, sondern kann mir das Bild im Browser öffnen und mir den Link kopieren. Schaue, dass der Link mit der Dateiendung (*.png) endet. Dann kopiere ich mir meinen Ursprungsprompt und versuche nun, verschiedene Motive zu generieren. Der neue Prompt ist folgender:
/imagine a young man in a winter landscape taking a selfie with a gopro throwing in the air, it is cold but he is smiling, warm sunlight
Mit Style Reference sieht er so aus: /imagine a young man in a winter landscape taking a selfie with a gopro throwing in the air, it is cold but he is smiling, warm sunlight --sref https://s.mj.run/zlQP7rJLCVk
Ich probiere den Prompt zunächst ohne Style Reference mit Version 6 und dann mit Style Reference, um den Unterschied zu sehen.
Bild und Collage 1 ohne Style Reference, Bild und Collage 2 mit Style Reference
Man hätte auch mit dem Bild ohne Style Reference arbeiten können. Was aber auffällt ist, dass mit Style Reference Perspektive, Bildstil und die Linsenverzerrung des Hintergrunds mehr dem Referenzbild ähneln.
Das "Problem" mit V6 – Promptanpassungen
Die Version 6 von Midjourney ermöglicht nun großartige fotorealistische Bilder, aber auch sie ist nicht perfekt. Das Prompting hat sich mit dieser Version ebenfalls geändert – so werden einzelne Begriffe stärker gewichtet. In meinem Beispiel erscheinen plötzlich Kameras in den Händen, obwohl die Kamera ja für das Selfie verwendet wird. Daher muss ich den Prompt anpassen. Ein Negativprompt mit --no camera, gopro hat leider nichts gebracht. Also hier ein neuer Promptversuch:
/imagine a middle aged woman in neopren on a surfboard on the ocean taking a selfie, she is smiling, sunset --no camera, smartphone, device --sref https://s.mj.run/zlQP7rJLCVk --v 6.0
Hier das Ergebnis aus dem abgeänderten Prompt mit Style Reference. Hier würde ich jetzt keines der Bilder verwenden wollen, da diese zu verzerrt sind.
Nach langem hin und her und Versuchen, den Prompt abzuändern, habe ich den Prompt ganz einfach gehalten und hatte damit mehr Erfolg. Auch wenn die KI gerne mal Abbildungen von Kameras oder Smartphones erstellt, gibt es auch Bilder ohne Kamera. Tatsächlich scheint Style Reference sehr viel vom Originalbild zu übernehmen, denn auch hier stimmen Perspektive, Hintergrund, Bildstil und Co. Doch so ganz ist es das nicht. Vielleicht kann ich mit Gewichtung hier nachhelfen?
Style Weighting (Gewichtung des Bildstils)
Das Weighting gehört schon zu den fortgeschritteneren Funktionen im Prompting. Verschiedene Arten des Weightings in verschiedenen KI-Modellen zeige ich ausführlich in meinem Buch. Auch bei den Style Preferences kann man mit Gewichtung arbeiten. Dazu gibt man direkt nach der URL den Parameter ::1–10 ein. 1 gibt dabei eine niedrigere Preferenz an, 10 die höchste. Ein Prompt könnte dann folgendermaßen aussehen:
/imagine older man in an ice cave taking a selfie, smiling, sunset --no camera, smartphone, device --sref https://s.mj.run/zlQP7rJLCVk ::5
Ich habe einmal den Wert 1 und einmal den Wert 5 ausprobiert. Ich sehe kaum einen Unterschied. Könntet ihr sehen, welche Gewichtung hier jeweils greift? Bei meinen Tests sehe ich kaum Unterschiede.
Weitere Möglichkeiten und Grenzen austesten
Es können mehrere Bilder als Style Reference dienen, im Discord-Artikel werden bis zu drei genannt. Das kann der KI natürlich helfen, den Stil auf die verschiedensten Bilder anzuwenden. Also lade ich jetzt drei der besten Bilder aus der Serie hoch und nutze sie im Zusammenhang mit einem ganz anderen Prompt. Welche Bilder es sind, seht ihr, wenn ihr auf die jeweiligen Links im Prompt klickt.
/imagine couple going on a hike in the woods --sref https://s.mj.run/zlQP7rJLCVk https://s.mj.run/rvrQOQ-0k50 https://s.mj.run/8nqDKDLOXNE
Die Ergebnisse sind wild … hier würde ich eher mit einem neuen Prompt herangehen als mit Style References arbeiten.
Wie sieht es mit weiteren Motiven aus dem Sportbereich aus? Es gestaltet sich eher schwierig. Hier ein paar Prompts:
/imagine a woman on a skateboard --sref https://s.mj.run/zlQP7rJLCVkhttps://s.mj.run/rvrQOQ-0k50https://s.mj.run/8nqDKDLOXNE
/imagine a man riding a bike --sref https://s.mj.run/zlQP7rJLCVkhttps://s.mj.run/rvrQOQ-0k50https://s.mj.run/8nqDKDLOXNE
Die Prompts weichen zu sehr vom Referenzbild ab. Die Ergebnisse sind ebenfalls nicht nutzbar. Aber es ist interessant, die Grenzen auszutesten.
Mit weiteren Parametern kombinieren
Wir können Style References natürlich in Kombination mit weiteren Parametern verwenden.
Style Raw
Zunächst testen wir den Style-Raw-Modus (--style raw) und geben der Dame auf dem Surfbrett noch eine Chance.
/imagine a middle aged woman in neopren on a surfboard on the ocean taking a selfie, she is smiling, sunset --no camera, smartphone, device --style raw --sref https://s.mj.run/zlQP7rJLCVk --v 6.0
Die Bilder sind viel realistischer und nicht mehr so verrückt wie die bisherigen Beispiele.
Stylization
Im Discord-Channel wurde ja empfohlen, mit --s 0–1000 das Ergebnis mehr oder weniger stilistischer zu generieren.
/imagine a middle aged woman in neopren on a surfboard on the ocean taking a selfie, she is smiling, sunset --no camera, smartphone, device --s 500 --sref https://s.mj.run/zlQP7rJLCVk
Mit Stylize 500 sind die Bilder noch etwas stimmungsvoller.
/imagine a middle aged man in neopren on a surfboard on the ocean taking a selfie, he is miling, sunset --no camera, smartphone, device --s 1000 --sref https://s.mj.run/zlQP7rJLCVk
Mit Stylize 1000, also auf Maximum, sind die Bilder noch ansprechender, aber auch weiter weg vom Ausgangsbild.
Fazit und Learnings
Dies waren erste Versuche mit einer sehr neuen Funktion, die, wie oben im Discord-Post zu lesen ist, auch immer mehr verbessert wird. Ich bin erstaunt, wie viel Einfluss das Referenzbild auf das Ergebnis hat. Das eröffnet wirklich neue Möglichkeiten. Midjourney bietet mittlerweile eine Reihe von Gestaltungsmöglichkeiten an, wie ihr zu Beginn des Posts gesehen habt. Daher rate ich immer, auszutesten, sich mit den Funktionen vertraut zu machen und dann zu schauen, was für den eigenen Zweck gerade am besten funktioniert.
Ich habe gelernt, dass bei dieser Funktion zum jetzigen Zeitpunkt dem Original ähnliche Prompts besser funktionieren – zumindest in diesem Beispiel. Das kann bei anderen wieder ganz anders aussehen. Also habe ich meine Prompts noch einmal angepasst und die Ergebnisse sind wesentlich besser.
Also nur, weil etwas nicht gleich klappt, heißt das nicht, dass die Funktion nichts taugt. Ich hoffe, ich konnte dir dabei helfen, die Funktion besser zu verstehen und du eine gute Anwendung dafür findest. Viel Spaß!
/imagine a man on a bike trail taking a selfie --sref https://s.mj.run/zlQP7rJLCVk https://s.mj.run/rvrQOQ-0k50 https://s.mj.run/8nqDKDLOXN
/imagine a woman in a skatepark taking a selfie --sref https://s.mj.run/zlQP7rJLCVk https://s.mj.run/rvrQOQ-0k50 https://s.mj.run/8nqDKDLOXN
/imagine a middle aged woman in neopren on a beach taking a selfie --sref https://s.mj.run/zlQP7rJLCVk https://s.mj.run/rvrQOQ-0k50 https://s.mj.run/8nqDKDLOXN
/imagine a diver in the coral riff taking a selfie --sref https://s.mj.run/zlQP7rJLCVk https://s.mj.run/rvrQOQ-0k50 https://s.mj.run/8nqDKDLOXN
Hier habe ich verschiedene Szenen dargestellt, immer das Selfie als Hauptmotiv. Das hat viel besser geklappt.
In einer Zeit, in der die Unsicherheit rund um KI groß ist und wir täglich von einer Flut an Nachrichten, kritischen Berichten, endlosen Promptlisten und den neuesten Must-Have-KI-Tools überwältigt werden, erscheint es umso wichtiger, Klarheit zu schaffen. Dieses Buch bietet Kreativen fundierte Einblicke in das Arbeiten mit KI und soll sie dazu befähigen, KI sinnvoll sowie nachhaltig für ihre Zwecke einzusetzen.