2.2 | Überblick: zwei Arten von GenAi

Praxisorientiertes KI-Modul V6

In diesem Modul erhältst du einen Überblick über zwei grundlegende Arten von generativen KI-Modellen. Du lernst die Unterschiede zwischen sprach- und bildverarbeitenden Modellen kennen, verstehst ihre Funktionsweisen und entdeckst typische Anwendungsbereiche für beide Technologien.

Was du bereits weißt & was du lernst

1. Sprachmodelle (LLMs)

Definition & Funktionsweise

Große Sprachmodelle (LLMs) analysieren riesige Textmengen, um statistische Muster zu lernen. Dadurch können sie Kontexte verstehen und menschenähnliche Texte für verschiedenste Aufgaben generieren.

2. Bildmodelle

Definition & Funktionsweise

Bildgenerierungsmodelle wandeln Text-Prompts in Bilder um, oft mittels eines „Diffusionsprozesses“: Ausgehend von Rauschen wird schrittweise ein Bild geformt, das zur textuellen Beschreibung passt.

Vom Wissen zur Anwendung: Praxis-Tipps

Tipp 1: Führe einen Dialog

Betrachte Sprachmodelle wie ChatGPT als Gesprächspartner. Beginne einfach und verfeinere das Ergebnis schrittweise im Dialog, bis es perfekt zu deinen Anforderungen passt.

Tipp 2: Wähle das richtige Werkzeug zur Bildverbesserung

Für professionelle Ergebnisse ist die gezielte Verbesserung eines Bildes (iteratives Design) entscheidend. Je nach Anforderung gibt es dafür passende Werkzeuge.

Für den schnellen Einstieg:

ChatGPT (mit DALL-E): Ideal, um ein Bild im Dialog zu verfeinern. Gib nach der ersten Generierung einfach Folgeanweisungen wie „Ändere die Hauptfarbe zu Blau“ oder „Füge eine Person im Hintergrund hinzu“.
Canva („Text to Image“): Perfekt für die Integration in den Design-Alltag. Du generierst ein Bild und bearbeitest es sofort im Kontext deiner Präsentation oder deines Social-Media-Posts weiter.

Für Fortgeschrittene & maximale Kontrolle:

Midjourney: Bietet mächtige Befehle zur Variation, zum Panning und Zoomen, um eine Idee präzise weiterzuentwickeln und die Komposition zu steuern.
Adobe Photoshop (mit Generative Fill): Die erste Wahl für Profis, die KI-generierte Elemente pixelgenau in bestehende Bilder integrieren, retuschieren oder erweitern müssen.

Tipp 3: Erzeuge einen konsistenten Marken-Look

Für ein professionelles Branding müssen Bilder (z.B. für eine Blog-Serie) einen einheitlichen Stil haben. Dies erreicht man durch das Fixieren eines „Seeds“. Der Seed ist der zufällige Startpunkt für die Bildgenerierung.

Der Workflow ist einfach:

Erstelle ein „Key Visual“, das den gewünschten Stil perfekt trifft.
Fixiere dessen Seed-Nummer und verwende sie für alle weiteren Bilder.
Ändere nur den Motiv-Teil des Prompts.

Ergebnis: Du erhältst verschiedene Motive, die aber alle den gleichen visuellen Charakter haben. Plattformen wie Midjourney oder spezialisierte Business-Lösungen, wie der Bildgenerator der xpandAI Plattform, bieten solche Funktionen, um eine persistente Bildsprache sicherzustellen.

Tipp 4: Kombiniere Sprach- und Bildmodelle

Nutze ein Sprachmodell als intelligenten Assistenten, um einen erstklassigen Prompt für ein Bildmodell zu entwickeln.

Beispiel – Anweisung an ChatGPT:

Ich brauche einen hochdetaillierten Prompt für ein Bildmodell. Ziel ist ein Header-Bild für die "Über Uns"-Seite einer Tech-Beratungsfirma.
- Motiv: Ein diverses Team arbeitet in einem hellen, modernen Büro.
- Aktion: Sie diskutieren um einen Konferenztisch mit einer leuchtenden, holografischen Datengrafik.
- Stil: Fotorealistisch, professionelle Kamera, leicht unscharfer Hintergrund (Bokeh).
- Farben: Die Büroeinrichtung ist neutral, die Datengrafik soll unsere Markenfarben (kräftiges Blau und Silber) aufgreifen.
Erstelle daraus einen prägnanten, englischen Prompt.

Dein Take-away

Generative KI teilt sich auf in Sprachmodelle für Text und Bildmodelle für Visuelles.
Für professionelle Ergebnisse ist die iterative Verbesserung entscheidend. Wähle das passende Tool für den Job, von zugänglichen Einsteiger-Optionen bis zu Profi-Werkzeugen.
Nutze Techniken wie das Fixieren eines „Seeds“, um eine konsistente Bildsprache für deine Marke über mehrere Bilder hinweg zu gewährleisten.
Setze Sprachmodelle als strategische Partner ein, um erstklassige Prompts für Bildmodelle zu entwickeln und so deine Ziele schneller zu erreichen.