Am 14. März 2025 wird über die neueste Version von Googles „Gemini 2.0 Flash“ berichtet, einem multimodalen KI-Modell, das in Googles AI Studio kostenlos und unbegrenzt genutzt werden kann. Dieses Modell ermöglicht nicht nur die Verarbeitung von Text, sondern auch die Bearbeitung und Generierung von Bildern, Videos und Audio. Besonders hervorgehoben wird die Fähigkeit zur Bildbearbeitung, die als so leistungsstark angesehen wird, dass sie traditionelle Software wie Photoshop überflüssig machen könnte.
Funktionen der Bildbearbeitung:
- Einfärben von Fotos: Ein Schwarz-Weiß-Foto wird in wenigen Sekunden realistisch koloriert.
- Nachtszene mit Milchstraße: Ein Foto wird in eine Nachtszene mit sichtbarer Milchstraße umgewandelt.
- Hintergrund verwischen: Der Hintergrund eines Fotos wird unscharf gemacht, um einen professionellen Tiefenschärfe-Effekt zu erzeugen.
- Personen entfernen: Personen im Hintergrund eines Fotos werden automatisch entfernt.
- Personen hinzufügen: Leere Stühle in einem Bild werden mit sitzenden Personen gefüllt.
- Bildgenerierung: Neue Bilder werden basierend auf Textbeschreibungen erstellt, z. B. ein Lehrer vor einer Tafel mit korrektem Text oder eine Hochzeitseinladung für „Jack und Jill“ am 30. März 2025.
Weitere Anwendungen:
- Rezepte mit Bildern: Gemini 2.0 Flash erstellt eine Anleitung für Blaubeermuffins mit Bildern zu jedem Schritt.
- Storyboard-Erstellung: Ein visuelles Storyboard für „Cinderella“ wird mit konsistentem Stil generiert.
- Skizzenverfeinerung: Eine grobe Skizze wird in Lineart und anschließend in ein farbiges Bild umgewandelt.
- Innenarchitektur: Ein Foto wird in einen minimalistischen, modernen Stil umgestaltet.
Technische Details:
- Die Bearbeitung erfolgt in AI Studio, wobei „Gemini 2.0 Flash Experimental“ ausgewählt werden muss.
- Die Verarbeitung ist schnell (5–7 Sekunden pro Aufgabe) und die Ergebnisse können heruntergeladen werden.
- Es unterstützt auch fremdsprachigen Text, wie z. B. Chinesisch, korrekt.
Vergleich mit anderen Tools:
Im Vergleich zu Open-Source-Tools wie „Omnigen“ oder „Magic Quil“, die ähnliche Funktionen bieten, ist AI Studio einfacher zu nutzen, da keine lokale Installation erforderlich ist. Allerdings fehlt die Möglichkeit, NSFW-Inhalte zu generieren, die bei Open-Source-Modellen verfügbar ist.
Zusätzliche Multimodalität:
Gemini kann Videos (z. B. eine 37-minütige YouTube-Zusammenfassung) und Audio (Transkripte mit Zeitstempeln) analysieren, was es zu einem vielseitigen Werkzeug für den Alltag macht.
Fazit:
Gemini 2.0 Flash wird als bahnbrechend beschrieben, da es Bildbearbeitung, -generierung und multimodale Analysen vereint. Es ist kostenlos in AI Studio verfügbar und könnte Anwendungen wie Photoshop oder Canva in bestimmten Bereichen ersetzen. Nutzer werden ermutigt, die Möglichkeiten selbst zu erkunden und Feedback zu teilen.