Google Gemini, uygulamada yerleşik görüntü düzenlemesini tanıttı


Google, gelişmiş AI destekli görüntü düzenleme araçlarını doğrudan Gemini uygulamasına entegre etti ve kullanıcıların hem AI tarafından üretilen hem de yüklenen resimleri metin istemleri aracılığıyla manipüle etmelerini sağladı.

5 Mayıs 2025’te küresel olarak piyasaya sürülen güncelleme, çok adımlı düzenleme iş akışları, bağlamsal metin entegrasyonu ve gömülü etik önlemler sunuyor.

Bu, ana akım bir tüketici yapay zeka asistanında yerel olarak uygulanmıştır.

– Reklamcılık –
Google Haberleri

Yeni özellik seti, 2025’te başlatılan deneysel AI stüdyo platformunda, ilk olarak Google’ın boyama (nesne değiştirme), boş boyama (arka plan genişletme) ve stil transfer algoritmaları kapasitesini gösteren.

Bu araçları Gemini uygulamasına taşıyarak Google, metin tabanlı istemler ve görsel düzenleme arayüzleri arasında gerçek zamanlı işbirliği sağlar.

Sistem görüntüleri, yapısal tutarlılık için detay üretimi ve evrişimsel sinir ağları için difüzyon modellerini birleştiren hibrit bir mimari ile işler ve görüntü çözünürlüğünü tehlikeye atmadan piksel seviyesi modifikasyonlara izin verir.

Kullanıcılar artık kişisel fotoğraflar veya İkizler tarafından oluşturulan resimler yükleyebilir ve konuşma istemleri aracılığıyla sıralı düzenlemeler uygulayabilir.

Örneğin, bir portreyi değiştirmek, önce “sarı bir şapka ekle” i ve ardından “arka planı plaj gün batımı” yerine getirmeyi ve her adımın tahribatsız katman istiflemesi yoluyla önceki düzenlemeleri korumayı içerebilir.

Çerçeve, oturum başına 15’e kadar yinelemeli modifikasyonu destekler ve kullanıcıların başkalarını tutarken belirli değişiklikleri geri döndürmesine izin veren otomatik geçmiş takibi.

Gelişmiş düzenleme özellikleri ve kullanım durumları

Google’ın uygulaması üç teknik yenilik sunar: koşullu nesne değiştirme, semantik stil eşleştirme ve çapraz modal hizalama.

Nesne değiştirme sistemi, hem görsel desenlere hem de kullanıcı niyetine dayalı düzenlenebilir öğeleri tanımlamak için dikkat mekanizmalarını kullanır ve arka plan ayrıntılarını korurken evcil hayvan fotoğraflarında köpek ırklarını değiştirmek gibi kesin ikameleri sağlar.

Stil eşleştirme algoritmaları, uyumlu estetik ayarlamalar uygulamak için referans görüntülerden renk paletlerini, doku modellerini ve kompozisyon prensiplerini analiz eder.

Önemli bir ilerleme, uygulamanın dönüştürücü düzenlemeler sırasında anatomik tutarlılığı koruma yeteneğidir.

Portrelerdeki saç modeli veya vücut oranları gibi özellikleri değiştirirken, AI geometrik derin öğrenme modelleri aracılığıyla aydınlatma yönünü, gölge ilişkilerini ve perspektif geometrisini korur.

Bu, eşleşmeyen yansımalar veya mantıksız ekstremite yerleşimleri gibi yaygın üretken AI artefaktlarını ele alır.

Güncelleme ayrıca multimodal iş akışlarını da geliştiriyor. Kullanıcılar, her bir anlatı revizyonunun karşılık gelen görüntüleri otomatik olarak ayarladığı ejderha temalı bir yatmadan önce hikaye oluşturarak, dinamik olarak güncellenmiş görsellerle resimli hikaye tahtaları isteyebilir.

Kurumsal uygulamalar, işbirlikçi tasarım oturumları sırasında e-ticaret listeleri için gerçek zamanlı ürün fotoğraf düzenleme ve mimari görselleştirme değişikliklerini içerir.

Etik korumalar ve küresel sunum

Gemini’nin düzenleme araçları ile oluşturulan veya değiştirilen tüm görüntüler, çift filigranlar alır: piksel verilerine gömülü yerleşik senthid kriptografik tanımlayıcı ve sol alt köşede AI tutulumunu gösteren yeni bir görünür filigran.

Google, güncellenmiş içerik politikasını ihlal eden talepleri engelleyen ve canlı bireyleri hedeflemeyi yasaklayan, rıza veya geçmiş figür tasvirleri olmadan düzenlemeyi yasaklayan insan geri bildirimleri (RLHF) filtrelerinden takviye öğrenimi uyguladı.

Sunum, bölgesel AI düzenlemelerine uyum sağlamak için aşamalı coğrafi dağıtım kullanır. İlk kullanılabilirlik, bekleyen üretken medya mevzuatına sahip yargı alanları hariç, Kuzey Amerika, Avrupa ve APAC bölgelerindeki 45 dili kapsamaktadır.

Sunucu tarafı işleme, Google’ın TPU V5 altyapısında yüksek çözünürlüklü çıkış boyama gibi hesaplama yoğun görevlerin gerçekleşmesini ve iOS ve Android istemcileri genelinde performans paritesini korumasını sağlar.

Gelecekteki güncellemeler, MultiView Inputs’tan kare tutarlı video düzenleme ve 3D model oluşturma, Gemini’yi hem tüketici hem de profesyonel içerik oluşturma için kapsamlı bir araç olarak konumlandıracak.

Bu gelişmelerle Google, üretken yetenekleri konuşma yapay zekası iş akışlarına entegre ederek bağımsız görüntü editörlerine meydan okuyor ve birleşik multimodal arayüzlere doğru stratejik bir kaymaya işaret ediyor.

Bu haberi ilginç bul! Anında güncellemeler almak için bizi Google News, LinkedIn ve X’te takip edin!



Source link