OpenAI’ın Metinden Video Üreten Yapay Zekâ Modeli: Sora

Metin komutlarını ayrıntılı videolara dönüştüren bir yapay zeka modeli Sora heyecan ve şüphe yarattı. İlk bakışta klip, bir müzik videosundan veya şık bir araba reklamından alınmış görüntülere benziyor: Güneş gözlüklü bir kadın, etrafı yayalar ve parlak ışıklı tabelalarla çevrili bir şekilde geceleyin şehrin bir caddesinde yürüyor. Elbisesi ve altın halka küpeleri her adımda sallanıyor. Ancak bu bir TV reklamı veya müzik videosu için yapılmış bir kayıt değil. Aslında bu gerçek bir şeyin görüntüsü değil. Ekranın ötesinde kadın yok, sokak da yok!

Akıllı cihazlar üzerinden yapılabilcekler artık sınır tanımaz hale geldi. Videodaki her şey, Dall-E ve ChatGPT’nin arkasındaki şirketin en yeni üretken yapay zeka (GAI) aracı olan OpenAI’nin yeni metinden videoya aracı Sora tarafından oluşturuldu. Sora’ya basit bir hareketsiz görüntü veya kısa bir yazılı komut verirseniz, bir dakikaya kadar şaşırtıcı derecede gerçekçi bir video üretebilir; bu süre, yemek yemek için dışarı çıkmak için geçen süre olarak tanımlanır.

OpenAI, Sora’yı 15 Şubat’ta duyurdu ancak henüz herkes kullanıma açılmadı. Şirket, şu anda Sora’yı sırasıyla faydalı kullanımlar ve zararlı uygulamalar açısından test eden seçkin bir grup sanatçı ve “kırmızı takım” denilen bir gruba açmış durumda. Bilgisayar korsanlarının erişimini sınırladığını söylüyor. Ancak OpenAI, yeni araç tarafından oluşturulan birkaç düzine örnek videoyu bir duyuru blog gönderisinde, kısa bir teknik raporda ve CEO ve kurucu Sam Altman’ın X’teki (eski adıyla Twitter) profilinde paylaştı. Sora, yapay zeka tarafından oluşturulan videoda mümkün olan en son noktayı temsil ediyor.

Birkaç yıl önce, modellerin kelimeleri görsellere dönüştürme yeteneğinde ön sıralarda yer alan Midjourney gibi metinden görsele dönüştürücülerdi. Sora’ya benzer şekilde Lumiere, kullanıcılara metinden videoya dönüştürme araçları sağlar ve aynı zamanda sabit bir görüntüden videolar oluşturmalarına olanak tanır.

Sora Yapay Zeka Nedir?

Sora, OpenAI’nin metinden videoya üretken yapay zeka modelidir. Bu, bir metin istemi yazdığınız ve istemin açıklamasıyla eşleşen bir video oluşturduğu anlamına gelir. Sora, 60 saniyeye kadar uzunlukta videolar üretiyor ve OpenAI, kullanıcıların araçtan sırayla ek klipler oluşturmasını isteyerek bu süreyi uzatabileceklerini söylüyor. Bu hiç de fena bir başarı değil; Önceki GAI araçları, bırakın komutlar arasında, video kareleri arasında bile tutarlılığı korumakta zorlanıyordu. Bunların hepsini sadece bilgisayardan değil cep telefonu modelleri üzerinden de yapabilirsiniz.

Temel anlamda Sora, metin başlıklarını karşılık gelen video içeriğiyle ilişkilendirmek üzere eğitilmiş çok büyük bir bilgisayar programıdır. Daha teknik olarak Sora, ChatGPT’lere benzeyen bir transformatör kodlama sistemine sahip bir yayılma modelidir (diğer birçok görüntü oluşturma AI aracı gibi). Geliştiriciler, video kliplerdeki görsel gürültüyü ortadan kaldırmak için yinelenen bir süreç kullanarak Sora’yı metin istemlerinden çıktılar üretecek şekilde eğitti. Sora ile bir görüntü oluşturucu arasındaki temel fark, metni sabit piksellere kodlamak yerine, kelimeleri birlikte tam bir klip oluşturan zamansal-uzaysal bloklara çevirmesidir. Google’ın Lumiere ve diğer birçok modeli benzer şekilde çalışır.

Sora, sıfırdan videolar oluşturmak veya mevcut videoları daha uzun hale getirmek için genişletmek için kullanılabilir. Ayrıca videolardaki eksik kareleri de doldurabilir.
Metinden görüntüye üretken yapay zeka araçlarının, teknik görüntü düzenleme uzmanlığı olmadan görüntü oluşturmayı önemli ölçüde kolaylaştırdığı gibi, Sora da görüntü düzenleme deneyimi olmadan video oluşturmayı kolaylaştırmayı vaat ediyor.
Sora, TikTok, Instagram Reels ve YouTube Shorts gibi sosyal medya platformları için kısa biçimli videolar oluşturmak için kullanılabilir. Filme alınması zor veya imkansız olan içerikler özellikle uygundur.
Reklamlar, tanıtım videoları ve ürün demoları oluşturmak geleneksel olarak pahalıdır. Sora gibi metinden videoya yapay zeka araçları bu süreci çok daha ucuz hale getirmeyi vaat ediyor.
Yapay zeka videosu nihai üründe kullanılmasa bile fikirlerin hızlı bir şekilde gösterilmesi açısından faydalı olabilir. Film yapımcıları, sahneleri çekmeden önce maketler yapmak için yapay zekayı kullanabilir ve tasarımcılar, ürünleri oluşturmadan önce videolarını oluşturabilirler.

Sora Yapay Zeka Nasıl Kullanılır?

OpenAI yeni bir video oluşturma modeli başlatıyor ve adı Sora. Yapay zeka şirketi, Sora’nın “metin talimatlarından gerçekçi ve yaratıcı sahneler oluşturabildiğini” söylüyor.

OpenAI’nin tanıtım blog yazısına göre Sora, “birden fazla karakter, belirli hareket türleri ve konu ve arka planın doğru ayrıntılarıyla karmaşık sahneler” yaratma yeteneğine sahip. Sora, GPT’de kullanıldığı gibi, difüzyon modelinin kullanımını transformatör mimarisiyle birleştirir.

DALL·E 3 , StableDiffusion ve Midjourney gibi metinden görüntüye üretken yapay zeka modelleri gibi Sora da bir yayılma modelidir. Bu, videonun statik gürültüden oluşan her karesiyle başladığı ve görüntüleri yavaş yavaş istemdeki açıklamaya benzer bir şeye dönüştürmek için makine öğrenimini kullandığı anlamına gelir. Sora videoları 60 saniyeye kadar uzunlukta olabilir. Sora’daki yeniliklerden biri de aynı anda birkaç video karesini dikkate almasıdır; bu da nesneleri görüş alanına girip çıkarken tutarlı tutma sorununu çözer.

Sora Ücretli Mi?

Sora ücretli mi sorunun cevabı net olmasa da muhtemelen ücretli olacağı bekleniyor. OpenAI’nin halka açıkladığı mevcut teknolojilere (Dall-E ve ChatGPT) dayanarak Sora’nın başlangıçta bir web uygulaması olarak sunulması muhtemel görünüyor. Sora videolarına yapay zeka tarafından oluşturulduğunu gösteren meta veriler ekleyerek yanlış bilgilerle mücadele etme planları da var.

Sora Kullanıma Açıldı mı?

OpenAI kısa süre önce çığır açan en yeni teknolojisi Sora’yı duyurdu. Sora, OpenAI’nin metinden videoya üretken yapay zeka modelidir. Bu, bir metin istemi yazdığınız ve istemin açıklamasıyla eşleşen bir video oluşturduğu anlamına gelir.Herkesin kullanımına açılması için net tarih henüz verilmedi.

Sora’nın güvenilirliği şu anda belirsizdir. OpenAI’nin tüm örnekleri çok yüksek kalitede, ancak ne kadar dikkat çekici olduğu belli değil. Metinden resme araçlarını kullanırken, on veya yirmi resim oluşturmak ve ardından en iyisini seçmek yaygındır. OpenAI ekibinin duyuru makalesinde videoların gösterilmesini sağlamak için kaç adet görsel oluşturduğu belli değil. Bu soruyu cevaplamak için aracın yaygın olarak kullanıma sunulmasını beklemeliyiz.

OpenAI Sora ile Neler Yapılabilir?

OpenAI, Sora’nın mevcut sürümündeki bazı sınırlamalara dikkat çekiyor. Sora’nın kesin bir fizik anlayışı yoktur ve bu nedenle “gerçek dünyanın” fiziksel kurallarına her zaman bağlı kalınmayabilir. Örneğin ChatGPT’den size bir şiir yazmasını isterseniz, alacağınız yanıt, yapay zekanın halihazırda özümsediği ve analiz ettiği çok sayıda şiire dayalı olacaktır. OpenAI Sora da benzer bir fikir ancak video klipler için. Ona “geceleyin şehrin caddesinde yürüyen kadın” veya “ormanda araba kullanan araba” gibi bir metin mesajı veriyorsunuz ve bir video alıyorsunuz. Yapay zeka görüntü modellerinde olduğu gibi, klibe neyin dahil edilmesi gerektiğini ve görmek istediğiniz çekimin tarzını söyleme konusunda çok spesifik olabilirsiniz. Sora, tek tek aktörler ve dekorlarla bir sahnenin haritasını çıkarmıyor; piksellerin kareden kareye nereye gitmesi gerektiğine dair inanılmaz sayıda hesaplama yapıyor. OpenAI, Sora’nın gelecekte fiziksel ve dijital dünyaların gerçekçi bir simülatörü haline gelebileceğini umuyor.