Ant Group çatısı altında faaliyet gösteren Çin merkezli yapay zeka firması Robbyant, LingBot-World adını taşıyan yeni kuşak dünya modelini açık kaynak olarak yayınladığını açıkladı. LingBot-World, yapay zeka sistemleri için yüksek hassasiyette ve anlık olarak kontrol edilebilen bir tür dijital simülasyon ortamı sunmayı amaçlıyor. Bu yönüyle, kısa süre önce büyük yankı uyandıran Google Project Genie’e güçlü bir alternatif haline geliyor.
Fiziksel yapay zeka, otonom araç teknolojileri ve oyun geliştirme gibi alanlara odaklanan model; üst seviye görsel kalite, dinamik doğruluk, uzun süreli tutarlılık ve gerçek zamanlı etkileşim gibi konularda sektörde öne cıkan çözümler arasında gösteriliyor.
Ant Group bünyesi altında çalışmalarını sürdüren Çin merkezli yapay zeka firması Robbyant, LingBot-World ismini verdiği yeni nesil dünya modelini açık kaynak olarak yayınladığını açıkladı. LingBot-World, yapay zeka sistemlerine yönelik yüksek isabet oranına sahip ve gerçek zamanlı olarak yönetilebilen bir dijital simülasyon alanı oluşturmayı hedefliyor. Bu yönüyle, yakın zamanda büyük ilgi gören Google Project Genie için güçlü bir rakip konumuna geliyor.
Fiziksel yapay zeka, otonom sürüs teknolojileri ve oyun gelistirme gibi alanlara odaklanan bu model; gelişmiş görsel kalite, dinamik hassasiyet, uzun süreli tutarlılık ve anlık etkileşim özellikleriyle sektörde dikkat ceken çözümler arasında yer almakta.
10 dakikaya kadar kesintisiz üretim
Video üretim süreçlerinde sıkça görülen ve “long-term drift” olarak tanımlanan; sahnenin zamanla bozulması, nesnelerin şekil kaybına uğraması ya da tamamen ortadan kaybolması gibi problemler, LingBot-World’ün özellikle odaklandığı konular arasında bulunuyr. Robbyant, çok kademeli eğitim modeli ve paralel hızlandırma yöntemleri sayesinde sistemin yaklaşık 10 dakikaya kadar kesintisiz, stabil ve veri kaybı olmadan video oluşturabildiğini ifade ediyor.
Önceki nesil çözümlerde kararlı ve devamlı video üretimi genellikle birkaç saniye ile sınırlı kalıyor, en iyi ihtimalle birkaç dakikaya kadar uzanıyordu. Bu açıdan bakıldığında LingBot-World şu an için rakipsiz bir konumda yer alıyor. Ayrıca firmanın paylaştığı bilgilere göre, kamera uzun süre farklı bir yöne çevrilmiş olsa bile sahneye geri dönüldüğünde nesnelerin yapısal bütünlüğü bozulmadan korunuyor.
LingBot-World, etkileşim konusunda da oldukça güçlü teknik metrikler ortaya koyuyor. Model yaklaşık 16 FPS seviyesinde üretim yapabilirken, uçtan uca etkileşim gecikmesini 1 saniyenin altına düşürmeyi başarıyor. Kullanıcılar klavye ve mouse yardımıyla karakter hareketlerini ve kamera acılarını anlık olarak yönetebiliyor. Bununla birlikte metin tabanlı komutlar sayesinde hava durumu degistirme, görsel stil ayarlama ya da belirli senaryoları aktif hale getirme gibi çevresel müdahaleler de yapılabiliyor.
Modelin öne çıkan başka bir özelliği ise zero-shot genelleme yeteneği. LingBot-World, yalnızca tek bir gerçek dünya fotoğrafı veya bir oyun ekran görüntüsü girdisiyle, ek sahneye özel eğitim ya da veri toplama gereksinimi olmadan tamamen etkileşimli bir video akışı oluşturabiliyor.
Robbyant, dünya modeli eğitiminde karşılaşılan yüksek kaliteli etkileşimli veri eksikliğini gidermek amacıyla hibrit veri toplama yaklaşımını tercih ediyor. Bu yöntem; farklı gerçek dünya ortamlarını içeren geniş çaplı web videolarını, Unreal Engine gibi oyun motorlarından üretilen sentetik verilerle bir araya getiriyor. Oyun motoru tarafında, arayüzden arındırılmış saf kareler doğrudan render katmanından alınırken, eş zamanlı olarak aksiyon girdileri ve kamera konumları da kayıt altına alınıyor. Bu sayede model, yapılan eylemler ile ortamda oluşan değişimler arasındaki neden–sonuç ilişkisini yüksek doğrulukla ögrenebiliyor.
Robbyant, LingBot-World’ün sunduğu imkanlara rağmen bazı teknik kısıtlamaların halen devam ettiğini de açıkça dile getiriyor. Yüksek çıkarım maliyetleri, modelin şimdilik sadece kurumsal seviye GPU sistemlerinde çalışmasını zorunlu kılıyor. Belleğin ayrı bir modül yerine bağlam penceresinden türetilmesi ise çok uzun soluklu simülasyonlarda yapısal stabilitenin zamanla zayıflamasına neden olabiliyor.
Buna ek olarak kontrol kabiliyetleri şimdilik temel gezinti ile sınırlı kalırken, karmaşık nesne etkileşimlerinde yeterli hassasiyet henüz sağlanabilmiş değil. Şirketin gelecek yol haritasında; aksiyon alanının ve fizik motorunun genişletilmesi, uzun vadeli kararlılık için harici bir bellek modülünün entegre edilmesi ve üretim sürecinde ortaya çıkan kaymaların tamamen ortadan kaldırılması yer alıyor.
Son olarak, modele GitHub ve Hugging Face platformları üzerinden erişim sağlanabiliyor.
Fiziksel yapay zeka, otonom araç teknolojileri ve oyun geliştirme gibi alanlara odaklanan model; üst seviye görsel kalite, dinamik doğruluk, uzun süreli tutarlılık ve gerçek zamanlı etkileşim gibi konularda sektörde öne cıkan çözümler arasında gösteriliyor.
Ant Group bünyesi altında çalışmalarını sürdüren Çin merkezli yapay zeka firması Robbyant, LingBot-World ismini verdiği yeni nesil dünya modelini açık kaynak olarak yayınladığını açıkladı. LingBot-World, yapay zeka sistemlerine yönelik yüksek isabet oranına sahip ve gerçek zamanlı olarak yönetilebilen bir dijital simülasyon alanı oluşturmayı hedefliyor. Bu yönüyle, yakın zamanda büyük ilgi gören Google Project Genie için güçlü bir rakip konumuna geliyor.
Fiziksel yapay zeka, otonom sürüs teknolojileri ve oyun gelistirme gibi alanlara odaklanan bu model; gelişmiş görsel kalite, dinamik hassasiyet, uzun süreli tutarlılık ve anlık etkileşim özellikleriyle sektörde dikkat ceken çözümler arasında yer almakta.
10 dakikaya kadar kesintisiz üretim
Video üretim süreçlerinde sıkça görülen ve “long-term drift” olarak tanımlanan; sahnenin zamanla bozulması, nesnelerin şekil kaybına uğraması ya da tamamen ortadan kaybolması gibi problemler, LingBot-World’ün özellikle odaklandığı konular arasında bulunuyr. Robbyant, çok kademeli eğitim modeli ve paralel hızlandırma yöntemleri sayesinde sistemin yaklaşık 10 dakikaya kadar kesintisiz, stabil ve veri kaybı olmadan video oluşturabildiğini ifade ediyor.
Önceki nesil çözümlerde kararlı ve devamlı video üretimi genellikle birkaç saniye ile sınırlı kalıyor, en iyi ihtimalle birkaç dakikaya kadar uzanıyordu. Bu açıdan bakıldığında LingBot-World şu an için rakipsiz bir konumda yer alıyor. Ayrıca firmanın paylaştığı bilgilere göre, kamera uzun süre farklı bir yöne çevrilmiş olsa bile sahneye geri dönüldüğünde nesnelerin yapısal bütünlüğü bozulmadan korunuyor.
LingBot-World, etkileşim konusunda da oldukça güçlü teknik metrikler ortaya koyuyor. Model yaklaşık 16 FPS seviyesinde üretim yapabilirken, uçtan uca etkileşim gecikmesini 1 saniyenin altına düşürmeyi başarıyor. Kullanıcılar klavye ve mouse yardımıyla karakter hareketlerini ve kamera acılarını anlık olarak yönetebiliyor. Bununla birlikte metin tabanlı komutlar sayesinde hava durumu degistirme, görsel stil ayarlama ya da belirli senaryoları aktif hale getirme gibi çevresel müdahaleler de yapılabiliyor.
Modelin öne çıkan başka bir özelliği ise zero-shot genelleme yeteneği. LingBot-World, yalnızca tek bir gerçek dünya fotoğrafı veya bir oyun ekran görüntüsü girdisiyle, ek sahneye özel eğitim ya da veri toplama gereksinimi olmadan tamamen etkileşimli bir video akışı oluşturabiliyor.
Daha gerçekçi simülasyon hedefi
Robbyant, dünya modeli eğitiminde karşılaşılan yüksek kaliteli etkileşimli veri eksikliğini gidermek amacıyla hibrit veri toplama yaklaşımını tercih ediyor. Bu yöntem; farklı gerçek dünya ortamlarını içeren geniş çaplı web videolarını, Unreal Engine gibi oyun motorlarından üretilen sentetik verilerle bir araya getiriyor. Oyun motoru tarafında, arayüzden arındırılmış saf kareler doğrudan render katmanından alınırken, eş zamanlı olarak aksiyon girdileri ve kamera konumları da kayıt altına alınıyor. Bu sayede model, yapılan eylemler ile ortamda oluşan değişimler arasındaki neden–sonuç ilişkisini yüksek doğrulukla ögrenebiliyor.
Robbyant, LingBot-World’ün sunduğu imkanlara rağmen bazı teknik kısıtlamaların halen devam ettiğini de açıkça dile getiriyor. Yüksek çıkarım maliyetleri, modelin şimdilik sadece kurumsal seviye GPU sistemlerinde çalışmasını zorunlu kılıyor. Belleğin ayrı bir modül yerine bağlam penceresinden türetilmesi ise çok uzun soluklu simülasyonlarda yapısal stabilitenin zamanla zayıflamasına neden olabiliyor.
Buna ek olarak kontrol kabiliyetleri şimdilik temel gezinti ile sınırlı kalırken, karmaşık nesne etkileşimlerinde yeterli hassasiyet henüz sağlanabilmiş değil. Şirketin gelecek yol haritasında; aksiyon alanının ve fizik motorunun genişletilmesi, uzun vadeli kararlılık için harici bir bellek modülünün entegre edilmesi ve üretim sürecinde ortaya çıkan kaymaların tamamen ortadan kaldırılması yer alıyor.
Son olarak, modele GitHub ve Hugging Face platformları üzerinden erişim sağlanabiliyor.

