DeepSeek’in yeni modeli Gemini ile eğitilmiş olabilir mi?

Yapay zekâ dünyasında rekabet hız kesmezken, DeepSeek’in yeni modeli perde arkasındaki soru işaretleriyle gündemde.

Seren Altay
04.06.2025

Geçtiğimiz hafta Çin merkezli DeepSeek laboratuvarı, dikkat çeken yeni yapay zekâ modelini duyurdu: R1-0528. Matematik ve kodlama gibi teknik alanlardaki testlerde başarılı sonuçlar elde eden model, bu yönüyle övgü toplarken, eğitiminde kullanılan veri kaynaklarının açıklanmaması ciddi tartışmaları beraberinde getirdi.

Gemini benzerliği dikkat çekiyor

TechCrunch’da yer alan habere göre modelin çıktılarında, Google’ın gelişmiş yapay zekâ serisi Gemini ile yüksek düzeyde benzerlik gösteren kelime ve yapı tercihleri gözlemlendi. Melbourne’da yapay zekânın “duygusal zekâ” tarafını değerlendiren geliştirici Sam Paech, sosyal medya platformu X’te yaptığı paylaşımda, R1-0528’in Gemini 2.5 Pro ile neredeyse aynı cümle kalıplarını kullandığını, bunun doğrudan bir kanıt olmasa da önemli bir işaret olduğunu belirtti. Bir başka yorum ise AI analiz aracı SpeechMap’in takma adlı geliştiricisinden geldi. Geliştirici, DeepSeek modelinin “düşünme izlerinin” – yani sonuca ulaşırken kullandığı adım adım çıkarımların – Gemini’yle şaşırtıcı biçimde örtüştüğünü vurguladı.

Bu, DeepSeek hakkındaki ilk şüphe değil. 2024’ün Aralık ayında geliştiriciler, şirketin V3 modelinin bazı durumlarda kendini “ChatGPT” olarak tanıttığını fark etmişti. Bu durum, modelin OpenAI sohbet verileriyle eğitilmiş olabileceği yönünde soru işaretleri doğurmuştu.

OpenAI ve Microsoft’tan iddialar

2025’in başlarında OpenAI, Financial Times’a yaptığı açıklamada, DeepSeek’in distilasyon (güçlü modellerin çıktılarından yeni modeller üretme) yöntemini kullandığına dair verilere ulaştıklarını söyledi. Bloomberg’ün haberine göre ise OpenAI’nin yatırımcısı Microsoft, 2024 sonlarında bazı geliştirici hesapları üzerinden büyük miktarda verinin sızdırıldığını ve bu hesapların DeepSeek ile bağlantılı olduğunu iddia etti.

Her ne kadar distilasyon, yapay zekâ araştırmalarında sıkça başvurulan bir yöntem olsa da OpenAI’nin hizmet şartları, kullanıcıların bu yöntemle kendi modellerini geliştirmesini açıkça yasaklıyor.

Bununla birlikte, günümüzde yapay zekâ modellerinin benzer dil yapılarına yönelmesi ya da kendilerini yanlış tanıtmaları daha sık görülüyor. Bunun bir nedeni de açık internetin, yapay zekâ içerikleriyle dolup taşması. Tıklama tuzağı içerikler ve botlar tarafından üretilmiş gönderiler; Reddit ve X gibi platformlarda çoğalıyor, bu da modelleri eğitirken sentetik içerikleri ayıklamayı gittikçe zorlaştırıyor.

Yine de kâr amacı gütmeyen yapay zekâ araştırma enstitüsü AI2’den Nathan Lambert, DeepSeek’in Gemini çıktılarıyla eğitilmiş olabileceği ihtimalini makul buluyor. Lambert, sosyal medya paylaşımında şöyle diyor: “Eğer DeepSeek’in yerinde olsaydım, elimdeki en iyi API modeliyle mümkün olduğunca çok sentetik veri üretirdim. GPU kaynakları az ama ellerinde nakit var. Bu da daha fazla işlem gücü demek.”

Büyük şirketlerden güvenlik önlemleri

Bu tür distilasyon girişimlerini önlemek isteyen büyük yapay zekâ şirketleri, son dönemde güvenlik önlemlerini artırdı. OpenAI, Nisan ayında gelişmiş modellere erişmek isteyen kurumlar için kimlik doğrulama sürecini başlattı; yalnızca API destekli ülkelerden resmi kimlikler kabul ediliyor. Çin ise bu listede yer almıyor.

Benzer bir hamle de Google’dan geldi. Şirket, AI Studio geliştirici platformunda sunulan modellerin kullanım izlerini özetlemeye başladı. Böylece Gemini çıktılarıyla rakip model eğitimi yapmak daha da güçleşiyor. Anthropic ise mayıs ayında modellerine ait dijital izleri özetleme kararı aldığını, bu adımı rekabet avantajını korumak için attığını duyurdu.