DeepSeek ve İhracat Kontrolleri Üzerine Dario Amodei Röportajı

0
147

Birkaç hafta önce, Çin’e yönelik ABD çip ihracat kontrollerinin daha sıkı hale getirilmesi gerektiğini savunmuştum. O zamandan beri, Çinli bir yapay zeka şirketi olan DeepSeek, en azından bazı açılardan, ABD’nin en ileri yapay zeka modellerinin performansına daha düşük maliyetle yaklaşmayı başardı.

Burada, DeepSeek’in ABD’li yapay zeka şirketleri (örneğin Anthropic) için bir tehdit olup olmadığına odaklanmayacağım (gerçi ABD’nin yapay zeka liderliğine yönelik tehditlerine dair pek çok iddianın fazlasıyla abartıldığını düşünüyorum)¹. Bunun yerine, DeepSeek’in yayınlarının çiplere yönelik ihracat kontrol politikalarının gerekçesini zayıflatıp zayıflatmadığını ele alacağım. Bence zayıflatmıyorlar. Aksine, bu ihracat kontrol politikalarını bir hafta öncesine kıyasla daha da hayati hale getiriyor².

İhracat kontrolleri önemli bir amaca hizmet ediyor: Demokratik ülkelerin yapay zeka geliştirme alanında öncü konumda kalmasını sağlamak. Açık olmak gerekirse, bunlar ABD ve Çin arasındaki rekabetten kaçınmanın bir yolu değil. Sonuç olarak, eğer kazanmak istiyorsak, ABD ve diğer demokrasilerdeki yapay zeka şirketlerinin Çin’dekilerden daha iyi modeller üretmesi gerekiyor. Ancak, Çin Komünist Partisi’ne mecbur olmadığımız halde teknolojik avantajlar sunmamalıyız.

Yapay Zeka Gelişiminin Üç Dinamiği

Politika argümanımı sunmadan önce, yapay zeka sistemleriyle ilgili anlaşılması gereken üç temel dinamiği açıklayacağım:

Ölçekleme yasaları. Yapay zekanın bir özelliği—ki ben ve kurucu ortaklarım OpenAI’da çalışırken bunu belgeleyen ilk kişiler arasındaydık—tüm diğer değişkenler sabit tutulduğunda, yapay zeka sistemlerinin eğitimini ölçeklendirmek, bir dizi bilişsel görevde sürekli olarak daha iyi sonuçlar elde edilmesini sağlar. Örneğin, 1 milyon dolarlık bir model önemli kodlama görevlerinin %20’sini çözebilirken, 10 milyon dolarlık bir model %40’ını, 100 milyon dolarlık bir model ise %60’ını çözebilir. Bu farklılıklar pratikte büyük sonuçlar doğurur—bir başka 10 kat artış, lisans seviyesi ile doktora seviyesi beceri farkına denk olabilir—ve bu nedenle şirketler bu modelleri eğitmeye büyük yatırımlar yapıyor.

Eğriyi kaydırma. Alan, sürekli olarak işleri daha etkili veya daha verimli hale getiren büyük ve küçük fikirler üretiyor: Bu, modelin mimarisinde yapılan bir iyileştirme (bugün kullanılan tüm modellerin temel aldığı Transformer mimarisinde bir değişiklik) ya da modelin altta yatan donanımda daha verimli çalışmasını sağlayan bir yöntem olabilir. Yeni nesil donanımlar da benzer bir etki yaratır. Genellikle bu tür yenilikler, eğriyi kaydırır: Eğer yenilik 2 katlık bir “hesaplama çarpanı” (CM) sağlıyorsa, bu, kodlama görevinde %40’a ulaşmak için 10 milyon dolar yerine 5 milyon dolar harcanmasını; %60’a ulaşmak içinse 100 milyon dolar yerine 50 milyon dolar harcanmasını sağlar. Öncü yapay zeka şirketleri düzenli olarak bu tür CM’ler keşfeder: Sıklıkla küçük olanları (~1.2x), bazen orta büyüklükte olanları (~2x) ve ara sıra çok büyük olanları (~10x). Daha zeki bir sisteme sahip olmanın değeri çok yüksek olduğundan, bu eğrinin kayması genellikle şirketlerin model eğitimine daha az değil, daha fazla harcama yapmasına neden olur: Maliyet verimliliğinde elde edilen kazanımlar tamamen daha akıllı modeller eğitmeye yönlendirilir ve yalnızca şirketin mali kaynaklarıyla sınırlıdır. İnsanlar doğal olarak, “önce bir şey pahalıdır, sonra ucuzlar” fikrine kapılır—sanki yapay zeka sabit bir kaliteye sahip tek bir şeymiş gibi ve maliyet düştüğünde, onu eğitmek için daha az çip kullanacağımızı varsayarlar. Ancak asıl önemli olan ölçekleme eğrisidir: Eğri kaydığında, biz sadece onu daha hızlı takip ederiz, çünkü eğrinin sonundaki şeyin değeri çok yüksektir.

2020 yılında ekibim, algoritmik ilerlemenin eğrideki kaymayı yılda yaklaşık 1.68 kat artırdığına dair bir makale yayımladı. Muhtemelen bu hız o zamandan beri önemli ölçüde arttı; ayrıca bu hesaplama verimlilik ve donanımı hesaba katmıyor. Bugün bu sayının yılda yaklaşık 4 kat olduğunu tahmin ediyorum. Başka bir tahmin burada mevcut. Eğitim eğrisindeki kaymalar, çıkarım (inference) eğrisini de kaydırır ve sonuç olarak, model kalitesi sabit tutulduğunda fiyatlarda büyük düşüşler yıllardır gerçekleşmektedir. Örneğin, Claude 3.5 Sonnet, orijinal GPT-4’ün çıkışından 15 ay sonra piyasaya sürülmüş olmasına rağmen, hemen hemen tüm testlerde GPT-4’ü geride bırakırken API fiyatı yaklaşık 10 kat daha düşüktür.

Paradigmayı değiştirmek. Ara sıra, ölçeklenen temel unsur biraz değişir ya da eğitim sürecine yeni bir ölçekleme türü eklenir. 2020-2023 yılları arasında ölçeklenen temel şey, önceden eğitilmiş modellerdi: Artan miktarda internet metni üzerinde eğitilmiş ve üzerine çok az ek eğitim eklenmiş modeller. 2024 yılında, modelleri düşünce zincirleri oluşturmaya yönlendirmek için pekiştirmeli öğrenme (RL) kullanma fikri, yeni bir ölçekleme odağı haline geldi. Anthropic, DeepSeek ve (belki de en dikkat çekici şekilde, Eylül ayında o1-preview modelini yayınlayan) OpenAI gibi birçok şirket, bu tür bir eğitimin matematik, kodlama yarışmaları ve bu tür görevlerle benzer akıl yürütme süreçleri gibi belirli, nesnel olarak ölçülebilir görevlerde performansı büyük ölçüde artırdığını tespit etti.

Bu yeni paradigma, öncelikle standart önceden eğitilmiş modellerle başlamayı ve ardından ikinci aşama olarak RL kullanarak akıl yürütme becerilerini eklemeyi içeriyor. Önemli olan şu ki, bu tür RL yeni olduğu için, hâlâ ölçekleme eğrisinin çok başındayız: Tüm oyuncular için ikinci, yani RL aşamasına harcanan miktar düşük. 1 milyon dolar yerine 100 bin dolar harcamak bile büyük kazanımlar sağlamak için yeterli. Şirketler şu anda ikinci aşamayı yüz milyonlarca ve milyarlarca dolara ölçeklendirmek için hızla çalışıyorlar, ancak burada kritik olan, ölçekleme eğrisinin başlarında bulunan güçlü bir yeni paradigma ile karşı karşıya olmamız ve bu yüzden büyük kazanımların hızla sağlanabilmesi.

DeepSeek’in Modelleri

Yukarıda açıklanan üç dinamik, DeepSeek’in son yayınlarını anlamamıza yardımcı olabilir. Yaklaşık bir ay önce DeepSeek, “DeepSeek-V3” adlı bir model yayınladı; bu model tamamen önceden eğitilmiş bir modeldi³—yani yukarıda #3 numaralı maddede açıklanan birinci aşama. Ardından geçen hafta, “R1” modelini yayınladılar ve bu model ikinci aşamayı da içeriyordu. Dışarıdan bakarak bu modeller hakkında her şeyi kesin olarak belirlemek mümkün değil, ancak aşağıda iki yayın hakkında en iyi anladığım şeyleri paylaşıyorum.

DeepSeek-V3 aslında gerçek yenilikti ve bir ay önce insanları asıl şaşırtması gereken şey buydu (biz kesinlikle fark ettik). Önceden eğitilmiş bir model olarak, bazı önemli görevlerde en ileri ABD modellerinin performansına oldukça yaklaşmış gibi görünüyor, üstelik çok daha düşük bir maliyetle eğitilmiş (yine de, Claude 3.5 Sonnet’in özellikle gerçek dünya kodlama gibi bazı kritik görevlerde çok daha iyi olduğunu tespit ettik). DeepSeek ekibi bunu, büyük ölçüde mühendislik verimliliğine odaklanan bazı gerçek ve etkileyici yenilikler yoluyla başardı. Özellikle, “Anahtar-Değer (Key-Value) önbelleği” yönetiminde önemli iyileştirmeler yaptılar ve “uzman karışımı” (mixture of experts) adı verilen yöntemin daha önce hiç ulaşılamayan bir noktaya taşınmasını sağladılar.

Ancak daha yakından bakmak önemli:

  • DeepSeek, “ABD yapay zeka şirketlerinin milyarlarca dolara mal olan şeyi 6 milyon dolara yaptı” iddiasına uymuyor. Sadece Anthropic adına konuşabilirim, ancak Claude 3.5 Sonnet, eğitimi birkaç on milyon dolara mal olmuş orta ölçekli bir modeldir (kesin bir rakam vermeyeceğim). Ayrıca, Sonnet’in eğitimi daha büyük veya daha pahalı bir modelin kullanıldığı bir yöntemle gerçekleştirilmedi (bazı söylentilerin aksine). Sonnet’in eğitimi 9-12 ay önce tamamlandı, DeepSeek’in modeli ise Kasım/Aralık aylarında eğitildi; ancak Sonnet, birçok iç ve dış değerlendirmede hâlâ önemli bir farkla önde. Dolayısıyla, adil bir ifade şu olurdu: “DeepSeek, ABD modellerinden 7-10 ay daha eski bir modelin performansına yaklaşan bir model üretti, bunu önemli ölçüde daha düşük bir maliyetle yaptı (ancak iddia edilen oranlara yakın değil).”
  • Eğer tarihsel maliyet eğrisi düşüş trendi yılda yaklaşık 4 kat ise, bu, işlerin olağan akışı içinde—2023 ve 2024 yıllarında yaşanan normal maliyet düşüş eğilimleri göz önüne alındığında—Claude 3.5 Sonnet veya GPT-4o’ya kıyasla şu an için 3-4 kat daha ucuz bir model bekleyeceğimiz anlamına gelir. DeepSeek-V3, ABD’nin en ileri modellerinden daha düşük performans gösterdiğine göre—diyelim ki ölçekleme eğrisinde yaklaşık 2 kat geride, ki bu DeepSeek-V3 için oldukça cömert bir tahmindir—bu durumda, DeepSeek-V3’ün eğitiminin bir yıl önce geliştirilen mevcut ABD modellerinden yaklaşık 8 kat daha düşük maliyetli olması tamamen normal ve “beklenen trend” dahilinde olurdu.
  • Kesin bir rakam vermeyeceğim, ancak önceki maddeye dayanarak, DeepSeek’in eğitim maliyetini iddia ettikleri gibi doğrudan kabul etsek bile, en iyi ihtimalle eğilim doğrultusunda ve muhtemelen o bile değil. Örneğin, bu maliyet düşüşü orijinal GPT-4 ile Claude 3.5 Sonnet arasındaki çıkarım fiyatı farkından (10 kat) daha az dik bir düşüş sergiliyor ve Claude 3.5 Sonnet, GPT-4’ten daha iyi bir model.

Bütün bunlar, DeepSeek-V3’ün benzersiz bir atılım veya büyük dil modellerinin (LLM’lerin) ekonomisini kökten değiştiren bir şey olmadığını gösteriyor; sadece devam eden maliyet düşüş eğrisinde beklenen bir noktadır.

Bu kez farklı olan şey, beklenen maliyet düşüşünü ilk gösteren şirketin bir Çinli şirket olması. Bu daha önce hiç olmamıştı ve jeopolitik açıdan önemli. Ancak, ABD şirketleri de yakında aynı şeyi yapacaklar—ve bunu DeepSeek’i kopyalayarak değil, onlar da maliyet düşüşündeki olağan trendi yakaladıkları için gerçekleştirecekler.

Hem DeepSeek hem de ABD’li yapay zeka şirketleri, başlıca modellerini eğitmek için kullandıkları zamana kıyasla şu anda çok daha fazla paraya ve çok daha fazla çipe sahip. Fazladan çipler, modelin arkasındaki fikirleri geliştirmek için Ar-Ge çalışmalarında kullanılıyor ve bazen de henüz hazır olmayan (veya doğru şekilde eğitilebilmesi için birden fazla deneme gerektiren) daha büyük modellerin eğitiminde kullanılıyor. DeepSeek’in aslında 50.000 Hopper nesil çipe sahip olduğu bildirildi—bunun kesin olarak doğru olup olmadığını bilmiyoruz—ancak tahminimce bu sayı, büyük ABD yapay zeka şirketlerinin sahip olduğu miktarın yaklaşık 2-3 katı içinde bir yerde (örneğin, bu sayı xAI’nin “Colossus” kümesinin sahip olduğundan 2-3 kat daha az)⁷. Bu 50.000 Hopper çipin toplam maliyeti yaklaşık 1 milyar dolar civarında. Dolayısıyla, DeepSeek’in toplam harcaması (bireysel bir modelin eğitimi için yapılan harcamadan bağımsız olarak) ABD yapay zeka laboratuvarlarının harcamalarından büyük ölçüde farklı değil.

Ölçekleme eğrisi analizi biraz basitleştirilmiş bir modeldir, çünkü modeller farklılaşmış özelliklere sahiptir ve farklı güçlü ve zayıf yönleri vardır; ölçekleme eğrisi sayıları, pek çok ayrıntıyı göz ardı eden kaba bir ortalamadır. Yalnızca Anthropic’in modelleri hakkında konuşabilirim, ancak yukarıda ima ettiğim gibi, Claude kodlamada son derece iyidir ve insanlarla iyi tasarlanmış bir etkileşim tarzına sahiptir (birçok kişi onu kişisel tavsiye veya destek almak için kullanıyor). Bu ve bazı ek görevlerde DeepSeek ile karşılaştırma yapmak mümkün değil. Ancak bu faktörler, ölçekleme sayılarında görünmüyor.

Geçen hafta yayınlanan ve kamuoyunda büyük ilgi uyandıran (Nvidia’nın hisse fiyatında yaklaşık %17’lik bir düşüşe yol açan) R1 modeli, yenilikçilik veya mühendislik açısından V3 kadar ilginç değil. R1, eğitimin ikinci aşaması olan pekiştirmeli öğrenmeyi (RL) ekliyor—önceki bölümde #3 numarada açıklanan süreç—ve temelde OpenAI’ın o1 modeliyle yaptığı şeyi tekrarlıyor (görünüşe göre benzer ölçek ve benzer sonuçlarla)⁸. Ancak ölçekleme eğrisinin erken aşamasında olduğumuz için, güçlü bir önceden eğitilmiş modelle yola çıktıkları sürece birden fazla şirket bu tür modeller üretebilir. R1’in, V3 modeline sahip olduktan sonra üretilmesi muhtemelen çok düşük bir maliyet gerektirdi. Bu nedenle ilginç bir “geçiş noktasındayız”: Geçici bir süre boyunca birden fazla şirket iyi akıl yürütme modelleri üretebilir. Ancak, herkes bu modellerin ölçekleme eğrisinde daha da ilerledikçe, bu durum hızla sona erecek.

İhracat Kontrolleri

Tüm bunlar, asıl ilgilendiğim konuya—Çin’e yönelik çip ihracat kontrollerine—giriş niteliğindedir. Yukarıdaki gerçekler ışığında, durumu şu şekilde görüyorum:

Güçlü yapay zeka modellerini eğitmek için şirketlerin giderek daha fazla harcama yaptığı devam eden bir trend var. Eğri periyodik olarak kaydırılsa ve belirli bir zeka seviyesine sahip bir modeli eğitmenin maliyeti hızla düşse bile, daha zeki modeller eğitmenin ekonomik değeri o kadar büyük ki, maliyet tasarrufları anında tüketiliyor—bu tasarruflar, başta planlanan devasa bütçeyi harcamaya devam ederek daha da akıllı modeller üretmeye yönlendiriliyor.

ABD laboratuvarlarının henüz keşfetmediği verimlilik yenilikleri varsa, DeepSeek’in geliştirdiği yöntemler çok yakında hem ABD hem de Çin laboratuvarları tarafından milyarlarca dolarlık modeller eğitmek için kullanılacaktır. Bu modeller, daha önce eğitmeyi planladıkları milyar dolarlık modellerden daha iyi performans gösterecekler—ancak yine de milyarlarca dolar harcanacak. Ve bu sayı, neredeyse tüm insanlardan daha akıllı bir yapay zeka elde edene kadar artmaya devam edecek.

Neredeyse tüm insanlardan daha akıllı bir yapay zeka geliştirmek milyonlarca çip ve en az on milyarlarca dolar gerektirecektir ve en olası zaman dilimi 2026-2027’dir. DeepSeek’in yayınları bunu değiştirmez, çünkü bu yayınlar zaten bu hesaplamalara dahil edilmiş olan öngörülen maliyet düşüş eğrisiyle uyumludur.

Bu, 2026-2027 yıllarında iki çok farklı dünyadan birine ulaşabileceğimiz anlamına geliyor. ABD’de, birden fazla şirket kesin olarak milyonlarca çipe sahip olacak (maliyeti on milyarlarca doları bulacak). Soru şu: Çin de milyonlarca çipe sahip olabilecek mi?

Eğer Çin milyonlarca çipe sahip olabilirse, hem ABD’nin hem de Çin’in güçlü yapay zeka modellerine sahip olduğu ve bu modellerin bilim ve teknolojide son derece hızlı ilerlemelere yol açacağı iki kutuplu bir dünyada yaşayacağız—buna “veri merkezindeki dâhiler ülkeleri” adını verdim. İki kutuplu bir dünya sonsuza kadar dengede kalmak zorunda değil. ABD ve Çin yapay zeka sistemlerinde eşit seviyede olsa bile, Çin’in bu teknolojinin askeri uygulamalarına daha fazla yetenek, sermaye ve odaklanma yönlendirme olasılığı yüksek görünüyor. Büyük sanayi altyapısı ve askeri-stratejik avantajlarıyla birleştiğinde, bu durum Çin’in sadece yapay zeka alanında değil, her şeyde küresel sahnede baskın bir liderlik elde etmesine yardımcı olabilir.

Eğer Çin milyonlarca çipe erişemezse, (en azından geçici olarak) yalnızca ABD ve müttefiklerinin bu modellere sahip olduğu tek kutuplu bir dünyada yaşayacağız. Tek kutuplu dünyanın ne kadar süreceği belirsiz, ancak yapay zeka sistemlerinin zamanla daha akıllı yapay zeka sistemleri üretmeye yardımcı olabileceği düşünüldüğünde, geçici bir üstünlüğün kalıcı bir avantaj hâline gelmesi ihtimali var¹⁰. Bu senaryoda, ABD ve müttefikleri küresel sahnede baskın ve uzun vadeli bir liderlik elde edebilir.

Çin’in milyonlarca çipe sahip olmasını engelleyebilecek tek şey sıkı şekilde uygulanan ihracat kontrolleridir¹¹ ve bu nedenle dünyanın tek kutuplu mu yoksa iki kutuplu mu olacağını belirleyen en önemli faktördür.

DeepSeek’in performansı, ihracat kontrollerinin başarısız olduğu anlamına gelmiyor. Yukarıda belirttiğim gibi, DeepSeek orta-büyük ölçekli bir çip havuzuna sahipti, dolayısıyla güçlü bir model geliştirip eğitebilmiş olmaları şaşırtıcı değil. ABD yapay zeka şirketlerine kıyasla ciddi bir kaynak kıtlığı yaşamadılar ve ihracat kontrolleri onların “yenilik yapmasına” neden olan başlıca faktör değildi. Sadece çok yetenekli mühendislerden oluşan bir ekipler ve Çin’in ABD’ye ciddi bir rakip olduğunu gösteriyorlar.

Ayrıca DeepSeek, Çin’in her zaman ihtiyacı olan çipleri kaçak yollarla temin edebileceğini veya ihracat kontrollerinin her zaman açıklar barındırdığını göstermiyor. İhracat kontrollerinin Çin’in on binlerce çip edinmesini engellemek için tasarlandığını hiç düşünmedim. 1 milyar dolarlık ekonomik faaliyet gizlenebilir, ancak 100 milyar dolar veya hatta 10 milyar dolar gizlemek çok daha zordur. Bir milyon çipi fiziksel olarak kaçırmak da son derece zor olabilir.

Ayrıca, DeepSeek’in şu anda sahip olduğu çiplere bakarak önemli çıkarımlar yapabiliriz. SemiAnalysis’e göre, bu çipler H100, H800 ve H20 modellerinin bir karışımından oluşuyor ve toplamda 50.000 çipe ulaşıyor. H100 çipleri piyasaya sürüldüklerinden beri ihracat kontrolleri kapsamında yasaklıydı, dolayısıyla DeepSeek’in elinde H100 varsa, bunların kaçak yollarla temin edilmiş olması gerekir (ancak Nvidia, DeepSeek’in ilerlemelerinin “tamamen ihracat kontrol kurallarına uygun” olduğunu belirtti). H800 çipleri, 2022 ihracat kontrollerinin ilk aşamasında serbest bırakılmıştı ancak Ekim 2023’te kontroller güncellendiğinde yasaklandı, dolayısıyla bu çipler büyük olasılıkla yasak öncesinde gönderildi. H20 çipleri ise eğitim için daha az verimli, ancak çıkarım (inference) işlemi için daha verimli ve hâlâ yasal olarak Çin’e satılabiliyor—ki bence yasaklanmalılar.

Tüm bunlar, DeepSeek’in yapay zeka çip filosunun önemli bir kısmının henüz yasaklanmamış (ama yasaklanması gereken) çiplerden; yasaklanmadan önce gönderilen çiplerden ve çok büyük olasılıkla kaçak yollarla edinilmiş çiplerden oluştuğunu gösteriyor.

Bu da aslında ihracat kontrollerinin çalıştığını ve adapte olduğunu gösteriyor: Açıklar kapatılıyor; aksi takdirde DeepSeek’in en üst seviye H100 çiplerinden oluşan tam bir filosu olurdu. Eğer bu açıkları yeterince hızlı kapatabilirsek, Çin’in milyonlarca çipe sahip olmasını önleyebiliriz ve ABD’nin önde olduğu tek kutuplu bir dünya ihtimalini artırabiliriz.

Benim odak noktam ihracat kontrolleri ve ABD’nin ulusal güvenliği olduğu için, bir konuda net olmak istiyorum. DeepSeek’i düşman olarak görmüyorum ve mesele özellikle onları hedef almak değil. Verdikleri röportajlarda, sadece yararlı teknoloji üretmek isteyen zeki ve meraklı araştırmacılar gibi görünüyorlar.

Ancak otoriter bir hükümete bağlılar—bu hükümet insan hakları ihlalleri işledi, küresel sahnede agresif davrandı ve eğer yapay zekada ABD ile eşit seviyeye ulaşırsa, bu tür eylemlerini çok daha sınırsız biçimde sürdürebilir.

İhracat kontrolleri, bunu engellemek için sahip olduğumuz en güçlü araçlardan biri ve teknolojinin daha güçlü hâle gelmesi, daha verimli olması, ihracat kontrollerini kaldırmak için bir gerekçe oluşturmuyor.

Dipnotlar

¹ Bu makalede, Batılı modellerden damıtma (distillation) yapıldığına dair raporlarla ilgili herhangi bir görüş belirtmiyorum. Burada sadece DeepSeek’in makalede açıkladıkları şekilde modeli eğittiklerine dair beyanlarını esas alıyorum. ↩

² Bu arada, DeepSeek modellerinin piyasaya sürülmesinin Nvidia için kesinlikle kötü olmadığını düşünüyorum ve buna tepki olarak hisse senetlerinde çift haneli (~%17) bir düşüş yaşanması şaşırtıcıydı. Bu yayınların Nvidia için kötü olmadığını savunmak, yapay zeka şirketleri için kötü olmadığını savunmaktan bile daha açık bir durum. Ancak bu yazıdaki asıl amacım ihracat kontrol politikalarını savunmak. ↩

³ Tam olarak ifade etmek gerekirse, bu model, akıl yürütme paradigmasının değişiminden önceki modellerde tipik olarak görülen küçük bir miktarda RL eğitimi içeren bir önceden eğitilmiş modeldi. ↩

⁴ Belirli, çok dar görevlerde daha güçlüdür. ↩

⁵ Bu, DeepSeek’in makalesinde belirtilen rakamdır—bu kısmı olduğu gibi kabul ediyor ve sorgulamıyorum, ancak ABD şirketlerinin model eğitim maliyetleriyle yapılan karşılaştırmayı ve belirli bir modelin eğitim maliyeti (6 milyon dolar) ile toplam Ar-Ge maliyeti (çok daha yüksek) arasındaki farkı tartışıyorum. Ayrıca, 6 milyon doların kesinliğinden de tam olarak emin olamayız—model boyutu doğrulanabilir, ancak token miktarı gibi diğer unsurlar doğrulanamaz. ↩

⁶ Bazı röportajlarda DeepSeek’in “50.000 H100 çipe” sahip olduğunu söyledim, ancak bu, yapılan haberlerin küçük bir yanlış özetiydi ve burada düzeltmek istiyorum. Açık ara en bilinen “Hopper çipi” H100’dür (benim de haberde buna atıfta bulunulduğunu varsaydığım çip buydu), ancak Hopper ayrıca H800 ve H20 çiplerini de içerir ve DeepSeek’in üçünden de karışık olarak toplamda 50.000 çipe sahip olduğu bildiriliyor. Bu durumun genel tabloyu pek değiştirdiğini düşünmüyorum, ancak yine de düzeltmeye değer. H800 ve H20 çipleri hakkında daha fazla ayrıntıyı ihracat kontrollerini tartışırken ele alacağım. ↩

⁷ Not: İhracat kontrolleri nedeniyle bir sonraki nesil kümelerde bu farkın büyük ölçüde artmasını bekliyorum. ↩

⁸ R1’in bu kadar büyük ilgi görmesinin başlıca nedenlerinden birinin, modelin kullanıcıya kendi düşünce zincirini gösteren ilk model olması olduğunu düşünüyorum (OpenAI’ın o1 modeli yalnızca nihai cevabı gösteriyor). DeepSeek, kullanıcıların bunu ilginç bulduğunu ortaya koydu. Açık olmak gerekirse, bu bir kullanıcı arayüzü tercihidir ve modelin kendisiyle ilgili bir durum değildir. ↩

⁹ Çin’in kendi çiplerinin yakın zamanda ABD yapımı çiplerle rekabet edemeyeceğini unutmayın. Matt Pottinger ile birlikte yazdığım son makalemde de belirttiğim gibi: “Çin’in en iyi yapay zeka çipleri olan Huawei Ascend serisi, ABD merkezli Nvidia tarafından üretilen en ileri çiplere kıyasla önemli ölçüde daha az yetenekli. Ayrıca Çin, artan talebi karşılayabilecek üretim kapasitesine de sahip olmayabilir. Bugün Çin dışında tek bir kayda değer Huawei Ascend çip kümesi bile bulunmuyor, bu da Çin’in kendi iç ihtiyacını bile karşılamakta zorlandığını gösteriyor…” ↩

¹⁰ Açık olmak gerekirse, buradaki amaç Çin’in veya diğer otoriter ülkelerin, güçlü yapay zeka sistemlerinin bilim, tıp, yaşam kalitesi vb. alanlarda sağlayacağı büyük faydalardan mahrum kalmasını sağlamak değildir. Herkes yapay zekadan faydalanabilmelidir. Buradaki amaç, bu ülkelerin askeri alanda üstünlük sağlamasını engellemektir.

Like
3
Search
Categories
Read More
Teknoloji
Learning Experience Platform | Ensaan Tech
Esaan Tech is a forward-thinking technology company specializing in creating innovative software...
By Ensaan Tech 2025-01-17 07:04:31 0 1K
Biografi
Gönül Dağı Filiz Kimdir
Öge Sözbaş: Gönül Dağı'nın Zeki Filiz'i Öge Sözbaş, 11 Eylül...
By Kaportacı Veysel 2024-11-16 18:43:46 0 3K