Acı Ders — The Bitter Lesson (Çeviri)

Acı Ders — The Bitter Lesson (Çeviri)

Genel zekaya ulaşmanın önündeki engel bir an önce özel zekaya ulaşma çabamız mı?

Çevirmenin Önsözü

Meta araştırmalar ve meta yazılar önemlidir. Derinlere bir yerlere daldırdığınız başınızı kaldırıp kutuya bir de dışarıdan bakmanızı sağlar. İşin kendisinden çıkıp felsefesini yapmak yani. En güzeli ve en zoru. Rich Sutton’ın 2019 Mart’ta yayınladığı bu meta makalede kendi içimde tartıştığım bazı konuları çok güzel özetlediğini görünce işi gücü bırakıp Türkçe’ye çevirmek istedim. Reinforcement learning kendi çalışma alanım olmadığı için Sutton’ın adını önceden duymamıştım. Anlaşılan kendisi reinforcement learning’in kitabını yazan araştırmacılardan biriymiş. Sutton’ın kendi internet sitesinde yayınladığı kısa bir popüler makaleden bahsediyoruz.

Veri etiketlerinden (data labels) aldığımız geri bildirimler (supervised learning), ya da problemi ifade ettiğimiz veri yapılarımızı ya da algortimaları oluştururken kullandığımız alana özel sezgilerimiz (intuitions). Hepsini önsel insan bilgisi ve makine öğrenmesinde kısa vadede sorun çözmemize yardımcı olsun diye girdi olarak kullanıyoruz. Deep Learning, süreci feature engineering gibi önsel bazı araştırmacı bilgilerinden kurtardı ama yeterli değil. Komünite, etiketleri bırakıp self-supervised learning’i gelecek olarak görmeye başladı bile. Hala çok fazla bilgi sağlıyoruz sistemlere. Deep learning’in yılların teorisi olduğunu, ancak yüksek hesaplama gücü hazır olduktan sonra sonuç vermeye başladığını da hatırlatmalıyım. Makalenin “kısayollardan ve basit insani bilgileri kullanmaktan vazgeçip nihai amaç için hesaplamanın gücünü kullanalım” çağrısı Chomsky ve ile Norvig’in doğal dil işleme için yaptıkları meşhur “yapısalcılığa karşı istatistiksel öğrenmecilik” tartışmasını da aklıma getirdi. Hiçbir şey araştırmaya yıllarını adamış üstadların meta-tartışmalarını okumak kadar keyif vermiyor (prof fight).

Hani Teke Tek programında Fatih Altaylı yakaladığı yapay zeka hocalarına (Cem Say, Ethem Alpaydın, Zehra Çataltepe, ..) bunlar bilinçi ve zeki yaratıklarmış gibi “bunlar bizi sevmezlerse öldürürler di mi” tarzı sorular soruyor da konuk kibarca “ona genel zeka deniyor, şimdilik ona çok uzağız” tarzı cevaplar veriyor ya, burası orası. Bu makale baskın olarak yürütülen özel zeka çalışmalarını eleştirip genel zekaya neden gitmiyoruz diyor. Aslında meraklı okuyucuya bu konuyu derinlemesine işleyen Jeff Clune’un şu makalesini okumasını da öneririm. O da çok yeni ve içinde harika evrim analojileri var. Artık sözü makalenin çevirisine bırakıyorum. Google Translate senden iyi diyen çıkarsa bir daha çevirmem. Sandığımdan zor oldu.

Acı Ders

70 yıllık yapay zeka araştırmalarından alınacak en büyük ders, hesaplama gücünden faydalanan genel yöntemlerin eninde sonunda büyük bir farkla en verimli olduğudur. Bunun nihai sebebi Moore kanunu, ya da onun genelleştirilmiş haliyle hala üstel olarak düşmekte olan birim başı hesaplama maliyetidir. Birçok yapay zeka araştırması sanki ajanın¹ yapabileceği hesaplama sabitmiş gibi yürütülür (bu durumda performansı arttırmak için insan bilgisinden yararlanmak yollardan biridir), ama tipik bir araştırma projesinden biraz daha uzun bir süre sonra çok yoğun miktarda hesaplama gücü kaçınılmaz olarak hazır hale gelir. Araştırmacılar kısa vadede fark yaratacak bir iyileştirme ararken, alandaki insan bilgisinden faydalanmanın peşine düşerler ama aslında uzun vadede önemli olan tek şey hesaplama gücünden faydalanmaktır. Bu iki ihtiyaç özünde birbirine karşı değildir ama uygulamada birbirine karşı olmaya meğillidir. Birine harcanan zaman diğerine harcanmayan zamandır. Bir yaklaşıma ya da diğerine yapılan yatırımlar ve psikolojik adanmışlıklar vardır. Ve insan bilgisine dayanan yaklaşım, kendini hesaplama gücünden faydalanan genel yöntemleri kullanmaya daha az uygun hale getirerek yöntemleri karmaşıklaştırmaya meğillidir. Yapay zeka araştırmacılarının bu acı dersi geç öğrenmesine birçok örnek vardır ve en belirgin olanlarını gözden geçirmek örnek olması açısından eğitici olacaktır.

Bilgisayar satrancında dünya şampiyonu Kasparov’u 1997'de yenen yöntemler, hesaplama gücü kullanan derin arama tabanlı yöntemlerdi. Bilgisayar-satranç araştırmasında çoğunluk olan, yöntemlerini insanın satrancın özel yapısını anlamasından faydalanarak geliştiren araştırmacılar, o zamanlar bu konuya dehşetle karşıladılar. Daha basit, arama-tabanlı bir yöntemin özel bir donanım ile çok daha verimli olduğu kanıtlandığında o insan-bilgisi-tabanlı satranç araştırmacıları kaybettiklerini kabul etmediler. “Brute-force² yöntemler bu sefer kazanmış olabilir, ama bu genel bir strateji değildi, insanlar satrancı böyle oynamaz ki” dediler. Bu araştırmacılar insan girdisi tabanlı yöntemlerin kazanmasını istiyorlardı ama olmadığını görünce hayal kırıklığına uğradılar.

Araştırma sürecinde benzer bir durum Go bilgisayarında sadece 20 yıl gecikmeli olarak görüldü. Çok büyük bir ilk efor arama yerine insan bilgisinden faydalanmaya ya da oyunun özel özelliklerinden faydalanmaya harcandı, ama bütün bu eforların sonuç vermediği hatta daha kötü sonuç verdiği arama bir kez verimli ve ölçekli olarak uygulandığında görüldü. Ek olarak, öğrenmek için kendine karşı oynamayı kullanmanın değeriydi (tıpkı birçok diğer oyunda ve hatta satrançta olduğu gibi). Kendine karşı oynayarak öğrenmek ve genel olarak öğrenmek, hedefe yönlendirilmesi gereken yoğun hesaplama gücünü kullanmayı mümkün kılan bir aramadır. Arama ve öğrenme, yapay zeka araştırmasında çok yoğun miktarda hesaplamadan faydalanmamızı sağlayan iki en önemli teknik tipidir. Bilgisayar satrancında olduğu gibi bilgisayar Go’sunda da, araştırmacıların ilk eforları insan bilgisini kullanmaya yönlendirilmişti ve sadece kısa bir zaman sonra arama ve öğrenmenin benimsenmesi ile daha fazla başarı sağlandı.

Ses işlemede 1970'lerde DARPA tarafından fonlanan bir yarışma vardı. Katılımcılar kelime bilgisi, fonemler, insan ses özellikleri gibi insan bilgisinden yararlanan özel yöntemler kullandılar. Diğer taraftan, daha fazla hesaplama yapan, doğası gereği daha istatistiksel olan saklı Markov modelleri (HMM) tabanlı yeni yöntemler vardı. Yine istatistiksel yöntemler insan-bilgisi-temelli yöntemlere karşı kazandı. Bu doğal dil işlemede kademeli olarak önemli değişimlere yol açtı. İstatistiksel yöntemler ve hesaplama, alanı domine etmeye başladı. Son zamanlarda ses tanımada derin öğrenmenin yükselişini bu yöndeki son adımdır. Derin öğrenme yöntemleri insan bilgisine daha az ihtiyaç duyarak ve daha fazla hesaplama ile, çok büyük veri kümeleri ile öğrenerek önemli ölçüde daha başarılı ses tanıma sistemleri üretecekler. Oyunlarda olduğu gibi, araştırmacılar her zaman kendi zihinlerinde başarılı olan sistemleri geliştirmeye çalıştılar ve kendi bilgilerini sistemlere eklemeye çalıştılar ama bunun verimsiz olduğu kanıtlandı. Moore’un kanunu yolunda yoğun hesaplama mümkünken ve onu iyiye kullanmanın yolu bulunmuşken araştırmacıların çok büyük zamanı boşa harcanmış oldu.

Bilgisayarlı görme alanında da benzer bir durum var. Erken yöntemler görmeyi, köşeleri aramak, silindirleri genelleştirmek, ya da SIFT özellikleri olarak algılarken, bugün hepsinden vazgeçildi. Modern derin sinir ağları sadece evrişim (convolution) ve bazı özel değişmezlik (invariances) kavramlarını kullanıyor ve daha iyi sonuç veriyor.

Bu büyük bir derstir. Alan olarak hala tam anlamıyla dersi alamadık ve benzer hataları yapmaya devam ediyoruz. Bunu anlayabilmek ve buna karşı gerçekten direnebilmek için bu hataların çekiciliğini anlayabilmemiz gerekiyor. Kendi düşündüğümüzü sandığımız şekliyle üretmenin uzun vadede işe yaramayacağı acı dersini almalıyız.

Acı ders şu tarihsel gözlemlere dayanır;

  1. Yapay zeka araştırmacıları sıklıkla sistemlerinin içinde bilgiyi oluşturmayı denemişlerdir.
  2. Bu kısa vadede hep yardımcı olur ve kişisel olarak araştırmacıyı tatmin eder.
  3. Uzun vadede bir düzlükte takılır ve hatta daha fazla gelişmeyi engeller.
  4. Esas ilerleme eninde sonunda tam tersi yaklaşım olan ölçeklenen hesaplama tabanlı arama ve öğrenme ile olur. Nihai başarı bir acıyla karşılanır, çoğu kez sindirilemez çünkü başarı çalışağı düşünülen insan-temelli yaklaşıma karşı alınmıştır.

Acı dersten öğrenilmesi gereken ilk şey genel amaçlı yöntemlerin yüksek gücüdür. Bu yöntemler artan hesaplama gücü ile ölçeklenmeye devam edecektir. Ölçeklenmeye devam edeceği görünen bu iki yöntem arama ve öğrenmedir.

Acı derste öğrenilmesi gereken ikinci genel nokta ise zihinlerimizin içindeki asıl içeriğin inanılmaz derecece karmaşık olduğudur. Zihinlerin içeriklerini düşünmek için nesneler, çoklu ajanlar, ya da simetriler gibi basit yollar aramaktan vazgeçmeliyiz. Bunların hepsi keyfi, iç yapısı karmaşık dış dünyanın parçalarıdır. Onlar üretilmesi gerekenler değiller. Karmaşıklıkları sonsuz olduğu için, aksine onların bu keyfi karmaşıklıklarını yakalayabilecek meta yöntemleri üretmeliyiz. Bu yöntemlerin olmazsa olmazı iyi yakınsamalar yapabilmeleridir. Ama o yöntemler bizim yöntemlerimiz aracılığı ile aranmalı, bizim tarafımızdan değil. Şimdiye kadar keşfettiğimiz kadarını barındıran değil, bizim kadar keşfedebilen yetenekte yapay zeka ajanları istiyoruz. Kendi keşiflerimizle üretmek sadece keşfetme sürecinin nasıl yapılması gerektiğini görmemizi zorlaştırıyor.

Orjinal Makale: The Bitter Lesson, Rich Sutton
http://incompleteideas.net/IncIdeas/BitterLesson.html

Çevirmen Notları

[1] Yapay zeka literatüründe, ajan (agent ya da intelligent agent) ifadesi, üretilen yapay zekaya sahip ‘zeki’ bilgisayar programı, robot ya da bileşene verilen isimdir. Daha geniş tanım için şu kitaba bakabilirsiniz.
[2] Brute-force, bilgisayar bilimlerinde herhangi bir optimizasyon yapmadan arama uzayındaki bütün yolların/ihtimallerin tek tek denenmesi yöntemine verilen isimdir.

Geri bildirimler için yazıyı Medium'da aç.