Model Drift: Büyük Dil Modelleri Zamanla “Aptallaşıyor“ Mu?

Kasım 2022’de ChatGPT’nin hayatımıza girmesiyle ve LLM sağlayıcılarının çeşitlenmesiyle, giderek kısalan aralıklarla hayatımıza yeni bir Büyük Dil Modeli (LLM) giriyor. Her lansman sonrasında Linkedin, X ve Reddit gibi platformlarda, bu modelin ne kadar harika olduğu, hangi işleri ne kadar başarıyla yaptığı övülüyor ve hangi meslekleri tarihe gömeceği (veya gömemeyeceği) günlerce tartışılıyor. Zamanla azalan bu „hype“, her yeni bir model çıktığında o model için tüm gücüyle tekrar yükseliyor.
İşte bu döngüde tam da „hype“ın azaldığı noktada yaşanan başka bir fenomen daha var. O yeni model çıkıp sosyal medyada trend topic olduktan bir süre sonra “Falanca model artık eskisi kadar zeki değil mi, yoksa bana mı öyle geliyor?“ diye düşünüyoruz. İlk zamanlar kendi kendimize kuruntu mu yapıyorduk yoksa işin aslı astarı var mıydı emin değildim ancak farkettiğimiz şey gerçekten de doğruydu. Modeller zamanla yetkinliğini yitiriyor, buna da „Model Drift“, yani Model Kayması deniyor.
Peki yüzlerce metrekarelik alanlara yayılmış hiperölçekli veri merkezlerinde eğitilmesi aylar süren amiral gemisi modeller, nasıl oluyor da zamanla yetkinliklerini yitiriyor? Ciddi ciddi „aptallaşıyor“ olabilirler mi? Bu kendiliğinden olan ve önlenemez bir mekanik mi yoksa işin içinde majör LLM sağlayıcıları tarafından bilinçli olarak yerleştirilen kısıtlamalar mı var? Apple’ın yeni yazılımlarını, eski ürünlerini bilinçli olarak yavaşlatacak şekilde tasarladığı gerçekliğini göz önünde bulundurursak, bu hiç de şaşırtıcı bir durum değil.
Model Drift’in Gerçekliği
Bu konuda yapılmış en önde gelen araştırmalardan biri GPT-3.5 ve GPT-4 üzerinde gerçekleştirilmiş. Örneğin GPT-4 modeline asal ile bileşik sayıları ayırt etmesi için 1000 soru sorulmuş. Mart 2023’te performansı %84 iken, Haziran 2023’te bu oran %50’ye düşmüş (Chen, Zaharia and Zou, 2023). Bu araştırmadan da anlaşılacağı üzere bu fenomenin gerçek olduğu kesin, fakat sebeplerini anlamak için biraz daha derine inmek şart.
Model Kaymasına Yol Açan Sebepler
Hizalama Vergisi (Alignment Tax)
Temel modeller aşırı basitleştirilerek „bir cümlede bir kelimeden sonra gelecek kelimeyi tahmin etme“ prensibi üzerinden özetlenirler, dolayısıyla esasında olasılık modelleridir. Bir Büyük Dil Modeli eğitildikten sonraki ince ayar (fine-tuning) aşamasındaki işlemlerden biri de „İnsan Bildiriminden Pekiştirmeli Öğrenme“, yani „Reinforcement Learning from Human Feedback“tir (RLHF). Bu işlemle istenilen türde cevapların ödüllendirildiği ve istenmeyen türde cevapların cezalandırıldığı bir matematiksel fonksiyon oluşturulur. Bu fonksiyon aracılığıyla temel modelin olasılık fonksiyonu, istenen yönde optimize edilir. Ne var ki insan geribildirimi kusursuz olmadığı gibi rasyonelliği de garanti değildir. Bu işlem modele başta güvenlik önlemleri ve etik prensipler olmak üzere olmazsa olmaz yetkinlikler kazandırırken, kullanıcı istekleri gözetilmiyor olabilir. Modellerin daha güvenli hale gelmesinin bedeli, model performans metriklerindeki azalmalar üzerinden oluyor.
Maliyet Optimizasyonu (Model Damıtımı)
Büyük Dil Modellerinin temelinde olasılık modelleri olduğundan bahsetmiştim. Bu modellerde milyarlarca parametre ve ağırlık bulunur. Bu ağırlıklar 0 ile 1 arasında değişen değerlerdir. Bu değerlerin ondalık kısmında ne kadar çok hane varsa, olasılıklar o kadar hassasiyetle çalışır. Bir model ilk kez kullanıma açıldığında olağanca yetkinliğiyle çalışmasına izin verilerek sosyal medyada istenilen yankıyı uyandırıp kullanıcı alışkanlıkları yerleştikten sonra, ağırlıkların nicelikleri “damıtılır”, daha az haneli sayılar ile temsil edilirler. Model boyutları küçültülür, performansları zayıflar, çalıştırılma maliyetleri azalır ancak kullanıcı alışkanlıkları yerleştiği için bir süre eski ünlerinin ekmeğini yerler.
Uzman Karması (Mixture of Experts)
Bir sorgu, içinde farklı uzmanlıklar gerektiren altgörevler içeriyor olabilir. Bu sorguların en iyi şekilde cevaplanabilmesi için, önyüzlerde gördüğümüz modeller arkaplanda tek başlarına çalışmazlar. Birçok mikro-servisin birlikte çalışmasıyla ortaya çıkarlar. Sorguyu alan bir yönlendirici (router), girdiyi analiz eder ve eldeki göreve en uygun “uzmana” veya mikro-servise gönderilecek altgörevler hazırlar. Örneğin sorgunun bir kısmı kodlama, bir kısmı edebi yazım, bir kısmı web araması gerektiriyor olabilir. Yönlendirici, uzmanlardan aldığı sonuçları birleştirir ve biçimlendirir. Bu uzmanlara ne kadar talep olduğuna bağlı olarak sistemlerin yük dengeleyicileri, ikame mikro-servisler kullanabilir, yani bir işi en iyi yapacak olana değil, yeterince iyi yapacak ve daha az yük altında olan mikro-servise iletebilir. Bu yüzden anlık model kaymaları da gözlemlenebilir.
Kıyas Psikolojisi ve Kontrast
Eski modellerin üzerine kayda değer miktarda yenilik ve kabiliyet ekleyen yeni modeller eskilerini öylesine gölgede bırakıyor ki, bir zamanlar heyecanla kullandığımız o modellerin dönüp yüzüne bakmaz hale geliyoruz. Olur da bir sebepten eski modellerin çıktılarıyla karşılaşırsak, ortaya çıkan kontrast etkisiyle nasıl olup da iş delege ettiğimizi, böyle riskleri nasıl aldığımızı bile sorgular hale geliyoruz. Hele bir de eski modelin bizde bıraktığı son izlenim model kayması etkisi altında olduğu bir zamandansa, yeni lanse edilip uğruna tüm kaynakların seferber edildiği, cayır cayır nakit yakan bir modelin yanında yeni modelin prestiji arşa çıkarken, eski model belki de haketmediği bir ezilişle uğurlanıyor.
Model Drift’in YZ Destekli Uygulamalarda Yol Açabileceği Sorunlar ve Çözümleri
LLM’lere delege edilen işlerde bağlamı olabildiğince daraltarak deterministik sistem mimarileri, kalitede tutarlılığı sağlamak adına en önemli çalışma prensibi olabilir. Yapılacak iş belliyse, ki bir sistem kurulduğuna göre ortada tekrar tekrar gerçekleştirilen bir görev var demektir, LLM’in yaratıcılığına olağanca az yer bırakmak gerekir. Bağlam ne kadar geniş olursa, alacağımız cevaplar da o kadar farklı formatlarda karşımıza çıkıp iş akışlarımızı bozacaktır.
Deterministik sistemler kurgulamanın bir diğer faydası da, modelden modele atlamayı kolaylaştırmasıdır. Yeni modeller başlangıçta %100 teknik kapasitede çalıştıkları için birçok metrik özelinde üstün performans segileyecektir. Beklenen cevap ne kadar kalın çizgilerle sınırlandırılırsa, „yaratıcılık entropisi“nden ve kaostan o kadar kolay kaçınılır, yeni modele (ki herhangi bir servis sağlayıcısına ait olabilir) geçişle ortaya çıkabilecek beklenmedik sonuçlar engellenirken, çıktı kalitesi ve dolayısıyla sistemin işleyişi o kadar güvence altına alınmış olur, yeni modellerin kullanımı kolaylaşır.
Örnek olarak müşteri yorumlarını birkaç farklı boyutta analiz etmemiz gereken bir görevimiz olsun. Değerlendirme prompt’u: “Bu yorumu memnuniyet açısından 1 hiç memnun değil, 10 çok memnun olmak üzere 10 üzerinden notla” değil, “Bu yorumu memnuniyet açısından ‘Tamamen memnun’, ‘Kısmen memnun’, ‘Hiç memnun değil’, ‘Bazı şeylerden memnun, bazı şeylerden değil’ olarak etiketle, sadece sana verilen etiketleri kulan” gibi şekillendirirsek bu deterministik kurgu, mantık hatalarını en aza indirgemeye yardımcı olacaktır.
Clinic Scores, Siyasentez ve Mevzuat gibi projelerimde yapay zekanın yapılandırılmamış veriden bilgi çıkartabilme özelliğinden çokça yararlanıyorum. Normalde çözebilmek için Gözetimli Makine Öğrenmesi (Supervised Machine Learning) kullanmam ve bunun için çok katmanlı bir model eğitim sistemi kurgulamam gereken problemler, bir API çağrısıyla çözülebilir hale geldi. Clinic Scores’da kullanıcı değerlendirmelerinin her bir cerrahi işlem, ekonomik uygunluk, klinik yanıtlarındaki iletişim tarzı gibi alanlarda izdüşümünü alarak son derece yüksek kalite ve tutarlılıkta içgörüler oluşturulabiliyor. Kullanıcının işine yarayacak içgörülerin oluşturulması için kullanıcı yolculuğunun haritalandırılması, sorduğu soruların, bu soruları cevaplayabilmek için topladığı verilerin, bu verileri nasıl ele aldığının yani karar verme süreçlerinin tanımlanması gerekiyor. Her bir karar olağanca granülitesiyle ele alınabildikçe süreçlerin simülasyonu kolaylaşıyor. İnternette gerçek insanlar yerine yapay zeka tarafından üretilen içeriklerin bolluğu ve boşluğu “Ölü İnternet Teorisi”ni ortaya çıkarmışken, gürültü kirliliğini yine aynı araçları kullanarak temizlemek, damıtmak ve “katma değeri yüksek içgörülere” dönüştürmek mümkün.