Uzman Karması (Mixture of Experts)

Uzman karması (mixture of experts) nedir?

Mixture of Experts, kısaca MoE, bir modeli tek bir büyük blok yerine birçok daha küçük "uzman" alt ağa bölen bir mimaridir. Her uzman belirli tür girdilerde iyidir. Model bir girdiyle karşılaştığında, hepsini birden çalıştırmak yerine sadece o girdi için en uygun birkaç uzmanı seçer ve yalnızca onları aktive eder.

Nasıl çalışır?

İşin merkezinde bir router •hangi uzmanların çalışacağına karar veren küçük ağ• vardır. Router gelen her token'ı inceler ve onu en uygun uzmanlara yönlendirir. Örneğin model toplam 8 uzmana sahip olabilir ama her token için yalnızca 2'sini çalıştırır. Buna sparse activation •parametrelerin sadece bir kısmının devreye girmesi• denir. Böylece model çok sayıda parametreye sahip olur ama her bir çıkarımda bunların yalnızca küçük bir bölümü kullanılır.

Neden önemli?

MoE, modelin toplam kapasitesini artırırken hesaplama maliyetini kontrol altında tutar. Klasik bir dense •tüm parametrelerin her zaman çalıştığı• modelde parametre sayısını artırmak inference maliyetini doğrudan büyütür. MoE'de ise devasa bir parametre havuzun olabilir ama her seferinde sadece küçük bir kısmı çalıştığı için maliyet daha makul kalır. Bu, son yılların en büyük modellerinin çoğunun neden bu yaklaşımı benimsediğini açıklar.

Kullanım alanları

MoE özellikle büyük dil modellerinde yaygındır. Hem eğitim hem de inference tarafında ölçeklenebilirlik sağladığı için, sınırlı donanımla daha güçlü modeller sunmak isteyen ekipler için cazip bir yoldur. Aynı mantık görüntü ve çok modlu modellerde de kullanılabilir.

Uzman Karması (Mixture of Experts)