Çıkarım (Inference)

Çıkarım (inference) nedir?

Çıkarım, eğitimini tamamlamış bir yapay zeka modelinin yeni bir girdiyle karşılaştığında çıktı üretmesi sürecidir. Bir modeli iki ana evreye ayırabilirsin: önce training •modelin verilerden öğrendiği aşama• gelir, sonra inference gelir. Inference, modeli gerçekten kullandığın andır — bir prompt yazarsın, model de buna karşılık bir yanıt üretir.

Nasıl çalışır?

Model eğitim sırasında milyarlarca parametreyi ayarlar ve bunları sabitler. Inference sırasında bu parametreler değişmez; model sadece eldeki ağırlıkları kullanarak girdiyi işler. Bir dil modelinde bu, gelen token dizisini alıp bir sonraki token'ı tahmin etmek, sonra onu da girdiye ekleyip tekrar tahmin etmek şeklinde adım adım ilerler. Her adım bir hesaplama turu demektir, bu yüzden uzun yanıtlar daha fazla işlem gücü ister.

Neden önemli?

Bir modelin eğitimi bir kez yapılır ama inference milyonlarca kez tekrarlanır. Bir API'ye her istek attığında, ChatGPT'ye her soru sorduğunda arka planda bir inference çalışır. Bu yüzden maliyetin, hızın ve kullanıcı deneyiminin büyük kısmı inference tarafında belirlenir. Latency •yanıtın gelme süresi• ve throughput •birim zamanda işlenen istek sayısı• gibi kavramlar doğrudan inference performansıyla ilgilidir.

Kullanım alanları

Kullandığın her AI ürünü aslında bir inference motoru üzerinde çalışır: sohbet botları, kod tamamlama araçları, görsel üreticiler, çeviri servisleri. Modeli daha küçük ve hızlı hale getiren quantization gibi teknikler de tam olarak inference maliyetini düşürmek için vardır. Yani bir modelin pratikte ne kadar kullanışlı olduğu, büyük ölçüde inference'ın ne kadar verimli yapıldığına bağlıdır.

Çıkarım (Inference)