İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme

RLHF nedir?

Reinforcement Learning from Human Feedback (RLHF), dil modellerini insan tercihlerine göre hizalamak için kullanılan bir eğitim tekniğidir. ChatGPT ve Claude gibi modellerin "nazik", "yardımcı" ve "zararlı içerikten kaçınan" davranışlar sergilemesi büyük ölçüde RLHF sayesindedir.

Süreç

Model farklı yanıtlar üretir
İnsan değerlendiriciler hangi yanıtın daha iyi olduğunu seçer
Bu tercihlerden bir "ödül modeli" eğitilir
Ana model, ödül modelini yüksek puan almak için optimize eder

Alternatifler

RLAIF: İnsan yerine başka bir AI modelin değerlendirme yaptığı versiyon
DPO (Direct Preference Optimization): Daha basit ve verimli bir tercih öğrenme yöntemi
Constitutional AI (Anthropic): Yazılı ilkelere göre modelin kendi kendini değerlendirdiği yöntem

İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme

RLHF nedir?

Süreç

Alternatifler

Bu teknolojiyi kullanan araclar

Ilgili terimler