İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme
Veri & eğitimIng: RLHFGuncellendi: 25 Mayıs 2026
İnsan değerlendirmelerini kullanarak modeli daha yardımcı, dürüst ve güvenli hale getiren eğitim tekniği.
RLHF nedir?
Reinforcement Learning from Human Feedback (RLHF), dil modellerini insan tercihlerine göre hizalamak için kullanılan bir eğitim tekniğidir. ChatGPT ve Claude gibi modellerin "nazik", "yardımcı" ve "zararlı içerikten kaçınan" davranışlar sergilemesi büyük ölçüde RLHF sayesindedir.
Süreç
- Model farklı yanıtlar üretir
- İnsan değerlendiriciler hangi yanıtın daha iyi olduğunu seçer
- Bu tercihlerden bir "ödül modeli" eğitilir
- Ana model, ödül modelini yüksek puan almak için optimize eder
Alternatifler
- RLAIF: İnsan yerine başka bir AI modelin değerlendirme yaptığı versiyon
- DPO (Direct Preference Optimization): Daha basit ve verimli bir tercih öğrenme yöntemi
- Constitutional AI (Anthropic): Yazılı ilkelere göre modelin kendi kendini değerlendirdiği yöntem
Ilgili terimler
Kaynak:Anthropic Blog→