Değerlendirme odaklı geliştirme bir lüks değildir.

Gördüğünüz her yapay zekâ demosu tanıtım slaytında çalışır. Çoğu, bir hafta içinde üretimde çöker. Fark neredeyse hiçbir zaman model değildir — dürüst bir değerlendirme paketinin, dürüst bir izin ve dürüst bir koruma bandı katmanının yokluğudur.

Bu üçünü pazarlık konusu olmaz kabul ediyoruz. Bir müşteri daha hızlı yayınlamak için herhangi birini atlamamızı isterse, kibarca reddederiz ya da onları başka bir yere yönlendiririz.

1. Değerlendirmeler, LLM çağının birim testleridir

Belirlenimci bir fonksiyon için birim testi, f(x) = y olduğunu doğrular. Olasılıksal bir model için değerlendirme; 200+ temsili girdi genelinde, çıktıların dağılımının bir kalite çıtasını karşıladığını doğrular.

Her ajanı şunlarla yayınlarız:

Altın testler: asla geri gitmek istemediğimiz belirli girdi→çıktı çiftleri.
Özellik testleri: ifade biçiminden bağımsız olarak geçerli olması gereken davranışlar (kişisel veri maskeleme, fiyat uydurmayı reddetme vb.).
Dağılımsal testler: "rastgele örneklenen 50 talep genelinde, ajan %80+'ını doğru çözmelidir."

Bunlar her commit'te, her model değişiminde, her istem değişikliğinde çalışır. CI, bozuk derlemelerde birleştirmeleri engellediği gibi, gerileme bütçelerinde de birleştirmeleri engeller.

2. İzler isteğe bağlı değildir

Bir müşteri "ajan bunu neden yaptı?" diye sorduğunda — konuşmadan üç hafta sonra — kabul edilebilir tek yanıt "izi çekeyim"dir. Başka her şey bir süreç hatasıdır.

Yayınladığımız her üretim ajanı şunları kaydeder:

Sistem isteminin git SHA'sıyla birlikte her istemi, tam olarak.
Her araç çağrısı dahil her model yanıtını.
Her aracın girdi/çıktı yükünü.
Her koruma bandı kararını ve gerekçesini.

Postgres + Langfuse'ta saklanır; kullanıcı, oturum, zaman, model, niyet bazında sorgulanabilir. İki haftalık saklama alt sınırdır; bazı düzenlemeye tabi müşteriler beş yıl tutar.

3. Koruma bantları modelden bağımsızdır

Herhangi bir tek modele — öncü olanlara bile — kendi koruma bantlarını uygulaması için güvenmek operasyonel olarak naiftir. Modeller kayar; sağlayıcılar yeni sürümler yayınlar; jailbreak'ler gelişir. Koruma bantları modelin etrafında, kontrol ettiğimiz kodda yaşar:

Kişisel veri maskeleme (regex + NER).
Konu sınırları (anlamsal sınıflandırıcı).
Jailbreak tespiti (imza + saldırgan istem tespiti).
Çıktı doğrulayıcılar (şema, fiyat/tarih/kişilerde halüsinasyon kontrolü).

Herhangi biri tetiklendiğinde istek loglanır, eskale edilir ya da reddedilir — asla sessizce düzeltilmez.

Bu neden önemli

Üretimde yanlış bir yanıtın maliyeti asimetriktir. Bir promosyonu uyduran perakende müşteri asistanı bir iade maliyeti doğurur. Bir dozu uyduran tıbbi triyaj ajanı bir dava maliyeti doğurur.

Mesele modelin yeterince iyi olması değildir — model başarısız olduğunda, başarısızlığın sıkıcı, gözlemlenebilir ve kurtarılabilir olmasıdır. 2026'da üretim yapay zekâsı için tek dürüst çıta budur.

— Defne

1. Değerlendirmeler, LLM çağının birim testleridir

2. İzler isteğe bağlı değildir

3. Koruma bantları modelden bağımsızdır

Bu neden önemli

Bir brief'iniz ya da tartışacak bir konunuz mu var?