BÖLÜM 01
Bu uzmanlık neden var.
Gördüğünüz çoğu "yapay zekâ ürünü" peruk takmış birer demodur. Tanıtımda çalışır, sahada çöker. Bu ekibi diğer şey için kurduk — ödeme yapan müşterilerin önünde duran, günde on binlerce konuşmayı insan müdahalesi olmadan yöneten üretim sistemi için.
Üretimde yanlış bir yanıtın maliyeti asimetriktir. Bir promosyonu uyduran perakende müşteri asistanı bir iade maliyeti doğurur. Bir dozu uyduran tıbbi triyaj ajanı bir dava maliyeti doğurur. Değerlendirme odaklı geliştirme bir lüks değildir — yayınlamanın tek dürüst yoludur.
Ajanın bizzat ürün olduğu ya da kritik yolda durduğu az sayıda müşteriyle çalışıyoruz. Mevcut uygulamaya cıvatalanmış chatbot brieflerini almıyoruz — bunun için ajanslar var, memnuniyetle yönlendiririz.
Model başarısız olabiliyorsa olacaktır. Bizim işimiz o başarısızlığı sıkıcı, gözlemlenebilir ve kurtarılabilir kılmaktır.
— DEFNE ARSLAN, UYGULAMA LİDERİ
BÖLÜM 02
Yayınladığımız mimari.
Üretime aldığımız her ajan aynı iskeleti izler. Parçalar değişir; biçim değişmez.
Görüşlerin yaşadığı yer orkestratördür. Görev başına modeli o seçer — incelikli akıl yürütme için GPT-4, araç ağırlıklı zincirler için Claude, ucuz sınıflandırma için kendi sunucumuzda barınan Mistral. Herhangi bir yan etki işlenmeden önce değerlendirmeleri o uygular. Her kararı sorgulanabilir bir ize kaydeder; böylece bir müşteri "ajan bunu neden yaptı?" diye sorduğunda — üç hafta sonra — yanıt belleğinizde değil, panonuzdadır.
BÖLÜM 03
Ne teslim ediyoruz.
Her çalışma aynı yedi çıktıyla yayınlanır. Herhangi birinde gevşeklik gösterin, ajan bir ürün değil bir demo olur.
01 Değerlendirme paketi
Ajan başına 200+ test durumu. Her commit'te, her model değişiminde çalışır.
02 Gözlemlenebilirlik
Her istem, yanıt, araç çağrısı ve gecikme sorgulanabilir bir izde.
03 Koruma bantları
Kişisel veri maskeleme, konu sınırları, jailbreak tespiti — modelden bağımsız.
04 İnsana eskalasyon
Tüm konuşma bağlamıyla destek ekibinize yönlendirilen devir.
05 Model soyutlaması
Sağlayıcıları tek bir yapılandırma satırıyla değiştirin. Asla tedarikçi bağımlılığı yok.
06 Maliyet panosu
Kullanıcı, sorgu, çeyrek başına token. Ölçeklenmeden önce tahmin.
BÖLÜM 04
Çalışma biçimi.
Birlikte çalışmanın birkaç yolu. Çoğu çalışma, herhangi bir üretim kodu yazılmadan önce model seçimini ve kullanıcı araştırmasını risksizleştiren kısa bir Sprint ile başlar.
SPRINT
Fikri hızla elle tutulur bir prototipe indirgiyoruz — gerçek veri, çalışan akış. Yöne karar vermek için.
BUILD
Tasarımdan yayına tam üretim çalışması — tüm çıktılarıyla, baştan sona birlikte.
OPERATE
Yanınızda kalan sürekli bir ekip — ihtiyaca göre duraklayan ya da ölçeklenen.
BÖLÜM 05
Güvendiğimiz teknolojiler.
Görüş sahibiyiz ama dogmatik değiliz. Görev başına seçeriz; havalı olanı değil, doğru aracı kullanmayı tercih ederiz.
ÖNCÜ OpenAI
ÖNCÜ Anthropic
AÇIK Mistral
GÖMME Cohere
STT/TTS Whisper · 11Labs
VEKTÖR Qdrant
VEKTÖR pgvector
İZLEME Langfuse
DEĞERLENDİRME Promptfoo
SUNUM Modal · Fly
BÖLÜM 06
Seçilmiş işler.
Bu ekipten üç üretim ajanı. Her biri dokuz aydan kısa sürede yayınlandı.