Kullanıcı sorusu → FAQ/dokümanlardan doğru parçayı bul →
Llama 3.2 sadece bu bilgiye dayanarak cevap versin.
Cevap veremiyorsa: - İnsan desteğe yönlendirme - Ticket oluşturma
- Frontend (React): Chat UI + kaynak gösterme + feedback
- Backend (Node / Serverless): RAG orkestrasyonu ve guardrails
- Vector DB (Supabase + pgvector): Embedding ve similarity search
- LLM Runtime: Ollama veya llama.cpp üzerinden Llama 3.2
- Embedding Modeli: Local veya API tabanlı embedding
- User mesajı
- Query embedding
- Top‑K context çekme
- Prompt oluşturma
- Llama 3.2 cevap üretimi
- Guardrails + escalation
- Context dışına çıkma → Bilgi yoksa "Bilmiyorum" de
- Her cevapta kaynak zorunlu
- Kritik konularda human escalation
- Sohbet transcript'i ile ticket oluşturma
- FAQ'ları standart formata getir:
- question
- answer
- category
- tags
- updated_at
- Hedef: 50--150 FAQ
Tablolar:
kb_documents - id - title - source - url - updated_at
kb_chunks - id - doc_id - chunk_text - metadata_json - embedding (VECTOR)
Ek: - kb_feedback - support_tickets
- FAQ → chunk'lara böl
- Embedding üret ve kaydet
Chunk önerisi: - FAQ için: 1 soru + 1 cevap
POST /rag/retrieve
Input: - query
Output: - topK chunks - score - metadata
Öneriler: - topK = 5 - düşük score → escalation
POST /rag/answer
Adımlar: - retrieve - prompt compose - LLM çağır - JSON parse
Örnek çıktı:
{
"answer": "...",
"sources": ["chunk_12"],
"confidence": "medium",
"handoff": false
}
Minimum özellikler: - Chat ekranı - Kaynak göster - Feedback butonu - İnsan desteğe aktar
Ölç: - Retrieval doğruluğu - Hallucination oranı - Escalation oranı
İyileştirme: - Chunk boyutu - Prompt sıkılığı - Score threshold
- Başlangıç: Ollama + Llama 3.2
- İleri optimizasyon: llama.cpp
- İade süreçleri
- Kargo bilgisi
- Üyelik işlemleri
- Şifre sıfırlama
- Hukuki yorumlar
- Finansal kararlar
- Hassas kişisel veri işlemleri
Llama 3.2 tek başına customer service değildir.
Doğru yaklaşım: > Küçük model + doğru bilgi + iyi mimari = güvenilir AI destek sistemi