AI glossary
RAG (Retrieval-Augmented Generation)
डेटाबेस से पहले संबंधित दस्तावेज़ लाना, फिर मॉडल से केवल उन दस्तावेज़ों का उपयोग करके जवाब देने के लिए कहना। आधारित chatbots और ज्ञान सहायकों के लिए डिफ़ॉल्ट आर्किटेक्चर।
The longer version
प्रोडक्शन RAG सिर्फ 'chunks fetch करके prompt में डालना' नहीं है। यह hybrid search (BM25 + vector) → reranking → citation-required prompting → जब retrieval confidence कम हो तो refusal patterns होता है। पूरे pattern के साथ naive RAG की तुलना में hallucination 80%+ कम हो जाता है। पूरा pattern देखने के लिए /playbooks/rag देखें।
Related terms
एम्बेडिंग
टेक्स्ट (या अन्य मीडिया) का एक सघन संख्यात्मक प्रतिनिधित्व जो अर्थ को कैप्चर करता है। semantic search, clustering, recommendation के लिए उपयोग किया जाता है। अधिकांश RAG सिस्टम्स की नींव है।
वेक्टर डेटाबेस
एम्बेडिंग्स पर समानता खोज के लिए अनुकूलित डेटाबेस। यदि आप Postgres पर हैं तो pgvector, अधिक स्केल की आवश्यकता होने पर Pinecone / Qdrant / Weaviate।
रीरैंकिंग
वेक्टर खोज से प्राप्त उम्मीदवारों को प्रासंगिकता के आधार पर पुनः क्रमबद्ध करने के लिए दूसरे मॉडल से गुज़ारना। vector search से top-50 को rerank करके top-5 में लाने से precision में उल्लेखनीय सुधार होता है। हम Cohere Rerank का उपयोग करते हैं।