AI glossary
कैश (prompt caching)
एक लंबे, स्थिर prompt prefix के एन्कोडेड प्रतिनिधित्व को कई requests में पुनः उपयोग करना। बड़े साझा context (schemas, knowledge bases, instructions) वाले use cases पर लागत 50-90% कम करता है।
The longer version
Anthropic का prompt cache (और OpenAI के structured equivalents) आपको अपने prompt के लंबे static parts — system instructions, schemas, बड़े reference docs — के लिए cache TTL में एक बार भुगतान करने देता है, फिर subsequent reads पर normal input rate का ~10% चुकाना होता है। एक stable system prompt के साथ बड़े knowledge base पर RAG के लिए, यह 5–10x cost reduction है। हम observability में cache hit rate दिखाते हैं ताकि यह measurable हो, assumed नहीं।