सामग्री पर जाएं
AIAn Alian Software company

AI glossary

कैश (prompt caching)

एक लंबे, स्थिर prompt prefix के एन्कोडेड प्रतिनिधित्व को कई requests में पुनः उपयोग करना। बड़े साझा context (schemas, knowledge bases, instructions) वाले use cases पर लागत 50-90% कम करता है।

The longer version

Anthropic का prompt cache (और OpenAI के structured equivalents) आपको अपने prompt के लंबे static parts — system instructions, schemas, बड़े reference docs — के लिए cache TTL में एक बार भुगतान करने देता है, फिर subsequent reads पर normal input rate का ~10% चुकाना होता है। एक stable system prompt के साथ बड़े knowledge base पर RAG के लिए, यह 5–10x cost reduction है। हम observability में cache hit rate दिखाते हैं ताकि यह measurable हो, assumed नहीं।

Want to talk about how this applies to your stack?