Playbook8 मिनट6 pages

प्रोडक्शन agent डिज़ाइन

एजेंट्स को कैसे डिज़ाइन करें जो ship हों — guardrails, escalation, observability.

ज्यादातर टीमें agents को demo stage पर ही रोक देती हैं क्योंकि वे happy path के लिए design करती हैं और exceptions को बाद में समझने की कोशिश करती हैं। हम exception-first design करते हैं। यह वह playbook है जो हम हर agent engagement में उपयोग करते हैं।

1. पहले एक्शन सरफेस को परिभाषित करें

प्रॉम्प्ट लिखने से पहले, agent द्वारा की जा सकने वाली हर action को सूचीबद्ध करें। अधिकांश teams इसे छोड़ देती हैं और जैसे-जैसे यह बढ़ता है, एक अव्यवस्थित tool list विरासत में मिलती है। खराब परिणाम।

वर्कफ़्लो को वर्तमान में करने वाले व्यक्ति के साथ मिलकर सूची बनाएं। वे उन actions को सामने लाएंगे जो आप चूक सकते हैं — और उन्हें अस्वीकार करेंगे जिन्हें आप ज़्यादा शामिल कर देते।

प्रत्येक क्रिया एक verb-object जोड़ी है: 'create-ticket', 'lookup-account', 'send-email'
प्रत्येक में एक स्पष्ट input schema और एक clear failure mode होता है
प्रत्येक को read / write / external के रूप में टैग किया गया है — बाद में authorization को नियंत्रित करता है

2. हर लेखन कार्रवाई को अनुमोदन में लपेटें

v1 एजेंट स्वायत्त रूप से write actions नहीं लेते। वे ड्राफ्ट करते हैं, अनुमोदन का अनुरोध करते हैं, फिर execute करते हैं। बस।

अनुमोदन inline हो सकता है (चैट कन्फर्मेशन), किसी queue में भेजा जा सकता है, या किसी policy के आधार पर auto-approve किया जा सकता है — लेकिन यह स्पष्ट होता है। agent की सफलता का मापदंड approve-rate है, न कि auto-execute count।

3. प्रसन्न मार्ग से पहले वृद्धि मार्ग बनाएं

हर एजेंट में एक 'मुझे नहीं पता — किसी व्यक्ति तक पहुंचाएं' ब्रांच होती है। इसे पहले बनाना स्पष्टता लाता है कि एजेंट को क्या अस्वीकार करना चाहिए, क्या अस्पष्ट माना जाता है, और मानव कहां कतार में आते हैं।

कॉन्फिडेंस थ्रेशोल्ड मायने रखते हैं। हम इन्हें पहली 100 production वार्तालाप देखने के बाद ट्यून करते हैं, पहले नहीं।

4. ऑब्जर्वेबिलिटी अनिवार्य है

हर prompt, retrieval, tool call, और output reasoning के साथ log हो जाता है। हम default रूप से Langfuse का उपयोग करते हैं। आपको fancy dashboards की ज़रूरत नहीं — जब कुछ गड़बड़ हो जाए तो आपको replayable traces चाहिए।

ऑपरेशन्स मालिक के साथ साप्ताहिक समीक्षा cadence। हमने कभी भी बिना इसके agent नहीं चलाया है और न ही कभी ऐसा करने की योजना बनाई है।

5. लॉन्च से पहले eval करें, लॉन्च के बाद eval करें

पहले हफ्ते से eval suite में 20+ test cases। हर prompt बदलाव के खिलाफ replay करें। हम बिना green eval के prompt edits ship नहीं करते।

लॉन्च के बाद, eval suite हर हफ्ते उन production cases के साथ बढ़ता है जिन्हें हम दोबारा कभी fail नहीं होने देना चाहते।

सामान्य विफलता मोड

टीमें एक सामान्य 'AI assistant' बनाती हैं जो बहुत सी चीज़ें करता है। v1 के लिए विशिष्ट > सामान्य। एक workflow, अच्छे से किया गया।

सामान्य छोड़ें

बिना ऑब्ज़र्वेबिलिटी के agents बनाना। जब शनिवार रात 11 बजे पहली बार कुछ खराब होगा तो आपको पछतावा होगा।