錯誤處理的目標是讓系統在異常時仍可預測:可重試、可觀測、可回溯。
請先區分認證錯誤、參數錯誤、流量限制與伺服器錯誤,再定義策略。
批次任務、即時策略與 agent workflow 都需要一致的錯誤模型。
若沒有統一策略,系統常出現 silent failure 或重試風暴。
對 4xx 先做輸入修正與權限檢查,對 5xx 才做可控重試。
每次錯誤請保留 request id、trace_id、endpoint、參數摘要與時間戳。
不要把所有錯誤統一重試;例如 401、403、422 重試通常無效。
對可恢復錯誤需設定熔斷與告警,避免擴散影響下游流程。