Papo reto sobre custo, porque todo orçamento de agente que vejo por aí ou superestima o modelo ou esquece o resto.
Cenário de referência: agente de atendimento, 5 mil conversas por mês, umas 8 trocas por conversa.
Modelo (LLM): usando um modelo intermediário com bom cache de prompt, isso fica na casa de dezenas de dólares por mês. Sim, dezenas. O modelo raramente é o vilão da conta em volume pequeno e médio.
Infra: um cluster gerenciado pequeno ou até um VPS parrudo segura tranquilo. Banco gerenciado, Redis e a aplicação. Chuta uns 100 a 200 dólares por mês no início.
O custo que ninguém orça: engenharia e operação. Observabilidade, evals, ajuste de prompt, tratamento de caso novo. É gente, não máquina.
A moral: não escolha modelo pela tabela de preço com medo de falir. A diferença entre o modelo bom e o mediano no seu volume inicial é o preço de um almoço, e o modelo mediano te custa conversão, que é onde o dinheiro mora de verdade.
Quando o volume multiplica por 100, aí sim a conta de modelo vira linha relevante e otimização vale a pena. Problema bom de ter.