Llega tu factura de OpenAI. 2.400 $. La pagas. Pero aún no puedes responder la pregunta más importante: ¿qué parte de tu producto consumió los tokens?

¿El chat? ¿Los embeddings? ¿Ese bucle de agente del último sprint? La factura no lo dice. Cuando finanzas detecta el pico, el daño ya está hecho.

Por qué los totales mensuales no bastan

La mayoría de equipos rastrean el gasto LLM de tres formas:

  • Panel del proveedor — muestra uso total, no por función
  • Hoja de cálculo — manual, siempre desactualizada
  • Nada — sorprendentemente común en equipos bajo 5.000 $/mes

Ninguno te dice que tu endpoint de agente consumió el 52 % del presupuesto mientras el chat solo usó el 28 %. Esa visibilidad permite optimizar de verdad.

Paso 1: Etiqueta cada llamada API

Añade metadata a cada solicitud LLM antes de que salga de tu app:

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages,
}, {
  headers: {
    "X-Feature": "chat",
    "X-User-Id": userId,
  },
});

Paso 2: Registra tokens de entrada y salida por llamada

const { usage } = response;
log({
  feature: "chat",
  model: "gpt-4o",
  input_tokens: usage.prompt_tokens,
  output_tokens: usage.completion_tokens,
  cost: calculateCost(usage, "gpt-4o"),
  timestamp: Date.now(),
});

Paso 3: Agrega por función a diario

Consolida logs en una vista diaria: función → tokens totales → coste total. Es el panel que tu líder de ingeniería realmente necesita.

Paso 4: Configura alertas de picos

Define umbrales por función. Si el chat cuesta 40 $/día y de repente llega a 400 $, quieres una alerta en Slack hoy — no en la factura del mes que viene.

El problema del bucle de agente

Las cadenas de agente matan el presupuesto en silencio. Un bucle que reintenta 12 veces consume 12× los tokens esperados. Marca cualquier llamada que supere 3× tu media móvil.

Construir vs. comprar

O usa nuestra Calculadora de costes LLM gratuita para estimar tu gasto mensual en segundos.

Herramientas como TokenCurb, Helicone y LangSmith lo resuelven listas para usar — cada una con fortalezas distintas.

Qué hacer esta semana

  1. Elige una función y añade logging de tokens hoy
  2. Compara la factura del mes pasado con tus logs
  3. Configura una alerta para tu endpoint más caro
  4. Revisa bucles de agente en busca de patrones de reintento

TokenCurb hace todo esto automáticamente — desglose por función, alertas de picos y detección de bucles de agente.

Unirse a la lista →