TokenCurb is an LLM cost monitoring tool that shows teams exactly which feature, user, or agent loop is burning tokens — and how to spend less.

How is TokenCurb different from Helicone or LangSmith?

Helicone focuses on observability proxy logging. LangSmith focuses on LangChain trace debugging. TokenCurb is built specifically for cost visibility — per-feature breakdown, spike alerts, and agent loop detection.

Which LLM providers does TokenCurb support?

TokenCurb supports OpenAI, Anthropic, Google Gemini, and Mistral API cost tracking.

How much can I save with LLM cost visibility?

Teams with per-feature LLM cost visibility typically reduce spend by approximately 35% through model routing, agent loop fixes, and spike detection.

Is there a free LLM cost calculator?

Yes. TokenCurb offers a free LLM cost calculator at https://tokencurb.vercel.app/en/calculator to estimate monthly OpenAI, Anthropic, and Gemini API spend.

Cómo rastrear los costes de la API de OpenAI por función en producción | TokenCurb

Llega tu factura de OpenAI. 2.400 $. La pagas. Pero aún no puedes responder la pregunta más importante: ¿qué parte de tu producto consumió los tokens?

¿El chat? ¿Los embeddings? ¿Ese bucle de agente del último sprint? La factura no lo dice. Cuando finanzas detecta el pico, el daño ya está hecho.

Por qué los totales mensuales no bastan

La mayoría de equipos rastrean el gasto LLM de tres formas:

Panel del proveedor — muestra uso total, no por función
Hoja de cálculo — manual, siempre desactualizada
Nada — sorprendentemente común en equipos bajo 5.000 $/mes

Ninguno te dice que tu endpoint de agente consumió el 52 % del presupuesto mientras el chat solo usó el 28 %. Esa visibilidad permite optimizar de verdad.

Paso 1: Etiqueta cada llamada API

Añade metadata a cada solicitud LLM antes de que salga de tu app:

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages,
}, {
  headers: {
    "X-Feature": "chat",
    "X-User-Id": userId,
  },
});

Paso 2: Registra tokens de entrada y salida por llamada

const { usage } = response;
log({
  feature: "chat",
  model: "gpt-4o",
  input_tokens: usage.prompt_tokens,
  output_tokens: usage.completion_tokens,
  cost: calculateCost(usage, "gpt-4o"),
  timestamp: Date.now(),
});

Paso 3: Agrega por función a diario

Consolida logs en una vista diaria: función → tokens totales → coste total. Es el panel que tu líder de ingeniería realmente necesita.

Paso 4: Configura alertas de picos

Define umbrales por función. Si el chat cuesta 40 $/día y de repente llega a 400 $, quieres una alerta en Slack hoy — no en la factura del mes que viene.

El problema del bucle de agente

Las cadenas de agente matan el presupuesto en silencio. Un bucle que reintenta 12 veces consume 12× los tokens esperados. Marca cualquier llamada que supere 3× tu media móvil.

Construir vs. comprar

O usa nuestra Calculadora de costes LLM gratuita para estimar tu gasto mensual en segundos.

Herramientas como TokenCurb, Helicone y LangSmith lo resuelven listas para usar — cada una con fortalezas distintas.

Qué hacer esta semana

Elige una función y añade logging de tokens hoy
Compara la factura del mes pasado con tus logs
Configura una alerta para tu endpoint más caro
Revisa bucles de agente en busca de patrones de reintento

TokenCurb hace todo esto automáticamente — desglose por función, alertas de picos y detección de bucles de agente.

Unirse a la lista →