TokenCurb is an LLM cost monitoring tool that shows teams exactly which feature, user, or agent loop is burning tokens — and how to spend less.

How is TokenCurb different from Helicone or LangSmith?

Helicone focuses on observability proxy logging. LangSmith focuses on LangChain trace debugging. TokenCurb is built specifically for cost visibility — per-feature breakdown, spike alerts, and agent loop detection.

Which LLM providers does TokenCurb support?

TokenCurb supports OpenAI, Anthropic, Google Gemini, and Mistral API cost tracking.

How much can I save with LLM cost visibility?

Teams with per-feature LLM cost visibility typically reduce spend by approximately 35% through model routing, agent loop fixes, and spike detection.

Is there a free LLM cost calculator?

Yes. TokenCurb offers a free LLM cost calculator at https://tokencurb.vercel.app/en/calculator to estimate monthly OpenAI, Anthropic, and Gemini API spend.

OpenAI-API-Kosten pro Feature in der Produktion tracken | TokenCurb

Ihre OpenAI-Rechnung kommt. 2.400 $. Sie bezahlen. Aber Sie können immer noch nicht die wichtigste Frage beantworten: Welcher Teil Ihres Produkts hat die Tokens verbraucht?

Chat? Embeddings? Die Agent-Schleife aus dem letzten Sprint? Die Rechnung sagt es nicht. Bis die Buchhaltung den Anstieg bemerkt, ist der Schaden längst geschehen.

Warum monatliche Summen nicht reichen

Die meisten Teams tracken LLM-Ausgaben auf eine von drei Arten:

Anbieter-Dashboard — zeigt Gesamtnutzung, nicht pro Feature
Tabellenkalkulation — manuell, immer veraltet
Gar nicht — überraschend häufig bei Teams unter 5.000 $/Monat

Keines davon zeigt, dass Ihr Agent-Endpoint 52 % des Budgets verbraucht hat, während Chat nur 28 % nutzte. Diese Transparenz ermöglicht echte Optimierung.

Schritt 1: Jeden API-Aufruf taggen

Fügen Sie jeder LLM-Anfrage Metadaten hinzu, bevor sie Ihre App verlässt:

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages,
}, {
  headers: {
    "X-Feature": "chat",
    "X-User-Id": userId,
  },
});

Schritt 2: Input- und Output-Tokens pro Aufruf loggen

const { usage } = response;
log({
  feature: "chat",
  model: "gpt-4o",
  input_tokens: usage.prompt_tokens,
  output_tokens: usage.completion_tokens,
  cost: calculateCost(usage, "gpt-4o"),
  timestamp: Date.now(),
});

Schritt 3: Täglich pro Feature aggregieren

Logs in eine Tagesansicht rollen: Feature → Gesamttokens → Gesamtkosten. Das ist das Dashboard, das Ihr Engineering-Lead wirklich braucht.

Schritt 4: Spitzenwarnungen einrichten

Schwellenwerte pro Feature definieren. Wenn Chat normalerweise 40 $/Tag kostet und plötzlich 400 $ erreicht, wollen Sie heute eine Slack-Warnung — nicht auf der Rechnung nächsten Monats.

Das Agent-Schleifen-Problem

Agent-Ketten sind der stille Budget-Killer. Eine Schleife mit 12 Wiederholungen verbrennt 12× die erwarteten Tokens. Markieren Sie jeden Agent-Aufruf, der das 3-fache Ihres gleitenden Durchschnitts überschreitet.

Selbst bauen vs. kaufen

Oder nutzen Sie unseren kostenlosen LLM-Kostenrechner, um Ihre monatlichen Ausgaben in Sekunden zu schätzen.

Tools wie TokenCurb, Helicone und LangSmith lösen das sofort — jedes mit anderen Stärken.

Was Sie diese Woche tun sollten

Ein Feature wählen und heute Token-Logging hinzufügen
Letzte Monatsrechnung mit Ihren Logs abgleichen
Eine Warnung für Ihren teuersten Endpoint einrichten
Agent-Schleifen auf Wiederholungsmuster prüfen

TokenCurb macht all das automatisch — Feature-Aufschlüsselung, Spitzenwarnungen und Agent-Schleifen-Erkennung.

Zur Warteliste →