Ihre OpenAI-Rechnung kommt. 2.400 $. Sie bezahlen. Aber Sie können immer noch nicht die wichtigste Frage beantworten: Welcher Teil Ihres Produkts hat die Tokens verbraucht?

Chat? Embeddings? Die Agent-Schleife aus dem letzten Sprint? Die Rechnung sagt es nicht. Bis die Buchhaltung den Anstieg bemerkt, ist der Schaden längst geschehen.

Warum monatliche Summen nicht reichen

Die meisten Teams tracken LLM-Ausgaben auf eine von drei Arten:

  • Anbieter-Dashboard — zeigt Gesamtnutzung, nicht pro Feature
  • Tabellenkalkulation — manuell, immer veraltet
  • Gar nicht — überraschend häufig bei Teams unter 5.000 $/Monat

Keines davon zeigt, dass Ihr Agent-Endpoint 52 % des Budgets verbraucht hat, während Chat nur 28 % nutzte. Diese Transparenz ermöglicht echte Optimierung.

Schritt 1: Jeden API-Aufruf taggen

Fügen Sie jeder LLM-Anfrage Metadaten hinzu, bevor sie Ihre App verlässt:

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages,
}, {
  headers: {
    "X-Feature": "chat",
    "X-User-Id": userId,
  },
});

Schritt 2: Input- und Output-Tokens pro Aufruf loggen

const { usage } = response;
log({
  feature: "chat",
  model: "gpt-4o",
  input_tokens: usage.prompt_tokens,
  output_tokens: usage.completion_tokens,
  cost: calculateCost(usage, "gpt-4o"),
  timestamp: Date.now(),
});

Schritt 3: Täglich pro Feature aggregieren

Logs in eine Tagesansicht rollen: Feature → Gesamttokens → Gesamtkosten. Das ist das Dashboard, das Ihr Engineering-Lead wirklich braucht.

Schritt 4: Spitzenwarnungen einrichten

Schwellenwerte pro Feature definieren. Wenn Chat normalerweise 40 $/Tag kostet und plötzlich 400 $ erreicht, wollen Sie heute eine Slack-Warnung — nicht auf der Rechnung nächsten Monats.

Das Agent-Schleifen-Problem

Agent-Ketten sind der stille Budget-Killer. Eine Schleife mit 12 Wiederholungen verbrennt 12× die erwarteten Tokens. Markieren Sie jeden Agent-Aufruf, der das 3-fache Ihres gleitenden Durchschnitts überschreitet.

Selbst bauen vs. kaufen

Oder nutzen Sie unseren kostenlosen LLM-Kostenrechner, um Ihre monatlichen Ausgaben in Sekunden zu schätzen.

Tools wie TokenCurb, Helicone und LangSmith lösen das sofort — jedes mit anderen Stärken.

Was Sie diese Woche tun sollten

  1. Ein Feature wählen und heute Token-Logging hinzufügen
  2. Letzte Monatsrechnung mit Ihren Logs abgleichen
  3. Eine Warnung für Ihren teuersten Endpoint einrichten
  4. Agent-Schleifen auf Wiederholungsmuster prüfen

TokenCurb macht all das automatisch — Feature-Aufschlüsselung, Spitzenwarnungen und Agent-Schleifen-Erkennung.

Zur Warteliste →