Inferenz — Glossar | Auryth TX AI

Definition

Inferenz ist der Prozess des Ausführens eines trainierten KI-Modells, um Ausgaben aus neuen Eingaben zu generieren. Anders als Training (das Modellgewichte anpasst), verwendet Inferenz feste Gewichte, um Vorhersagen, Antworten, Embeddings oder andere Ausgaben zu produzieren. Dies geschieht, wenn Sie einen Prompt an ChatGPT senden oder eine Embedding-API abfragen.

Warum es wichtig ist

Inferenz ist, wo KI-Modelle Wert in der Produktion liefern:

Benutzererfahrung — Inferenzgeschwindigkeit bestimmt Antwortzeit
Kostentreiber — die meisten KI-Betriebskosten entstehen durch Inferenz
Skalierbarkeit — gleichzeitige Inferenzanfragen erfordern Optimierung
Genauigkeit — Inferenzqualität hängt von Modellwahl und Konfiguration ab
Deployment — Inferenzanforderungen formen Infrastrukturentscheidungen

Inferenz zu verstehen ist essentiell für effizientes KI-System-Deployment.

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                    INFERENZ-PIPELINE                       │
├────────────────────────────────────────────────────────────┤
│                                                            │
│        EINGABE                        AUSGABE              │
│  "Was sind MwSt-                 "MwSt-Befreiungen         │
│   Befreiungen?"                   umfassen..."             │
│        │                               ▲                   │
│        │                               │                   │
│        ▼                               │                   │
│  ┌──────────────────────────────────────────────────┐      │
│  │                VORVERARBEITUNG                   │      │
│  │   • Tokenisierung                                │      │
│  │   • Embedding-Lookup                             │      │
│  │   • Kontextassemblierung                         │      │
│  └──────────────────┬───────────────────────────────┘      │
│                     ▼                                      │
│  ┌──────────────────────────────────────────────────┐      │
│  │              MODELL FORWARD PASS                 │      │
│  │   • Schicht-für-Schicht-Berechnung               │      │
│  │   • Attention-Berechnungen                       │      │
│  │   • Matrixmultiplikationen                       │      │
│  └──────────────────┬───────────────────────────────┘      │
│                     ▼                                      │
│  ┌──────────────────────────────────────────────────┐      │
│  │              NACHVERARBEITUNG                    │      │
│  │   • Token-Sampling/Dekodierung                   │      │
│  │   • Ausgabeformatierung                          │      │
│  │   • Sicherheitsfilterung                         │      │
│  └──────────────────────────────────────────────────┘      │
│                                                            │
│  METRIKEN:                                                 │
│  • Latenz: Zeit bis zum ersten Token (TTFT, ~100-500ms)    │
│  • Durchsatz: Tokens pro Sekunde (TPS)                     │
│  • Kosten: € pro Million Tokens                            │
│                                                            │
└────────────────────────────────────────────────────────────┘

Wichtige Inferenz-Konzepte:

Batch-Inferenz — mehrere Eingaben zusammen für Effizienz verarbeiten
Echtzeit-Inferenz — sofortige Antwort für interaktive Anwendungen
Streaming — Tokens zurückgeben während sie generiert werden
Edge-Inferenz — Modelle lokal auf dem Gerät ausführen

Häufige Fragen

F: Was beeinflusst Inferenzgeschwindigkeit?

A: Modellgröße (Parameter), Hardware (GPU-Typ), Batch-Größe, Sequenzlänge und Optimierungstechniken (Quantisierung, KV-Caching). Größere Modelle und längere Kontexte erhöhen Latenz.

F: Was ist Quantisierung?

A: Reduzierung der Modellpräzision (z.B. float32 → int8) zur Beschleunigung der Inferenz und Speicherreduktion. Etwas Genauigkeit kann verloren gehen, aber moderne Quantisierung erhält die meiste Qualität bei 2-4x schnellerer Inferenz.

F: Was ist der Unterschied zwischen Inferenz und Training?

A: Training passt Modellgewichte mit Daten an; Inferenz verwendet feste Gewichte zur Ausgabegenerierung. Training ist computationell teuer und geschieht periodisch; Inferenz ist günstiger pro Anfrage und läuft kontinuierlich.

F: Wie werden Inferenzkosten berechnet?

A: Meist nach verarbeiteten Tokens. APIs berechnen pro Million Input/Output-Tokens. Selbst-gehostete Inferenzkosten umfassen GPU-Zeit, Speicher und Infrastruktur. Output-Tokens kosten oft mehr als Input-Tokens.

Referenzen

Pope et al. (2023), “Efficiently Scaling Transformer Inference”, MLSys. [200+ Zitationen]

Dettmers et al. (2022), “LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale”, NeurIPS. [1.000+ Zitationen]

Kwon et al. (2023), “Efficient Memory Management for Large Language Model Serving with PagedAttention”, SOSP. [500+ Zitationen]

Leviathan et al. (2023), “Fast Inference from Transformers via Speculative Decoding”, ICML. [400+ Zitationen]

References

Pope et al. (2023), “Efficiently Scaling Transformer Inference”, MLSys. [200+ citations]

Dettmers et al. (2022), “LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale”, NeurIPS. [1,000+ citations]

Kwon et al. (2023), “Efficient Memory Management for Large Language Model Serving with PagedAttention”, SOSP. [500+ citations]

Leviathan et al. (2023), “Fast Inference from Transformers via Speculative Decoding”, ICML. [400+ citations]