CLI commands
Inferenz-CLI
openclaw infer ist die kanonische Headless-Oberfläche für Provider-gestützte Inferenz-Workflows.
Sie stellt bewusst Capability-Familien bereit, keine rohen Gateway-RPC-Namen und keine rohen Agent-Tool-IDs.
infer in einen Skill umwandeln
Kopieren Sie dies und fügen Sie es in einen Agenten ein:
Read https://docs.openclaw.ai/cli/infer, then create a skill that routes my common workflows to `openclaw infer`.Focus on model runs, image generation, video generation, audio transcription, TTS, web search, and embeddings.Ein guter infer-basierter Skill sollte:
- gängige Benutzerabsichten dem richtigen infer-Unterbefehl zuordnen
- einige kanonische infer-Beispiele für die abgedeckten Workflows enthalten
- in Beispielen und Vorschlägen
openclaw infer ...bevorzugen - vermeiden, die gesamte infer-Oberfläche im Skill-Text erneut zu dokumentieren
Typische Abdeckung eines infer-fokussierten Skills:
openclaw infer model runopenclaw infer image generateopenclaw infer audio transcribeopenclaw infer tts convertopenclaw infer web searchopenclaw infer embedding create
Warum infer verwenden
openclaw infer bietet eine einheitliche CLI für Provider-gestützte Inferenzaufgaben innerhalb von OpenClaw.
Vorteile:
- Verwenden Sie die bereits in OpenClaw konfigurierten Provider und Modelle, statt einmalige Wrapper für jedes Backend zu verdrahten.
- Halten Sie Workflows für Modelle, Bilder, Audiotranskription, TTS, Video, Web und Embeddings unter einem Befehlsbaum.
- Verwenden Sie eine stabile
--json-Ausgabeform für Skripte, Automatisierung und agentengesteuerte Workflows. - Bevorzugen Sie eine First-Party-Oberfläche von OpenClaw, wenn die Aufgabe im Kern „Inferenz ausführen“ ist.
- Verwenden Sie für die meisten infer-Befehle den normalen lokalen Pfad, ohne den Gateway zu benötigen.
Für End-to-End-Provider-Prüfungen bevorzugen Sie openclaw infer ..., sobald untergeordnete
Provider-Tests grün sind. Es übt die ausgelieferte CLI, das Laden der Konfiguration,
die Auflösung des Standard-Agenten, die Aktivierung gebündelter Plugins und die gemeinsame Capability-
Laufzeit aus, bevor die Provider-Anfrage gestellt wird.
Befehlsbaum
openclaw infer list inspect model run list inspect providers auth login auth logout auth status image generate edit describe describe-many providers audio transcribe providers tts convert voices providers status enable disable set-provider video generate describe providers web search fetch providers embedding create providersHäufige Aufgaben
Diese Tabelle ordnet häufige Inferenzaufgaben dem entsprechenden infer-Befehl zu.
| Aufgabe | Befehl | Hinweise |
|---|---|---|
| Einen Text-/Modell-Prompt ausführen | openclaw infer model run --prompt "..." --json |
Verwendet standardmäßig den normalen lokalen Pfad |
| Einen Modell-Prompt für Bilder ausführen | openclaw infer model run --prompt "Describe this" --file ./image.png --model provider/model |
Wiederholen Sie --file für mehrere Bildeingaben |
| Ein Bild generieren | openclaw infer image generate --prompt "..." --json |
Verwenden Sie image edit, wenn Sie von einer vorhandenen Datei ausgehen |
| Eine Bilddatei oder URL beschreiben | openclaw infer image describe --file ./image.png --prompt "..." --json |
--model muss ein bildfähiges <provider/model> sein |
| Audio transkribieren | openclaw infer audio transcribe --file ./memo.m4a --json |
--model muss <provider/model> sein |
| Sprache synthetisieren | openclaw infer tts convert --text "..." --output ./speech.mp3 --json |
tts status ist Gateway-orientiert |
| Ein Video generieren | openclaw infer video generate --prompt "..." --json |
Unterstützt Provider-Hinweise wie --resolution |
| Eine Videodatei beschreiben | openclaw infer video describe --file ./clip.mp4 --json |
--model muss <provider/model> sein |
| Das Web durchsuchen | openclaw infer web search --query "..." --json |
|
| Eine Webseite abrufen | openclaw infer web fetch --url https://example.com --json |
|
| Embeddings erstellen | openclaw infer embedding create --text "..." --json |
Verhalten
openclaw infer ...ist die primäre CLI-Oberfläche für diese Workflows.- Verwenden Sie
--json, wenn die Ausgabe von einem anderen Befehl oder Skript verarbeitet wird. - Verwenden Sie
--provideroder--model provider/model, wenn ein bestimmtes Backend erforderlich ist. - Verwenden Sie
model run --thinking <level>, um eine einmalige Thinking-/Reasoning-Stufe (off,minimal,low,medium,high,adaptive,xhighodermax) zu übergeben, während der Lauf roh bleibt. - Für
image describe,audio transcribeundvideo describemuss--modeldie Form<provider/model>verwenden. - Für
image describeakzeptiert--filelokale Pfade und HTTP(S)-Bild-URLs. Entfernte URLs verwenden die normale Media-Fetch-SSRF-Richtlinie. - Für
image describeführt ein explizites--modelzuerst dieses Provider/Modell aus und versucht dann konfigurierteagents.defaults.imageModel.fallbacks, wenn der Modellaufruf fehlschlägt. Fehler bei der Eingabevorbereitung, etwa fehlende Dateien oder nicht unterstützte URLs, schlagen vor Fallback-Versuchen fehl. Das Modell muss im Modellkatalog oder in der Provider-Konfiguration bildfähig sein.codex/<model>führt einen begrenzten Codex-App-Server-Durchlauf zum Bildverständnis aus;openai/<model>verwendet den OpenAI-Provider-Pfad entweder mit API-Schlüssel- oder ChatGPT/Codex-OAuth-Authentifizierung. - Zustandslose Ausführungsbefehle verwenden standardmäßig lokal.
- Gateway-verwaltete Zustandsbefehle verwenden standardmäßig den Gateway.
- Der normale lokale Pfad erfordert nicht, dass der Gateway läuft.
- Lokales
model runist eine schlanke einmalige Provider-Vervollständigung. Es löst das konfigurierte Agentenmodell und die Authentifizierung auf, startet aber keinen Chat-Agent-Durchlauf, lädt keine Tools und öffnet keine gebündelten MCP-Server. model run --fileakzeptiert Bilddateien, erkennt ihren MIME-Typ und sendet sie mit dem angegebenen Prompt an das ausgewählte Modell. Wiederholen Sie--filefür mehrere Bilder.model run --filelehnt Nicht-Bildeingaben ab. Verwenden Sieinfer audio transcribefür Audiodateien undinfer video describefür Videodateien.model run --gatewayübt Gateway-Routing, gespeicherte Authentifizierung, Provider-Auswahl und die eingebettete Laufzeit aus, läuft aber weiterhin als roher Modell-Probe: Es sendet den angegebenen Prompt und alle Bildanhänge ohne vorheriges Sitzungstranskript, Bootstrap-/AGENTS-Kontext, Context-Engine-Assembly, Tools oder gebündelte MCP-Server.model run --gateway --model <provider/model>erfordert eine vertrauenswürdige Operator-Gateway-Anmeldeinformation, weil die Anfrage den Gateway auffordert, eine einmalige Provider/Modell-Überschreibung auszuführen.- Lokales
model run --thinkingverwendet den schlanken Provider-Vervollständigungspfad; Provider-spezifische Stufen wieadaptiveundmaxwerden der nächstliegenden portablen Simple-Completion-Stufe zugeordnet.
Modell
Verwenden Sie model für Provider-gestützte Textinferenz und Modell-/Provider-Inspektion.
openclaw infer model run --prompt "Reply with exactly: smoke-ok" --jsonopenclaw infer model run --prompt "Summarize this changelog entry" --model openai/gpt-5.4 --jsonopenclaw infer model run --prompt "Describe this image in one sentence" --file ./photo.jpg --model google/gemini-2.5-flash --jsonopenclaw infer model run --prompt "Use more reasoning here" --thinking high --jsonopenclaw infer model providers --jsonopenclaw infer model inspect --name gpt-5.5 --jsonVerwenden Sie vollständige <provider/model>-Referenzen, um einen bestimmten Provider per Smoke-Test zu prüfen, ohne
den Gateway zu starten oder die vollständige Agent-Tool-Oberfläche zu laden:
openclaw infer model run --local --model anthropic/claude-sonnet-4-6 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model cerebras/zai-glm-4.7 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model google/gemini-2.5-flash --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model groq/llama-3.1-8b-instant --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model mistral/mistral-medium-3-5 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model mistral/mistral-small-latest --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model openai/gpt-5.5 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model ollama/qwen2.5vl:7b --prompt "Describe this image." --file ./photo.jpg --jsonHinweise:
- Lokales
model runist der engste CLI-Smoke-Test für Provider-/Modell-/Authentifizierungsstatus, weil es bei Nicht-Codex-Providern nur den angegebenen Prompt an das ausgewählte Modell sendet. - Lokales
model run --model <provider/model>kann exakte gebündelte statische Katalogzeilen ausmodels list --allverwenden, bevor dieser Provider in die Konfiguration geschrieben wird. Provider-Authentifizierung ist weiterhin erforderlich; fehlende Anmeldeinformationen schlagen als Authentifizierungsfehler fehl, nicht alsUnknown model. - Für Mistral-Medium-3.5-Reasoning-Probes lassen Sie die Temperatur unset/default. Mistral lehnt
reasoning_effort="high"plustemperature: 0ab; verwenden Siemistral/mistral-medium-3-5mit Standardtemperatur oder einem Reasoning-Modus-Wert ungleich null wie0.7. - Lokale Codex-Responses-Probes sind die schmale Ausnahme: OpenClaw fügt eine minimale Systemanweisung hinzu, damit der Transport sein erforderliches Feld
instructionsbefüllen kann, ohne vollständigen Agent-Kontext, Tools, Speicher oder Sitzungstranskript hinzuzufügen. - Lokales
model run --filebehält diesen schlanken Pfad bei und hängt Bildinhalte direkt an die einzelne Benutzernachricht an. Gängige Bilddateien wie PNG, JPEG und WebP funktionieren, wenn ihr MIME-Typ alsimage/*erkannt wird; nicht unterstützte oder nicht erkannte Dateien schlagen fehl, bevor der Provider aufgerufen wird. model run --fileist am besten geeignet, wenn Sie das ausgewählte multimodale Textmodell direkt testen möchten. Verwenden Sieinfer image describe, wenn Sie OpenClaws Provider-Auswahl für Bildverständnis und Standard-Bildmodell-Routing möchten.- Das ausgewählte Modell muss Bildeingaben unterstützen; reine Textmodelle können die Anfrage auf Provider-Ebene ablehnen.
model run --promptmuss Text enthalten, der nicht nur aus Leerraum besteht; leere Prompts werden abgelehnt, bevor lokale Provider oder der Gateway aufgerufen werden.- Lokales
model runbeendet mit einem Nicht-Null-Code, wenn der Provider keine Textausgabe zurückgibt, sodass nicht erreichbare lokale Provider und leere Vervollständigungen nicht wie erfolgreiche Probes aussehen. - Verwenden Sie
model run --gateway, wenn Sie Gateway-Routing, Agent-Laufzeit-Setup oder Gateway-verwalteten Provider-Zustand testen müssen, während die Modelleingabe roh bleibt. Verwenden Sieopenclaw agentoder Chat-Oberflächen, wenn Sie den vollständigen Agent-Kontext, Tools, Speicher und Sitzungstranskript wünschen. model auth login,model auth logoutundmodel auth statusverwalten gespeicherten Provider-Authentifizierungszustand.
Bild
Verwenden Sie image für Generierung, Bearbeitung und Beschreibung.
openclaw infer image generate --prompt "friendly lobster illustration" --jsonopenclaw infer image generate --prompt "cinematic product photo of headphones" --jsonopenclaw infer image generate --model openai/gpt-image-1.5 --output-format png --background transparent --prompt "simple red circle sticker on a transparent background" --jsonopenclaw infer image generate --model openai/gpt-image-2 --quality low --openai-moderation low --prompt "low-cost draft poster" --jsonopenclaw infer image generate --prompt "slow image backend" --timeout-ms 180000 --jsonopenclaw infer image edit --file ./logo.png --model openai/gpt-image-1.5 --output-format png --background transparent --prompt "keep the logo, remove the background" --jsonopenclaw infer image edit --file ./poster.png --prompt "make this a vertical story ad" --size 2160x3840 --aspect-ratio 9:16 --resolution 4K --jsonopenclaw infer image describe --file ./photo.jpg --jsonopenclaw infer image describe --file https://example.com/photo.png --jsonopenclaw infer image describe --file ./receipt.jpg --prompt "Extract the merchant, date, and total" --jsonopenclaw infer image describe-many --file ./before.png --file ./after.png --prompt "Compare the screenshots and list visible UI changes" --jsonopenclaw infer image describe --file ./ui-screenshot.png --model openai/gpt-5.4-mini --jsonopenclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --prompt "Describe the image in one sentence" --timeout-ms 300000 --jsonHinweise:
-
Verwenden Sie
image edit, wenn Sie mit vorhandenen Eingabedateien beginnen. -
Verwenden Sie
--size,--aspect-ratiooder--resolutionmitimage editfür Provider/Modelle, die Geometriehinweise bei Referenzbild-Bearbeitungen unterstützen. -
Verwenden Sie
--output-format png --background transparentmit--model openai/gpt-image-1.5für OpenAI-PNG-Ausgabe mit transparentem Hintergrund;--openai-backgroundbleibt als OpenAI-spezifischer Alias verfügbar. Provider, die keine Hintergrundunterstützung deklarieren, melden den Hinweis als ignorierte Überschreibung. -
Verwenden Sie
--quality low|medium|high|autofür Provider, die Hinweise zur Bildqualität unterstützen, einschließlich OpenAI. OpenAI akzeptiert außerdem--openai-moderation low|autofür den Provider-spezifischen Moderationshinweis. -
Verwenden Sie
image providers --json, um zu prüfen, welche gebündelten Bild-Provider auffindbar, konfiguriert und ausgewählt sind und welche Generierungs-/Bearbeitungsfunktionen jeder Provider bereitstellt. -
Verwenden Sie
image generate --model <provider/model> --jsonals den engsten Live- CLI-Smoke-Test für Änderungen an der Bildgenerierung. Beispiel:bash openclaw infer image providers --jsonopenclaw infer image generate \ --model google/gemini-3.1-flash-image-preview \ --prompt "Minimal flat test image: one blue square on a white background, no text." \ --output ./openclaw-infer-image-smoke.png \ --jsonDie JSON-Antwort meldet
ok,provider,model,attemptsund geschriebene Ausgabepfade. Wenn--outputgesetzt ist, kann die endgültige Erweiterung dem vom Provider zurückgegebenen MIME-Typ folgen. -
Verwenden Sie für
image describeundimage describe-many--prompt, um dem Vision-Modell eine aufgabenspezifische Anweisung zu geben, etwa OCR, Vergleich, UI-Prüfung oder knappe Beschriftung. -
Verwenden Sie
--timeout-msmit langsamen lokalen Vision-Modellen oder kalten Ollama-Starts. -
Für
image describemuss--modelein bildfähiges<provider/model>sein. Wenn es gesetzt ist, versucht OpenClaw zuerst dieses explizite Modell und danach konfigurierte Image-Model-Fallbacks, falls der Modellaufruf fehlschlägt. -
Für lokale Ollama-Vision-Modelle laden Sie zuerst das Modell und setzen Sie
OLLAMA_API_KEYauf einen beliebigen Platzhalterwert, zum Beispielollama-local. Siehe Ollama.
Audio
Verwenden Sie audio für Dateitranskription.
openclaw infer audio transcribe --file ./memo.m4a --jsonopenclaw infer audio transcribe --file ./team-sync.m4a --language en --prompt "Focus on names and action items" --jsonopenclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --jsonHinweise:
audio transcribeist für Dateitranskription gedacht, nicht für Echtzeit-Sitzungsverwaltung.--modelmuss<provider/model>sein.
TTS
Verwenden Sie tts für Sprachsynthese und den TTS-Provider-Status.
openclaw infer tts convert --text "hello from openclaw" --output ./hello.mp3 --jsonopenclaw infer tts convert --text "Your build is complete" --output ./build-complete.mp3 --jsonopenclaw infer tts providers --jsonopenclaw infer tts status --jsonHinweise:
tts statusverwendet standardmäßig den Gateway, weil es den vom Gateway verwalteten TTS-Status widerspiegelt.- Verwenden Sie
tts providers,tts voicesundtts set-provider, um das TTS-Verhalten zu prüfen und zu konfigurieren.
Video
Verwenden Sie video für Generierung und Beschreibung.
openclaw infer video generate --prompt "cinematic sunset over the ocean" --jsonopenclaw infer video generate --prompt "slow drone shot over a forest lake" --resolution 768P --duration 6 --jsonopenclaw infer video describe --file ./clip.mp4 --jsonopenclaw infer video describe --file ./clip.mp4 --model openai/gpt-5.4-mini --jsonHinweise:
video generateakzeptiert--size,--aspect-ratio,--resolution,--duration,--audio,--watermarkund--timeout-msund leitet sie an die Video-Generierungsruntime weiter.--modelmuss fürvideo describe<provider/model>sein.
Web
Verwenden Sie web für Such- und Abruf-Workflows.
openclaw infer web search --query "OpenClaw docs" --jsonopenclaw infer web search --query "OpenClaw infer web providers" --jsonopenclaw infer web fetch --url https://docs.openclaw.ai/cli/infer --jsonopenclaw infer web providers --jsonHinweise:
- Verwenden Sie
web providers, um verfügbare, konfigurierte und ausgewählte Provider zu prüfen.
Embedding
Verwenden Sie embedding für Vektorerstellung und Prüfung von Embedding-Providern.
openclaw infer embedding create --text "friendly lobster" --jsonopenclaw infer embedding create --text "customer support ticket: delayed shipment" --model openai/text-embedding-3-large --jsonopenclaw infer embedding providers --jsonJSON-Ausgabe
Infer-Befehle normalisieren die JSON-Ausgabe unter einer gemeinsamen Hülle:
{ "ok": true, "capability": "image.generate", "transport": "local", "provider": "openai", "model": "gpt-image-2", "attempts": [], "outputs": []}Felder auf oberster Ebene sind stabil:
okcapabilitytransportprovidermodelattemptsoutputserror
Für Befehle mit generierten Medien enthält outputs Dateien, die von OpenClaw geschrieben wurden. Verwenden Sie
path, mimeType, size und alle medienspezifischen Abmessungen in diesem Array
für Automatisierung, statt menschenlesbares stdout zu parsen.
Häufige Fallstricke
# Badopenclaw infer media image generate --prompt "friendly lobster" # Goodopenclaw infer image generate --prompt "friendly lobster"# Badopenclaw infer audio transcribe --file ./memo.m4a --model whisper-1 --json # Goodopenclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --jsonHinweise
openclaw capability ...ist ein Alias füropenclaw infer ....