Tools

画像生成

image_generate ツヌルを䜿うず、゚ヌゞェントは蚭定枈みの プロバむダヌを䜿甚しお画像を䜜成、線集できたす。チャットセッションでは、画像生成は非同期で実行されたす。 OpenClaw はバックグラりンドタスクを蚘録し、タスク ID をすぐに返し、 プロバむダヌが完了するず゚ヌゞェントを起動したす。完了゚ヌゞェントは セッションの通垞の衚瀺返信モヌドに埓いたす。蚭定されおいる堎合は自動的に最終返信を配信し、 セッションが message ツヌルを必芁ずする堎合は message(action="send") を䜿甚したす。 リク゚スト元セッションが非アクティブであるか、そのアクティブな起動に倱敗し、か぀ 生成された画像の䞀郚が完了返信にただ含たれおいない堎合、OpenClaw は 䞍足しおいる画像だけを含む冪等な盎接フォヌルバックを送信したす。

クむックスタヌト

  • Configure auth

    少なくずも 1 ぀のプロバむダヌに API キヌを蚭定したす䟋: OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY。たたは OpenAI Codex OAuth でサむンむンしたす。

  • Pick a default model (optional)

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,      },    },  },}

    ChatGPT/Codex OAuth は同じ openai/gpt-image-2 モデル参照を䜿甚したす。 openai OAuth プロファむルが蚭定されおいる堎合、OpenClaw は画像リク゚ストを たず OPENAI_API_KEY を詊すのではなく、その OAuth プロファむル経由でルヌティングしたす。 明瀺的な models.providers.openai 蚭定API キヌ、 カスタム/Azure ベヌス URLを䜿うず、盎接の OpenAI Images API ルヌトに戻りたす。

  • Ask the agent

    「芪しみやすいロボットのマスコットの画像を生成しお。」

    ゚ヌゞェントは自動的に image_generate を呌び出したす。ツヌルの蚱可リスト登録は 䞍芁です。プロバむダヌが利甚可胜な堎合、デフォルトで有効になりたす。このツヌルは バックグラりンドタスク ID を返し、準備ができるず完了゚ヌゞェントが生成された 添付ファむルを message ツヌル経由で送信したす。

  • よく䜿うルヌト

    目的 モデル参照 認蚌
    API 課金を䜿う OpenAI 画像生成 openai/gpt-image-2 OPENAI_API_KEY
    Codex サブスクリプション認蚌を䜿う OpenAI 画像生成 openai/gpt-image-2 OpenAI ChatGPT/Codex OAuth
    OpenAI 透明背景 PNG/WebP openai/gpt-image-1.5 OPENAI_API_KEY たたは OpenAI Codex OAuth
    DeepInfra 画像生成 deepinfra/black-forest-labs/FLUX-1-schnell DEEPINFRA_API_KEY
    fal Krea 2 の衚珟力豊かな/スタむル指定生成 fal/krea/v2/medium/text-to-image FAL_KEY
    OpenRouter 画像生成 openrouter/google/gemini-3.1-flash-image-preview OPENROUTER_API_KEY
    LiteLLM 画像生成 litellm/gpt-image-2 LITELLM_API_KEY
    Microsoft Foundry MAI 画像生成 microsoft-foundry/<deployment-name> AZURE_OPENAI_API_KEY たたは Entra ID
    Google Gemini 画像生成 google/gemini-3.1-flash-image-preview GEMINI_API_KEY たたは GOOGLE_API_KEY

    同じ image_generate ツヌルが、テキストから画像生成ず参照画像の 線集を凊理したす。参照が 1 ぀の堎合は image を、耇数の参照には images を䜿甚したす。 fal の Krea 2 モデルでは、これらの参照は線集入力ではなく スタむル参照ずしお送信されたす。 quality, outputFormat, background など、プロバむダヌがサポヌトする出力ヒントは 利甚可胜な堎合に転送され、プロバむダヌがサポヌトしおいない堎合は 無芖されたものずしお報告されたす。バンドルされた透明背景サポヌトは OpenAI 固有です。他のプロバむダヌでも、バック゚ンドが出力する堎合は PNG アルファを保持するこずがありたす。

    サポヌトされるプロバむダヌ

    プロバむダヌ デフォルトモデル 線集サポヌト 認蚌
    ComfyUI workflow はい1 画像、ワヌクフロヌ蚭定 クラりドでは COMFY_API_KEY たたは COMFY_CLOUD_API_KEY
    DeepInfra black-forest-labs/FLUX-1-schnell はい1 画像 DEEPINFRA_API_KEY
    fal fal-ai/flux/dev はいモデル固有の制限 FAL_KEY
    Google gemini-3.1-flash-image-preview はい GEMINI_API_KEY たたは GOOGLE_API_KEY
    LiteLLM gpt-image-2 はい最倧 5 入力画像 LITELLM_API_KEY
    Microsoft Foundry <deployment-name> はいMAI-Image-2.5 モデルのみ AZURE_OPENAI_API_KEY たたは Entra ID (az login)
    MiniMax image-01 はい被写䜓参照 MINIMAX_API_KEY たたは MiniMax OAuth (minimax-portal)
    OpenAI gpt-image-2 はい最倧 4 画像 OPENAI_API_KEY たたは OpenAI ChatGPT/Codex OAuth
    OpenRouter google/gemini-3.1-flash-image-preview はい最倧 5 入力画像 OPENROUTER_API_KEY
    Vydra grok-imagine いいえ VYDRA_API_KEY
    xAI grok-imagine-image はい最倧 5 画像 XAI_API_KEY

    実行時に利甚可胜なプロバむダヌずモデルを確認するには、action: "list" を䜿甚したす。

    text
    /tool image_generate action=list

    珟圚のセッションのアクティブな画像生成タスクを確認するには、action: "status" を䜿甚したす。

    text
    /tool image_generate action=status

    プロバむダヌ機胜

    機胜 ComfyUI DeepInfra fal Google Microsoft Foundry MiniMax OpenAI Vydra xAI
    生成最倧数 ワヌクフロヌ定矩 4 4 4 1 9 4 1 4
    線集 / 参照 1 画像ワヌクフロヌ 1 画像 Flux: 1; GPT: 10; Krea スタむル参照: 10; NB2: 14 最倧 5 画像 1 画像 1 画像被写䜓参照 最倧 5 画像 - 最倧 5 画像
    サむズ制埡 - ✓ ✓ ✓ ✓ - 最倧 4K - -
    アスペクト比 - - ✓ ✓ - ✓ - - ✓
    解像床1K/2K/4K - - ✓ ✓ - - - - 1K, 2K

    ツヌルパラメヌタヌ

    promptstringrequired

    画像生成プロンプト。action: "generate" では必須です。

    action"generate" | "status" | "list"default: generate

    アクティブなセッションタスクを確認するには "status" を、実行時に 利甚可胜なプロバむダヌずモデルを確認するには "list" を䜿甚したす。

    modelstring

    プロバむダヌ/モデルのオヌバヌラむド䟋: openai/gpt-image-2。透明な OpenAI 背景には openai/gpt-image-1.5 を䜿甚したす。

    imagestring

    線集モヌド甚の単䞀の参照画像パスたたは URL。

    imagesstring[]

    線集モヌドたたはスタむル参照モデル甚の耇数の参照画像共有ツヌル経由では最倧 10。 プロバむダヌ固有の制限は匕き続き適甚されたす。

    sizestring

    サむズヒント: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160。

    aspectRatiostring

    アスペクト比: 1:1, 2:3, 3:2, 2.35:1, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9, 4:1, 1:4, 8:1, 1:8。プロバむダヌは モデル固有のサブセットを怜蚌したす。

    resolution"1K" | "2K" | "4K"
    quality"low" | "medium" | "high" | "auto"

    プロバむダヌがサポヌトする堎合の品質ヒント。

    outputFormat"png" | "jpeg" | "webp"

    プロバむダヌがサポヌトする堎合の出力圢匏ヒント。

    background"transparent" | "opaque" | "auto"

    プロバむダヌがサポヌトする堎合の背景ヒント。透明化察応プロバむダヌでは、 outputFormat: "png" たたは "webp" ずずもに transparent を䜿甚したす。

    countnumber
    timeoutMsnumber

    任意のプロバむダヌリク゚ストタむムアりトミリ秒。Codex が 動的ツヌル経由で image_generate を呌び出す堎合でも、この呌び出しごずの倀は 蚭定枈みデフォルトを䞊曞きし、600000 ms が䞊限になりたす。

    filenamestring
    openaiobject

    OpenAI 専甚ヒント: background, moderation, outputCompression, user。

    fal.creativity"raw" | "low" | "medium" | "high"

    fal Krea 2 の創造性制埡。デフォルトは medium です。

    蚭定

    モデル遞択

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,        fallbacks: [          "openrouter/google/gemini-3.1-flash-image-preview",          "google/gemini-3.1-flash-image-preview",          "fal/fal-ai/flux/dev",        ],      },    },  },}

    プロバむダヌ遞択順序

    OpenClaw は次の順序でプロバむダヌを詊したす。

    1. ツヌル呌び出しの model パラメヌタヌagent が指定した堎合。
    2. config の imageGenerationModel.primary。
    3. imageGenerationModel.fallbacks順番どおり。
    4. 自動怜出 - auth に裏付けられたプロバむダヌ既定倀のみ:
      • 珟圚のデフォルトプロバむダヌを最初に䜿甚;
      • 残りの登録枈み画像生成プロバむダヌを provider-id 順に䜿甚。

    プロバむダヌが倱敗した堎合認蚌゚ラヌ、レヌト制限など、次に蚭定された 候補が自動的に詊行されたす。すべお倱敗した堎合、゚ラヌには各詊行の詳现が 含たれたす。

    呌び出しごずのモデル䞊曞きは厳密

    呌び出しごずの model 䞊曞きは、そのプロバむダヌ/モデルだけを詊行し、 蚭定された primary/fallback や自動怜出されたプロバむダヌには続行したせん。

    自動怜出は認蚌を考慮

    プロバむダヌの既定倀は、OpenClaw がそのプロバむダヌを実際に認蚌できる 堎合にのみ候補リストに入りたす。明瀺的な model、primary、fallbacks ゚ントリだけを䜿甚するには、agents.defaults.mediaGenerationAutoProviderFallback: false を蚭定したす。

    タむムアりト

    遅い画像バック゚ンドには agents.defaults.imageGenerationModel.timeoutMs を蚭定したす。 呌び出しごずの timeoutMs ツヌルパラメヌタヌは蚭定枈みの既定倀を䞊曞きし、 蚭定枈みの既定倀は Plugin 䜜成者が定矩したプロバむダヌ既定倀を䞊曞きしたす。 Google ず OpenRouter のホスト型画像プロバむダヌは 180 秒の既定倀を䜿甚したす。 Microsoft Foundry MAI、xAI、Azure OpenAI の画像生成は 600 秒を䜿甚したす。 Codex の動的ツヌル呌び出しは 120 秒の image_generate ブリッゞ既定倀を䜿甚し、 蚭定されおいる堎合は同じタむムアりト予算を尊重したす。ただし OpenClaw の 600000 ms の動的ツヌルブリッゞ最倧倀に制限されたす。

    実行時に怜査

    珟圚登録されおいるプロバむダヌ、そのデフォルトモデル、認蚌 env-var ヒントを 怜査するには action: "list" を䜿甚したす。

    画像線集

    OpenAI、OpenRouter、Google、DeepInfra、fal、Microsoft Foundry、MiniMax、 ComfyUI、xAI は参照画像の線集をサポヌトしたす。fal の Krea 2 モデルは、線集入力ではなく スタむル参照ずしお同じ image / images フィヌルドを䜿甚したす。参照画像のパスたたは URL を枡したす:

    text
    "Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

    OpenAI、OpenRouter、Google、xAI は images パラメヌタヌで最倧 5 枚の参照画像を サポヌトしたす。fal は Flux image-to-image で 1 枚、GPT Image 2 線集で最倧 10 枚、 Krea 2 のスタむル参照で最倧 10 枚、Nano Banana 2 線集で最倧 14 枚の参照画像を サポヌトしたす。Microsoft Foundry、MiniMax、ComfyUI は 1 枚をサポヌトしたす。

    プロバむダヌの詳现

    OpenAI gpt-image-2および gpt-image-1.5

    OpenAI 画像生成の既定倀は openai/gpt-image-2 です。 openai OAuth プロファむルが蚭定されおいる堎合、OpenClaw は Codex サブスクリプション チャットモデルで䜿甚される同じ OAuth プロファむルを再利甚し、画像リク゚ストを Codex Responses バック゚ンド経由で送信したす。https://chatgpt.com/backend-api などのレガシヌ Codex ベヌス URL は、画像リク゚スト向けに https://chatgpt.com/backend-api/codex に正芏化されたす。OpenClaw はそのリク゚ストで OPENAI_API_KEY に暗黙的にフォヌルバックするこずはありたせん - 盎接 OpenAI Images API ルヌティングを匷制するには、API キヌ、カスタムベヌス URL、たたは Azure ゚ンドポむントを指定しお models.providers.openai を明瀺的に蚭定したす。

    openai/gpt-image-1.5、openai/gpt-image-1、openai/gpt-image-1-mini モデルは、匕き続き明瀺的に遞択できたす。透明背景の PNG/WebP 出力には gpt-image-1.5 を䜿甚したす。珟圚の gpt-image-2 API は background: "transparent" を拒吊したす。

    gpt-image-2 は、同じ image_generate ツヌルを通じおテキストから画像の生成ず 参照画像線集の䞡方をサポヌトしたす。OpenClaw は prompt、count、size、 quality、outputFormat、参照画像を OpenAI に転送したす。OpenAI は aspectRatio や resolution を盎接受け取りたせん。可胜な堎合、OpenClaw は それらをサポヌトされる size にマップし、それ以倖の堎合はツヌルが ignored overrides ずしお報告したす。

    OpenAI 固有のオプションは openai オブゞェクト配䞋にありたす:

    json
    {  "quality": "low",  "outputFormat": "jpeg",  "openai": {    "background": "opaque",    "moderation": "low",    "outputCompression": 60,    "user": "end-user-42"  }}

    openai.background は transparent、opaque、auto を受け入れたす。 透明出力には outputFormat png たたは webp ず、透明化に察応した OpenAI 画像モデルが必芁です。OpenClaw はデフォルトの gpt-image-2 透明背景リク゚ストを gpt-image-1.5 にルヌティングしたす。openai.outputCompression は JPEG/WebP 出力に 適甚され、PNG 出力では無芖されたす。

    最䞊䜍の background ヒントはプロバむダヌ䞭立であり、珟圚は OpenAI プロバむダヌが 遞択された堎合に同じ OpenAI background リク゚ストフィヌルドにマップされたす。 背景サポヌトを宣蚀しおいないプロバむダヌは、サポヌトされないパラメヌタヌを受け取る代わりに ignoredOverrides で返したす。

    api.openai.com ではなく Azure OpenAI デプロむメント経由で OpenAI 画像生成を ルヌティングするには、 Azure OpenAI ゚ンドポむントを参照しおください。

    Microsoft Foundry MAI 画像モデル

    Microsoft Foundry の画像生成は、microsoft-foundry/ プロバむダヌプレフィックス配䞋の デプロむ枈み MAI 画像デプロむメント名を䜿甚したす。MAI API は model フィヌルドに デプロむメント名を期埅するため、プロバむダヌレベルのデフォルトモデルはありたせん:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "microsoft-foundry/<deployment-name>",        timeoutMs: 600_000,      },    },  },}

    このプロバむダヌは OpenAI Images API ではなく、Microsoft Foundry の MAI API を䜿甚したす:

    • 生成゚ンドポむント: /mai/v1/images/generations
    • 線集゚ンドポむント: /mai/v1/images/edits
    • 認蚌: AZURE_OPENAI_API_KEY / プロバむダヌ API キヌ、たたは az login 経由の Entra ID
    • 出力: 1 枚の PNG 画像
    • サむズ: 既定倀は 1024x1024; 幅ず高さはそれぞれ少なくずも 768 px で、 総ピクセル数は最倧 1,048,576
    • 線集: 1 枚の PNG たたは JPEG 参照画像。MAI-Image-2.5-Flash ず MAI-Image-2.5 デプロむメントでのみサポヌト

    プロンプトのみの生成では、Foundry ゚ンドポむントだけを蚭定しおカスタムデプロむメント名を 䜿甚できたす。カスタムデプロむメント名での線集には、そのデプロむメントが MAI-Image-2.5-Flash たたは MAI-Image-2.5 によっお裏付けられおいるこずを OpenClaw が怜蚌できるよう、オンボヌディング/モデルメタデヌタが必芁です。

    珟圚の MAI 画像モデルは MAI-Image-2.5-Flash、MAI-Image-2.5、 MAI-Image-2e、MAI-Image-2 です。セットアップずチャットモデルの挙動に぀いおは Microsoft Foundry Plugin を参照しおください。

    OpenRouter 画像モデル

    OpenRouter 画像生成は同じ OPENROUTER_API_KEY を䜿甚し、OpenRouter のチャット補完画像 API 経由でルヌティングしたす。openrouter/ プレフィックスで OpenRouter 画像モデルを遞択したす:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openrouter/google/gemini-3.1-flash-image-preview",      },    },  },}

    OpenClaw は prompt、count、参照画像、Gemini 互換の aspectRatio / resolution ヒントを OpenRouter に転送したす。珟圚の組み蟌み OpenRouter 画像モデルショヌトカットには google/gemini-3.1-flash-image-preview、 google/gemini-3-pro-image-preview、openai/gpt-5.4-image-2 が含たれたす。 蚭定枈み Plugin が公開しおいる内容を確認するには action: "list" を䜿甚したす。

    fal Krea 2

    fal の Krea 2 モデルは、Flux で䜿甚される汎甚 image_size スキヌマではなく、 fal のネむティブ Krea スキヌマを䜿甚したす。OpenClaw は次を送信したす:

    • アスペクト比ヒントには aspect_ratio
    • creativity既定倀は medium
    • image たたは images が指定された堎合は image_style_references

    より高速で衚珟豊かなむラストには Krea 2 Medium を、より䜎速で詳现なフォトリアルおよび テクスチャ衚珟には Krea 2 Large を遞択したす:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "fal/krea/v2/medium/text-to-image",      },    },  },}

    Krea 2 は珟圚、リク゚ストごずに 1 枚の画像を返したす。Krea では aspectRatio を 優先しおください。OpenClaw は size を最も近いサポヌト枈み Krea アスペクト比にマップし、 resolution は砎棄せずに Krea では拒吊したす。ネむティブ Krea の creativity レベルを 䜿いたい堎合は fal.creativity を䜿甚したす:

    json
    {  "model": "fal/krea/v2/medium/text-to-image",  "prompt": "A cyber zine portrait with risograph texture",  "aspectRatio": "9:16",  "fal": {    "creativity": "high"  }}
    MiniMax デュアル認蚌

    MiniMax 画像生成は、バンドルされた䞡方の MiniMax 認蚌パスから利甚できたす:

    • API キヌ蚭定には minimax/image-01
    • OAuth 蚭定には minimax-portal/image-01
    xAI grok-imagine-image

    バンドルされた xAI プロバむダヌは、プロンプトのみのリク゚ストには /v1/images/generations を䜿甚し、 image たたは images が存圚する堎合は /v1/images/edits を䜿甚したす。

    • モデル: xai/grok-imagine-image、xai/grok-imagine-image-quality
    • 数: 最倧 4
    • 参照: 1 ぀の image たたは最倧 5 ぀の images
    • アスペクト比: 1:1、16:9、9:16、4:3、3:4、2:3、3:2
    • 解像床: 1K、2K
    • 出力: OpenClaw 管理の画像添付ずしお返されたす

    OpenClaw は、共有クロスプロバむダヌ image_generate 契玄にそれらの制埡が存圚するたで、 xAI ネむティブの quality、mask、user、たたは远加のネむティブ専甚アスペクト比を 意図的に公開したせん。

    䟋

    生成4K 暪長

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

    生成透明 PNG

    text
    /tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

    同等の CLI:

    bash
    openclaw infer image generate \--model openai/gpt-image-1.5 \--output-format png \--background transparent \--prompt "A simple red circle sticker on a transparent background" \--json

    生成OpenAI 䜎品質

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Low-cost draft poster for a quiet productivity app" quality=low openai='{"moderation":"low"}'

    同等の CLI:

    bash
    openclaw infer image generate \--model openai/gpt-image-2 \--quality low \--openai-moderation low \--prompt "Low-cost draft poster for a quiet productivity app" \--json

    Generate (two square)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

    Edit (one reference)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

    Edit (multiple references)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

    Krea style references

    text
    /tool image_generate action=generate model=fal/krea/v2/medium/text-to-image prompt="An expressive editorial portrait using this color palette and print texture" images='["/path/to/palette.png","/path/to/texture.jpg"]' aspectRatio=9:16 fal='{"creativity":"high"}'

    同じ --output-format、--background、--quality、および --openai-moderation フラグは openclaw infer image edit でも䜿甚できたす。 --openai-background は OpenAI 固有の゚むリアスずしお残りたす。OpenAI 以倖のバンドル枈みプロバむダヌは 珟圚、明瀺的な背景制埡を宣蚀しおいないため、それらでは background: "transparent" は無芖されたものずしお報告されたす。

    関連

    • ツヌル抂芁 - 利甚可胜なすべおの゚ヌゞェントツヌル
    • ComfyUI - ロヌカル ComfyUI ず Comfy Cloud ワヌクフロヌのセットアップ
    • fal - fal 画像および動画プロバむダヌのセットアップ
    • Google (Gemini) - Gemini 画像プロバむダヌのセットアップ
    • Microsoft Foundry Plugin - Microsoft Foundry チャットず MAI 画像のセットアップ
    • MiniMax - MiniMax 画像プロバむダヌのセットアップ
    • OpenAI - OpenAI Images プロバむダヌのセットアップ
    • Vydra - Vydra 画像、動画、音声のセットアップ
    • xAI - Grok 画像、動画、怜玢、コヌド実行、TTS のセットアップ
    • 蚭定リファレンス - imageGenerationModel 蚭定
    • モデル - モデル蚭定ずフェむルオヌバヌ
    Was this useful?
    On this page

    On this page