Tools
نمای کلی رسانه
OpenClaw تصاویر، ویدئوها و موسیقی تولید میکند، رسانههای ورودی (تصویر، صدا، ویدئو) را میفهمد و پاسخها را با تبدیل متن به گفتار بلند میخواند. همه قابلیتهای رسانهای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم میگیرد چه زمانی از آنها استفاده کند، و هر ابزار فقط زمانی ظاهر میشود که دستکم یک ارائهدهنده پشتیبان پیکربندی شده باشد.
گفتار زنده بهجای مسیر ابزار رسانهای تکمرحلهای، از قرارداد نشست Talk استفاده میکند.
Talk سه حالت دارد: realtime بومیِ ارائهدهنده، stt-tts محلی یا جریانی،
و transcription برای ضبط گفتار فقط-مشاهده. این حالتها
کاتالوگهای ارائهدهنده، پاکتهای رویداد و معناشناسی لغو را با
تلفنی، جلسهها، realtime مرورگر و کلاینتهای بومی push-to-talk به اشتراک میگذارند.
قابلیتها
تصاویر را از درخواستهای متنی یا تصاویر مرجع از طریق
image_generate ایجاد و ویرایش کنید. در نشستهای گفتگو ناهمگام است — در پسزمینه اجرا میشود و
وقتی آماده شد نتیجه را ارسال میکند.
متن-به-ویدئو، تصویر-به-ویدئو و ویدئو-به-ویدئو از طریق video_generate.
ناهمگام — در پسزمینه اجرا میشود و وقتی آماده شد نتیجه را ارسال میکند.
موسیقی یا ترکهای صوتی را از طریق music_generate تولید کنید. در نشستهای گفتگو
روی چرخه عمر مشترک وظیفه تولید رسانه ناهمگام است.
پاسخهای خروجی را از طریق ابزار tts بههمراه پیکربندی
messages.tts به صدای گفتاری تبدیل کنید. همگام.
تصاویر، صدا و ویدئوهای ورودی را با استفاده از ارائهدهندگان مدل دارای قابلیت بینایی و Pluginهای اختصاصی فهم رسانه خلاصه کنید.
پیامهای صوتی ورودی را از طریق STT دستهای یا ارائهدهندگان STT جریانی Voice Call رونویسی کنید.
ماتریس قابلیت ارائهدهنده
| ارائهدهنده | تصویر | ویدئو | موسیقی | TTS | STT | صدای realtime | فهم رسانه |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| CLI محلی | ✓ | ||||||
| Microsoft | ✓ | ||||||
| Microsoft Foundry | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
ناهمگام در برابر همگام
| قابلیت | حالت | دلیل |
|---|---|---|
| تصویر | ناهمگام | پردازش ارائهدهنده میتواند از یک نوبت گفتگو طولانیتر شود؛ پیوستهای تولیدشده از مسیر تکمیل مشترک استفاده میکنند. |
| تبدیل متن به گفتار | همگام | پاسخهای ارائهدهنده در چند ثانیه برمیگردند؛ به صدای پاسخ پیوست میشوند. |
| ویدئو | ناهمگام | پردازش ارائهدهنده ۳۰ ثانیه تا چند دقیقه زمان میبرد؛ صفهای کند میتوانند تا زمانپایان پیکربندیشده اجرا شوند. |
| موسیقی | ناهمگام | همان ویژگی پردازش ارائهدهنده مانند ویدئو را دارد. |
برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائهدهنده ارسال میکند، بلافاصله یک شناسه وظیفه
برمیگرداند و کار را در دفتر وظایف پیگیری میکند. عامل درحالیکه کار اجرا میشود
به پیامهای دیگر پاسخ میدهد. وقتی ارائهدهنده کار را تمام کرد،
OpenClaw عامل را با مسیرهای رسانه تولیدشده بیدار میکند تا بتواند از طریق
حالت پاسخ قابلمشاهده معمول نشست به کاربر اطلاع دهد: تحویل خودکار پاسخ نهایی
در صورت پیکربندی، یا message(action="send") وقتی نشست به
ابزار پیام نیاز دارد. اگر نشست درخواستکننده غیرفعال باشد یا بیدارسازی فعال آن
ناموفق شود، و هنوز بخشی از رسانه تولیدشده در پاسخ تکمیل وجود نداشته باشد،
OpenClaw یک fallback مستقیم idempotent فقط با رسانههای جاافتاده ارسال میکند. رسانهای
که قبلا توسط پاسخ تکمیل تحویل داده شده است دوباره ارسال نمیشود.
گفتار به متن و Voice Call
Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی میتوانند
صدای ورودی را از طریق مسیر دستهای tools.media.audio در صورت پیکربندی رونویسی کنند.
Pluginهای کانال که برای محدودسازی mention یا تحلیل فرمان
یک یادداشت صوتی را پیشبررسی میکنند، پیوست رونویسیشده را روی زمینه ورودی علامتگذاری میکنند، بنابراین گذر مشترک
فهم رسانه بهجای انجام یک فراخوانی STT دوم برای همان صدا، از همان رونویسی استفاده میکند.
Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائهدهندگان STT جریانی Voice Call را ثبت میکنند، بنابراین صدای تلفن زنده میتواند بدون انتظار برای ضبط کامل به فروشنده انتخابشده ارسال شود.
برای گفتگوهای زنده کاربر، حالت Talk را ترجیح دهید. پیوستهای صوتی دستهای روی مسیر رسانه باقی میمانند؛ realtime مرورگر، push-to-talk بومی، تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگهای محدود به نشست که Gateway برمیگرداند استفاده کنند.
نگاشتهای ارائهدهنده (چگونه فروشندگان در سطحها تقسیم میشوند)
سطحهای تصویر، ویدئو، موسیقی، TTS دستهای، صدای realtime پشتیبان و فهم رسانه.
OpenAI
سطحهای تصویر، ویدئو، TTS دستهای، STT دستهای، STT جریانی Voice Call، صدای realtime پشتیبان و embedding حافظه.
DeepInfra
سطحهای مسیریابی گفتگو/مدل، تولید/ویرایش تصویر، متن-به-ویدئو، TTS دستهای، STT دستهای، فهم رسانه تصویر و embedding حافظه. مدلهای rerank/classification/object-detection بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائهدهنده برای آن دستهها نداشته باشد ثبت نمیشوند.
xAI
تصویر، ویدئو، جستجو، اجرای کد، TTS دستهای، STT دستهای و STT جریانی Voice Call. صدای xAI Realtime یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای realtime بتواند آن را نمایش دهد در OpenClaw ثبت نمیشود.