Tools

نمای کلی رسانه

OpenClaw تصاویر، ویدئوها و موسیقی تولید می‌کند، رسانه‌های ورودی (تصویر، صدا، ویدئو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همه قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند، و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک ارائه‌دهنده پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانه‌ای تک‌مرحله‌ای، از قرارداد نشست Talk استفاده می‌کند. Talk سه حالت دارد: realtime بومیِ ارائه‌دهنده، stt-tts محلی یا جریانی، و transcription برای ضبط گفتار فقط-مشاهده. این حالت‌ها کاتالوگ‌های ارائه‌دهنده، پاکت‌های رویداد و معناشناسی لغو را با تلفنی، جلسه‌ها، realtime مرورگر و کلاینت‌های بومی push-to-talk به اشتراک می‌گذارند.

قابلیت‌ها

Image generation

تصاویر را از درخواست‌های متنی یا تصاویر مرجع از طریق image_generate ایجاد و ویرایش کنید. در نشست‌های گفتگو ناهمگام است — در پس‌زمینه اجرا می‌شود و وقتی آماده شد نتیجه را ارسال می‌کند.

Video generation

متن-به-ویدئو، تصویر-به-ویدئو و ویدئو-به-ویدئو از طریق video_generate. ناهمگام — در پس‌زمینه اجرا می‌شود و وقتی آماده شد نتیجه را ارسال می‌کند.

Music generation

موسیقی یا ترک‌های صوتی را از طریق music_generate تولید کنید. در نشست‌های گفتگو روی چرخه عمر مشترک وظیفه تولید رسانه ناهمگام است.

Text-to-speech

پاسخ‌های خروجی را از طریق ابزار tts به‌همراه پیکربندی messages.tts به صدای گفتاری تبدیل کنید. همگام.

Media understanding

تصاویر، صدا و ویدئوهای ورودی را با استفاده از ارائه‌دهندگان مدل دارای قابلیت بینایی و Plugin‌های اختصاصی فهم رسانه خلاصه کنید.

Speech-to-text

پیام‌های صوتی ورودی را از طریق STT دسته‌ای یا ارائه‌دهندگان STT جریانی Voice Call رونویسی کنید.

ماتریس قابلیت ارائه‌دهنده

ارائه‌دهنده	تصویر	ویدئو	موسیقی	TTS	STT	صدای realtime	فهم رسانه
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
CLI محلی				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

ناهمگام در برابر همگام

قابلیت	حالت	دلیل
تصویر	ناهمگام	پردازش ارائه‌دهنده می‌تواند از یک نوبت گفتگو طولانی‌تر شود؛ پیوست‌های تولیدشده از مسیر تکمیل مشترک استفاده می‌کنند.
تبدیل متن به گفتار	همگام	پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شوند.
ویدئو	ناهمگام	پردازش ارائه‌دهنده ۳۰ ثانیه تا چند دقیقه زمان می‌برد؛ صف‌های کند می‌توانند تا زمان‌پایان پیکربندی‌شده اجرا شوند.
موسیقی	ناهمگام	همان ویژگی پردازش ارائه‌دهنده مانند ویدئو را دارد.

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، بلافاصله یک شناسه وظیفه برمی‌گرداند و کار را در دفتر وظایف پیگیری می‌کند. عامل درحالی‌که کار اجرا می‌شود به پیام‌های دیگر پاسخ می‌دهد. وقتی ارائه‌دهنده کار را تمام کرد، OpenClaw عامل را با مسیرهای رسانه تولیدشده بیدار می‌کند تا بتواند از طریق حالت پاسخ قابل‌مشاهده معمول نشست به کاربر اطلاع دهد: تحویل خودکار پاسخ نهایی در صورت پیکربندی، یا message(action="send") وقتی نشست به ابزار پیام نیاز دارد. اگر نشست درخواست‌کننده غیرفعال باشد یا بیدارسازی فعال آن ناموفق شود، و هنوز بخشی از رسانه تولیدشده در پاسخ تکمیل وجود نداشته باشد، OpenClaw یک fallback مستقیم idempotent فقط با رسانه‌های جاافتاده ارسال می‌کند. رسانه‌ای که قبلا توسط پاسخ تکمیل تحویل داده شده است دوباره ارسال نمی‌شود.

گفتار به متن و Voice Call

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی می‌توانند صدای ورودی را از طریق مسیر دسته‌ای tools.media.audio در صورت پیکربندی رونویسی کنند. Plugin‌های کانال که برای محدودسازی mention یا تحلیل فرمان یک یادداشت صوتی را پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینه ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک فهم رسانه به‌جای انجام یک فراخوانی STT دوم برای همان صدا، از همان رونویسی استفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائه‌دهندگان STT جریانی Voice Call را ثبت می‌کنند، بنابراین صدای تلفن زنده می‌تواند بدون انتظار برای ضبط کامل به فروشنده انتخاب‌شده ارسال شود.

برای گفتگوهای زنده کاربر، حالت Talk را ترجیح دهید. پیوست‌های صوتی دسته‌ای روی مسیر رسانه باقی می‌مانند؛ realtime مرورگر، push-to-talk بومی، تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست که Gateway برمی‌گرداند استفاده کنند.

نگاشت‌های ارائه‌دهنده (چگونه فروشندگان در سطح‌ها تقسیم می‌شوند)

Google

سطح‌های تصویر، ویدئو، موسیقی، TTS دسته‌ای، صدای realtime پشتیبان و فهم رسانه.

OpenAI

سطح‌های تصویر، ویدئو، TTS دسته‌ای، STT دسته‌ای، STT جریانی Voice Call، صدای realtime پشتیبان و embedding حافظه.

DeepInfra

سطح‌های مسیریابی گفتگو/مدل، تولید/ویرایش تصویر، متن-به-ویدئو، TTS دسته‌ای، STT دسته‌ای، فهم رسانه تصویر و embedding حافظه. مدل‌های rerank/classification/object-detection بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن دسته‌ها نداشته باشد ثبت نمی‌شوند.

xAI

تصویر، ویدئو، جستجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای و STT جریانی Voice Call. صدای xAI Realtime یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای realtime بتواند آن را نمایش دهد در OpenClaw ثبت نمی‌شود.

مرتبط

Was this useful?