Tools

نمای کلی رسانه

OpenClaw تصاویر، ویدئوها و موسیقی تولید می‌کند، رسانه‌های ورودی (تصویر، صدا، ویدئو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همه قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند، و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک ارائه‌دهنده پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانه‌ای تک‌مرحله‌ای، از قرارداد نشست Talk استفاده می‌کند. Talk سه حالت دارد: realtime بومیِ ارائه‌دهنده، stt-tts محلی یا جریانی، و transcription برای ضبط گفتار فقط-مشاهده. این حالت‌ها کاتالوگ‌های ارائه‌دهنده، پاکت‌های رویداد و معناشناسی لغو را با تلفنی، جلسه‌ها، realtime مرورگر و کلاینت‌های بومی push-to-talk به اشتراک می‌گذارند.

قابلیت‌ها

ماتریس قابلیت ارائه‌دهنده

ارائه‌دهنده تصویر ویدئو موسیقی TTS STT صدای realtime فهم رسانه
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
CLI محلی
Microsoft
Microsoft Foundry
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

ناهمگام در برابر همگام

قابلیت حالت دلیل
تصویر ناهمگام پردازش ارائه‌دهنده می‌تواند از یک نوبت گفتگو طولانی‌تر شود؛ پیوست‌های تولیدشده از مسیر تکمیل مشترک استفاده می‌کنند.
تبدیل متن به گفتار همگام پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شوند.
ویدئو ناهمگام پردازش ارائه‌دهنده ۳۰ ثانیه تا چند دقیقه زمان می‌برد؛ صف‌های کند می‌توانند تا زمان‌پایان پیکربندی‌شده اجرا شوند.
موسیقی ناهمگام همان ویژگی پردازش ارائه‌دهنده مانند ویدئو را دارد.

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، بلافاصله یک شناسه وظیفه برمی‌گرداند و کار را در دفتر وظایف پیگیری می‌کند. عامل درحالی‌که کار اجرا می‌شود به پیام‌های دیگر پاسخ می‌دهد. وقتی ارائه‌دهنده کار را تمام کرد، OpenClaw عامل را با مسیرهای رسانه تولیدشده بیدار می‌کند تا بتواند از طریق حالت پاسخ قابل‌مشاهده معمول نشست به کاربر اطلاع دهد: تحویل خودکار پاسخ نهایی در صورت پیکربندی، یا message(action="send") وقتی نشست به ابزار پیام نیاز دارد. اگر نشست درخواست‌کننده غیرفعال باشد یا بیدارسازی فعال آن ناموفق شود، و هنوز بخشی از رسانه تولیدشده در پاسخ تکمیل وجود نداشته باشد، OpenClaw یک fallback مستقیم idempotent فقط با رسانه‌های جاافتاده ارسال می‌کند. رسانه‌ای که قبلا توسط پاسخ تکمیل تحویل داده شده است دوباره ارسال نمی‌شود.

گفتار به متن و Voice Call

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی می‌توانند صدای ورودی را از طریق مسیر دسته‌ای tools.media.audio در صورت پیکربندی رونویسی کنند. Plugin‌های کانال که برای محدودسازی mention یا تحلیل فرمان یک یادداشت صوتی را پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینه ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک فهم رسانه به‌جای انجام یک فراخوانی STT دوم برای همان صدا، از همان رونویسی استفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائه‌دهندگان STT جریانی Voice Call را ثبت می‌کنند، بنابراین صدای تلفن زنده می‌تواند بدون انتظار برای ضبط کامل به فروشنده انتخاب‌شده ارسال شود.

برای گفتگوهای زنده کاربر، حالت Talk را ترجیح دهید. پیوست‌های صوتی دسته‌ای روی مسیر رسانه باقی می‌مانند؛ realtime مرورگر، push-to-talk بومی، تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست که Gateway برمی‌گرداند استفاده کنند.

نگاشت‌های ارائه‌دهنده (چگونه فروشندگان در سطح‌ها تقسیم می‌شوند)

Google

سطح‌های تصویر، ویدئو، موسیقی، TTS دسته‌ای، صدای realtime پشتیبان و فهم رسانه.

OpenAI

سطح‌های تصویر، ویدئو، TTS دسته‌ای، STT دسته‌ای، STT جریانی Voice Call، صدای realtime پشتیبان و embedding حافظه.

DeepInfra

سطح‌های مسیریابی گفتگو/مدل، تولید/ویرایش تصویر، متن-به-ویدئو، TTS دسته‌ای، STT دسته‌ای، فهم رسانه تصویر و embedding حافظه. مدل‌های rerank/classification/object-detection بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن دسته‌ها نداشته باشد ثبت نمی‌شوند.

xAI

تصویر، ویدئو، جستجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای و STT جریانی Voice Call. صدای xAI Realtime یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای realtime بتواند آن را نمایش دهد در OpenClaw ثبت نمی‌شود.

مرتبط

Was this useful?
On this page

On this page