Tools

Medya genel bakışı

OpenClaw görüntüler, videolar ve müzik üretir, gelen medyayı (görüntüler, ses, video) anlar ve yanıtları metinden sese ile sesli olarak söyler. Tüm medya yetenekleri araç güdümlüdür: agent, konuşmaya bağlı olarak bunları ne zaman kullanacağına karar verir ve her araç yalnızca en az bir destekleyen sağlayıcı yapılandırıldığında görünür.

Canlı konuşma, tek seferlik medya aracı yolu yerine Talk oturumu sözleşmesini kullanır. Talk üç moda sahiptir: sağlayıcıya özgü realtime, yerel veya akışlı stt-tts ve yalnızca gözlem amaçlı konuşma yakalama için transcription. Bu modlar, sağlayıcı kataloglarını, olay zarflarını ve iptal semantiklerini telefon, toplantılar, tarayıcı gerçek zamanlı, ve yerel bas-konuş istemcileriyle paylaşır.

Yetenekler

Sağlayıcı yetenek matrisi

Sağlayıcı Görüntü Video Müzik TTS STT Gerçek zamanlı ses Medya anlama
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
Microsoft Foundry
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

Eşzamansız ve eşzamanlı

Yetenek Mod Neden
Görüntü Eşzamansız Sağlayıcı işlemesi bir sohbet turundan uzun sürebilir; üretilen ekler paylaşılan tamamlama yolunu kullanır.
Metinden sese Eşzamanlı Sağlayıcı yanıtları saniyeler içinde döner; yanıt sesine eklenir.
Video Eşzamansız Sağlayıcı işlemesi 30 sn ile birkaç dakika sürer; yavaş kuyruklar yapılandırılan zaman aşımına kadar çalışabilir.
Müzik Eşzamansız Video ile aynı sağlayıcı işleme özelliğine sahiptir.

Eşzamansız araçlar için OpenClaw isteği sağlayıcıya gönderir, hemen bir görev kimliği döndürür ve işi görev defterinde izler. Agent, iş çalışırken diğer mesajlara yanıt vermeye devam eder. Sağlayıcı tamamladığında OpenClaw, üretilen medya yollarıyla agent'ı uyandırır; böylece agent, oturumun normal görünür yanıt modu üzerinden kullanıcıya bildirebilir: yapılandırıldığında otomatik son yanıt teslimi veya oturum mesaj aracını gerektiriyorsa message(action="send"). İstekte bulunan oturum etkin değilse veya etkin uyanışı başarısız olursa ve üretilen medyanın bir kısmı hâlâ tamamlama yanıtında eksikse, OpenClaw yalnızca eksik medyayı içeren idempotent bir doğrudan geri dönüş gönderir. Tamamlama yanıtıyla zaten teslim edilmiş medya tekrar gönderilmez.

Konuşmadan metne ve Sesli Arama

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio ve xAI, yapılandırıldığında toplu tools.media.audio yolu üzerinden gelen sesin tamamını metne dönüştürebilir. Bahsetme geçidi veya komut ayrıştırma için bir sesli notu ön kontrolden geçiren kanal Plugin'leri, metne dönüştürülen eki gelen bağlam üzerinde işaretler; böylece paylaşılan medya anlama geçişi, aynı ses için ikinci bir STT çağrısı yapmak yerine bu transkripti yeniden kullanır.

Deepgram, ElevenLabs, Mistral, OpenAI ve xAI ayrıca Sesli Arama akışlı STT sağlayıcılarını kaydeder; böylece canlı telefon sesi, tamamlanmış bir kayıt beklenmeden seçilen tedarikçiye iletilebilir.

Canlı kullanıcı konuşmaları için Talk modu tercih edin. Toplu ses ekleri medya yolunda kalır; tarayıcı gerçek zamanlı, yerel bas-konuş, telefon ve toplantı sesi Talk olaylarını ve Gateway tarafından döndürülen oturum kapsamlı katalogları kullanmalıdır.

Sağlayıcı eşlemeleri (tedarikçilerin yüzeylere nasıl ayrıldığı)

Google

Görüntü, video, müzik, toplu TTS, arka uç gerçek zamanlı ses ve medya anlama yüzeyleri.

OpenAI

Görüntü, video, toplu TTS, toplu STT, Sesli Arama akışlı STT, arka uç gerçek zamanlı ses ve bellek gömme yüzeyleri.

DeepInfra

Sohbet/model yönlendirme, görüntü oluşturma/düzenleme, metinden videoya, toplu TTS, toplu STT, görüntü medyası anlama ve bellek gömme yüzeyleri. DeepInfra'ya özgü yeniden sıralama/sınıflandırma/nesne algılama modelleri, OpenClaw bu kategoriler için ayrılmış sağlayıcı sözleşmelerine sahip olana kadar kaydedilmez.

xAI

Görüntü, video, arama, kod yürütme, toplu TTS, toplu STT ve Sesli Arama akışlı STT. xAI Realtime ses, upstream bir yetenektir ancak paylaşılan gerçek zamanlı ses sözleşmesi bunu temsil edebilene kadar OpenClaw'da kaydedilmez.

İlgili

Was this useful?
On this page

On this page