Tools
Огляд медіа
OpenClaw генерує зображення, відео й музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли використовувати їх на основі розмови, і кожен інструмент з'являється лише тоді, коли налаштовано принаймні одного базового провайдера.
Живе мовлення використовує контракт сеансу Talk замість шляху одноразового
медіаінструмента. Talk має три режими: нативний для провайдера realtime,
локальний або потоковий stt-tts і transcription для захоплення мовлення
лише в режимі спостереження. Ці режими спільно використовують каталоги
провайдерів, конверти подій і семантику скасування з телефонією, зустрічами,
браузерним режимом реального часу та нативними клієнтами push-to-talk.
Можливості
Створюйте й редагуйте зображення з текстових підказок або референсних
зображень через image_generate. Асинхронно в чат-сеансах — виконується
у фоновому режимі й публікує результат, коли він готовий.
Text-to-video, image-to-video і video-to-video через video_generate.
Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.
Генеруйте музику або аудіодоріжки через music_generate. Асинхронно в
чат-сеансах у спільному життєвому циклі завдань генерації медіа.
Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts
разом із конфігурацією messages.tts. Синхронно.
Підсумовуйте вхідні зображення, аудіо та відео за допомогою провайдерів моделей із підтримкою зору та спеціалізованих plugins для розуміння медіа.
Транскрибуйте вхідні голосові повідомлення через пакетний STT або провайдерів потокового STT для Голосового виклику.
Матриця можливостей провайдерів
| Провайдер | Зображення | Відео | Музика | TTS | STT | Голос у реальному часі | Розуміння медіа |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| Microsoft Foundry | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Асинхронно чи синхронно
| Можливість | Режим | Чому |
|---|---|---|
| Зображення | Асинхронний | Обробка провайдером може тривати довше за чат-хід; згенеровані вкладення використовують спільний шлях завершення. |
| Text-to-speech | Синхронний | Відповіді провайдера повертаються за секунди; долучаються до аудіо відповіді. |
| Відео | Асинхронний | Обробка провайдером займає від 30 с до кількох хвилин; повільні черги можуть виконуватися до налаштованого тайм-ауту. |
| Музика | Асинхронний | Така сама характеристика обробки провайдером, як у відео. |
Для асинхронних інструментів OpenClaw надсилає запит провайдеру, одразу
повертає id завдання й відстежує роботу в реєстрі завдань. Агент продовжує
відповідати на інші повідомлення, поки завдання виконується. Коли провайдер
завершує роботу, OpenClaw пробуджує агента зі шляхами до згенерованих медіа,
щоб він міг повідомити користувача через звичайний видимий режим відповіді
сеансу: автоматичну доставку фінальної відповіді, якщо її налаштовано, або
message(action="send"), коли сеанс вимагає інструмент повідомлень. Якщо сеанс
запитувача неактивний або його активне пробудження не вдається, а деяких
згенерованих медіа все ще бракує у відповіді завершення, OpenClaw надсилає
ідемпотентний прямий резервний варіант лише з відсутніми медіа. Медіа, уже
доставлені відповіддю завершення, не публікуються повторно.
Speech-to-text і Голосовий виклик
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати
вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано.
Plugins каналів, які попередньо перевіряють голосову нотатку для фільтрації
згадок або розбору команд, позначають транскрибоване вкладення у вхідному
контексті, тож спільний прохід розуміння медіа повторно використовує цей
транскрипт замість другого виклику STT для того самого аудіо.
Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів потокового STT для Голосового виклику, тож живе телефонне аудіо можна пересилати вибраному постачальнику, не чекаючи завершеного запису.
Для живих розмов із користувачем віддавайте перевагу режиму Talk. Пакетні аудіовкладення залишаються на медіашляху; браузерний режим реального часу, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу, повернуті Gateway.
Зіставлення провайдерів (як постачальники розподіляються між поверхнями)
Поверхні зображень, відео, музики, пакетного TTS, бекенд-голосу в реальному часі та розуміння медіа.
OpenAI
Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для Голосового виклику, бекенд-голосу в реальному часі та вбудовування пам'яті.
DeepInfra
Маршрутизація чату/моделей, генерація/редагування зображень, text-to-video, пакетний TTS, пакетний STT, розуміння медіазображень і поверхні вбудовування пам'яті. Нативні для DeepInfra моделі повторного ранжування, класифікації та виявлення об'єктів не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.
xAI
Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для Голосового виклику. Голос xAI Realtime є висхідною можливістю, але не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе її представляти.