Технологии

API Grok Speech to Text стал доступен сторонним разработчикам

API Grok Speech to Text стал доступен сторонним разработчикам

Десять центов за час расшифровки аудио — по такой цене компания xAI Илона Маска открыла публичный доступ к сервису Grok Speech to Text. Технология, обкатанная на электрокарах Tesla и терминалах Starlink, теперь поддерживает 25 языков, включая русский, и претендует на лидерство по соотношению цены и качества.

Программный интерфейс позволяет интегрировать функции распознавания речи в любые сторонние продукты. Помимо стандартной транскрипции, сервис поддерживает работу с многоканальным звуком, автоматическое разделение реплик нескольких участников разговора и простановку пословных временных меток. За обработку потоковых данных в реальном времени xAI просит двадцать центов за час, что значительно ниже средних рыночных расценок.

Инструментарий базируется на том же технологическом стеке, который обеспечивает работу Grok Voice. Ранее команда Маска представила решение для синтеза речи, а запуск STT-интерфейса завершает формирование полноценной платформы для работы со звуком. Новинка ориентирована на разработчиков, которым требуется высокая точность распознавания при минимальных затратах на инфраструктуру.

Поделиться

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!