Google представила Gemini 3.5 Live Translate — аудиомодель, способную переводить живую речь более чем на 70 языков в реальном времени. Система работает в потоковом режиме, сохраняя интонации и тембр голоса говорящего, что позволяет практически исключить долгие паузы, характерные для классических переводчиков, ожидающих окончания фразы.
Технология обрабатывает аудиосигнал по мере его поступления, балансируя между скоростью отклика и качеством контекстуального перевода. Разработчики добились устойчивости модели к фоновым шумам, что делает её пригодной для использования на лекциях, онлайн-встречах и в шумных общественных местах. Встроенная система SynthID добавляет в аудиопоток невидимые водяные знаки, позволяющие отличить сгенерированную речь от настоящей.Функционал уже интегрируется в экосистему компании: перевод станет доступен в мобильном приложении Google Translate для Android и iOS, а также в Google Meet для бизнес-клиентов. Для сторонних разработчиков Google открыла Gemini Live API. Технологию уже тестируют в сервисе Grab, где она помогает водителям и пассажирам общаться без языкового барьера в условиях многомиллионного потока звонков.

Комментарии (0)
Пока нет комментариев. Будьте первым!