Речь идет об оптимизации инференса — процесса, при котором обученная модель обрабатывает пользовательские запросы. Именно эта стадия сегодня поглощает основную часть бюджетов ИИ-компаний, так как требует вычислительных мощностей для каждого отдельного диалога или действия агента. Разработанный метод уже применили для обслуживания незарегистрированных пользователей ChatGPT, что позволило существенно разгрузить серверную инфраструктуру.
Детали технического решения пока остаются закрытыми. Источники указывают, что компания добилась результата за счет более грамотного распределения запросов и управления памятью на уже имеющихся мощностях. Если технология окажется масштабируемой и распространится на платных клиентов, это перевернет экономику эксплуатации больших языковых моделей. В условиях глобального дефицита чипов способность извлекать больше производительности из старого «железа» становится для разработчиков мощнее, чем любые инвестиции в новые ускорители.

Комментарии (0)
Пока нет комментариев. Будьте первым!