arzh-CNenfrdejakoplptesuk
Search find 4120  disqus socia  tg2 f2 lin2 in2 X icon 3 y2  p2 tik steam2

Alibaba Cloud сократила потребление GPU на 82%

Alibaba Cloud представила результаты внедрения новой системы пуллинга Aegaeon, которая позволяет снизить количество используемых видеокарт Nvidia на 82% при обслуживании LLM. Разработка прошла бета-тестирование в течение нескольких месяцев в рамках сервиса Model Studio и была представлена на симпозиуме ACM SOSP 2025 в Сеуле в форме рецензируемой научной работы.

Alibaba Cloud servers

Aegaeon не связан с ускорением обучения — система оптимизирует инференс, перераспределяя ресурсы между моделями с непредсказуемой или всплесковой нагрузкой. Вместо закрепления одного GPU за конкретной моделью, Aegaeon виртуализирует доступ к ускорителю на уровне токенов, разбивая вычисления на мелкие задачи. Это позволяет одному GPU H20 обслуживать несколько моделей одновременно, увеличивая совокупную производительность до девятикратного уровня по сравнению с традиционными серверлесс-системами.

В тестах использовались различные LLM до 72 миллиардов параметров, а общее количество нужных GPU снизилось с 1192 до 213. Среди методов, обеспечивших экономию, Alibaba выделяет упаковку нескольких моделей на одном GPU и динамическое масштабирование на уровне токенов, что позволяет использовать ресурсы только в момент генерации, а не бронировать заранее.

Внутренняя инфраструктура Alibaba Cloud, включая eRDMA-сеть и собственную стек-интеграцию GPU-сервинга, вероятно, сыграла ключевую роль в достижении результатов. Тем не менее, это открытие может заинтересовать других hyperscaler-провайдеров, особенно на фоне дефицита ускорителей в Китае и глобального роста нагрузки на инференс

Топ материалов GameGPU