EXO объединила два DGX Spark и Mac Studio для ускоренного вывода больших языковых моделей

Автор Maximum Games, 16 Октябрь 2025. Опубликовано в Железо

Компания EXO Labs представила EXO 1.0 — открытую платформу для запуска больших языковых моделей (LLM) на разнородной вычислительной технике, включая десктопы, серверы и даже смартфоны. Новый демо-проект продемонстрировал, как две станции NVIDIA DGX Spark могут работать в паре с Apple Mac Studio на чипе M3 Ultra, формируя единое решение для ускоренного вывода моделей. Вместо монолитного подхода EXO реализует дизагрегированный вывод, распределяя различные этапы обработки между системами — предварительный анализ (prefill) поручается GPU-системе, а генерация токенов (decode) — высокоскоростному чипу Apple.

В системе использовалась 10-гигабитная сеть Ethernet для потоковой передачи данных KV-кэша, что позволило одновременно задействовать оба устройства без простоев. Концепция базируется на различии в характере нагрузки: этап prefill требует высокой вычислительной мощности, в чём хорош DGX Spark с 100 TFLOPS (fp16), а decode — зависим от пропускной способности памяти, где M3 Ultra с 819 ГБ/с выигрывает. В тесте на модели Llama 3.1 8B гибридная система достигла почти троекратного ускорения по сравнению с Mac Studio, при этом обеспечив производительность на уровне Spark в prefill и рекордное время генерации на этапе decode.

EXO Labs продвигает идею гибкого масштабирования ИИ без необходимости в дорогостоящем едином ускорителе. Подобную архитектуру уже начинает развивать NVIDIA в рамках платформы Rubin CPX, где разные чипы обрабатывают prefill и decode раздельно. Но EXO делает это уже сейчас — на открытом ПО и потребительском «железе». Пока версия 1.0 доступна только по приглашениям, но это первый шаг к миру, где ИИ может использовать любую технику — эффективно и масштабируемо.

В начало страницы

EXO объединила два DGX Spark и Mac Studio для ускоренного вывода больших языковых моделей

HARDWARE НОВОСТИ

Apple задействует кастомную AI-модель Google Gemini на 1,2 трлн параметров для обновлённой Siri

Анализ драйверов 2025: Nvidia лидирует по числу WHQL-релизов и поддержке игр

Конфигурации CPU Panther Lake и Nova Lake раскрыты: гибриды с LP-E ядрами и до 180 TOPS

ASUS ROG Astral RTX 5090/5080 получил новый кулер с полностью скрытым водяным охлаждением

Стоимость охлаждения стоек Nvidia Vera Rubin вырастет до $55,710

Материнская плата MSI MEG X870E ACE MAX готовится к выходу: 18+2+1 VRM, пять M.2 и поддержка Ryzen 3D V-Cache

Coreboot и AMD openSIL успешно портированы на серверную плату Gigabyte MZ33-AR1 с процессорами EPYC Turin

Инженеры создали мембранную систему охлаждения для ИИ-серверов

AMD отчиталась о 73% росте выручки в сегменте Client and Gaming за Q3 2025

Драйвер NVIDIA 581.57 вызывает ошибку AP204 в Forza Motorsport и Horizon на RTX 5090

SOFTWARE НОВОСТИ

Apple задействует кастомную AI-модель Google Gemini на 1,2 трлн параметров для обновлённой Siri

Анализ драйверов 2025: Nvidia лидирует по числу WHQL-релизов и поддержке игр

Конфигурации CPU Panther Lake и Nova Lake раскрыты: гибриды с LP-E ядрами и до 180 TOPS

ASUS ROG Astral RTX 5090/5080 получил новый кулер с полностью скрытым водяным охлаждением

Echoes of Elysium выйдет в раннем доступе 4 декабря

Стоимость охлаждения стоек Nvidia Vera Rubin вырастет до $55,710

Sony готовит поддержку кросс-покупок между PS5 и ПК

Battlefield 6 упростил систему прогресса: более 90 изменений на основе отзывов игроков

Материнская плата MSI MEG X870E ACE MAX готовится к выходу: 18+2+1 VRM, пять M.2 и поддержка Ryzen 3D V-Cache

На PS Portal официально заработал Cloud Streaming спустя два года после релиза