Выпущен MLPerf Client 1.0 — обновлённый бенчмарк для оценки AI-производительности локальных GPU и NPU
MLCommons представила MLPerf Client 1.0 — новое поколение бенчмарка для оценки AI-производительности клиентских систем, включая ноутбуки и настольные ПК с GPU и NPU. В отличие от облачных решений, таких как ChatGPT и Gemini, MLPerf ориентирован на тестирование локальных моделей, что особенно важно для задач с приоритетом конфиденциальности, исследований и полного контроля над системой.
В новой версии инструмента расширена поддержка AI-моделей: теперь тестируются Meta Llama 2 7B Chat, Llama 3.1 8B Instruct, Microsoft Phi 3.5 Mini Instruct, а также экспериментальный Phi 4 Reasoning 14B. Кроме того, введены новые типы запросов, включая анализ кода и суммаризацию контента с большими окнами контекста до 8000 токенов. Некоторые сценарии требуют до 16 ГБ видеопамяти, что позволяет нагрузить даже высокопроизводительные системы.
MLPerf Client 1.0 получил графический интерфейс, что делает его доступным не только для профессиональных тестеров, но и для обычных пользователей. Интерфейс позволяет отслеживать загрузку всех вычислительных блоков в реальном времени и выбирать оптимальные пути выполнения.
Инструмент поддерживает различные варианты ускорения, включая:
-
AMD GPU и NPU через ONNX Runtime GenAI и Ryzen AI SDK
-
Intel GPU и NPU через OpenVINO
-
NVIDIA GPU через DirectML и llama.cpp-CUDA
-
Qualcomm CPU/NPU через Genie и QAIRT SDK
-
Apple Mac GPU через MLX и llama.cpp-Metal
Также реализована экспериментальная поддержка через Windows ML и расширенные Vulkan-реализации. Всё это делает MLPerf Client 1.0 универсальным инструментом для измерения AI-производительности, охватывающим большинство современных платформ и конфигураций.