AMD представила ROCm 7: ускорение ИИ-инференса до 3.8× и полная поддержка MI350
AMD официально анонсировала следующее поколение открытого ПО — ROCm 7, сосредоточенное на ускорении ИИ-инференса и поддержке серии Instinct MI350. Новый стек технологий приходит на смену ROCm 6 и включает поддержку форматов FP8, FP6 и FP4, а также оптимизации для распределённой обработки и префиллинга.
В ROCm 7 реализованы новые алгоритмы и ядра, включая GEMM Autotuning, MoE, Attention и Python-кернелы, а также добавлены фреймворки vLLM v1, llm-d и SGLang. Основной прирост производительности зафиксирован в задачах инференса: до 3.5× быстрее, чем ROCm 6, с максимумом 3.8× в DeepSeek R1, 3.2× в Llama 3.1 70B и 3.4× в Qwen2-72B.
ROCm 7 на MI355X опережает Blackwell B200 с CUDA на 30% по пропускной способности в DeepSeek R1 (FP8). Кроме того, ускорение обучения до 3× получено в Llama 2, 3.1 и Qwen 1.5. Новый стек также масштабируется на CPU, GPU и DPU, обеспечивая универсальные решения для Enterprise AI и GenAI-задач.