NVIDIA запускает TensorRT-LLM для оптимизации работы больших языковых моделей на своих GPU

Автор svl, 08 Сентябрь 2023. Опубликовано в Железо

NVIDIA представила новую программную платформу TensorRT-LLM, разработанную для ускорения работы с большими языковыми моделями на видеокартах компании. Отметим, что программа TensorRT-LLM будет поддерживаться всеми современными GPU от NVIDIA, включая такие модели как A100, H100 и многие другие.

Эта платформа позволяет значительно улучшить производительность языковых моделей благодаря ряду нововведений. Одним из ключевых обновлений стал новый планировщик In-Flight batching, который делает работу GPU более эффективной, позволяя обрабатывать несколько запросов одновременно.

Кроме того, TensorRT-LLM оптимизирована для работы на графических процессорах Hopper и предлагает функции автоматической конвертации FP8, компилятор DL для объединения ядер и оптимизатор смешанной точности.

По данным NVIDIA, использование TensorRT-LLM позволило удвоить производительность GPU H100 в тесте GPT-J 6B и увеличить ее до 5 раз в тесте Llama2. Стоит отметить, что компания активно сотрудничает с крупнейшими разработчиками, такими как Meta и Grammarly, для ускорения их языковых моделей с помощью TensorRT-LLM.

GameGPU.tech

В начало страницы

NVIDIA запускает TensorRT-LLM для оптимизации работы больших языковых моделей на своих GPU

HARDWARE НОВОСТИ

Глава Nvidia Дженсен Хуанг прибывает на Тайвань для расширения заказов на 3-нм чипы у TSMC

GeForce RTX 5060 Ti 16 ГБ скоро станет дефицитом

Линейка RTX 50 Super не отменена, а просто перенесена на Q3 2026

ASUS представила два 27-дюймовых OLED-монитора: 540 Гц и 280 Гц

AYANEO Next II получит Ryzen AI MAX 395 и новую систему охлаждения

Энтузиаст запустил Cyberpunk 2077 на ИИ-суперкомпьютере NVIDIA DGX Spark

Vulkan получил важные исправления для поддержки HDR, в том числе для AMD

Глава Nvidia: Маску будет "экстремально сложно" догнать TSMC, а поставки в Китай остановлены

ASUS выпустила GPU Tweak III V2.0.4.5 с эксклюзивной функцией для RTX 5090

Gigabyte представила X870E AORUS XTREME X3D AI TOP с ИИ-разгоном

SOFTWARE НОВОСТИ

Free Range Games работает над сиквелом The Lord of the Rings: Return to Moria

Глава Nvidia Дженсен Хуанг прибывает на Тайвань для расширения заказов на 3-нм чипы у TSMC

GeForce RTX 5060 Ti 16 ГБ скоро станет дефицитом

Thrasher — преемник Thumper — вышел в Steam с поддержкой обычного экрана и VR

Mass Effect в активной разработке, сериал от Amazon — в работе

Линейка RTX 50 Super не отменена, а просто перенесена на Q3 2026

ASUS представила два 27-дюймовых OLED-монитора: 540 Гц и 280 Гц

GSC Game World показала обновленный инвентарь из патча 1.7

AYANEO Next II получит Ryzen AI MAX 395 и новую систему охлаждения

Энтузиаст запустил Cyberpunk 2077 на ИИ-суперкомпьютере NVIDIA DGX Spark