Обзор AMD Radeon RX 6900 XT- возвращение в Высшую Лигу
ИСТОРИЯ |
Ну что же, немножко истории. Ни для кого не секрет, что компания AMD уже давно не выпускала видеокарты топового сегмента, которые могли бы создать конкуренцию старшим представителям своего оппонента в лице видеокарт серии GEFORCE. Последние более-менее равносильные баталии были между Radeon R9 290X и GeForce 780 Ti. AMD даже выпустила в то время самую быструю видеокарту Radeon R9 295X2, которая несла два чипа Radeon R9 290X на борту, но во многом её производительность зависела от оптимизации AMD CrossFireX.
Далее у AMD пошла череда неудач, которая выбила её из высшего графического звена. Ответ в 2015 году на GeForce GTX 980 Ti в виде Radeon R9 Fury X оказался не совсем удачным решением, ввиду сырости специфической архитектуры и малого объёма видеопамяти - 4 Gb HBM. В большинстве случаев она конкурировала с обычной GeForce GTX 980, до уровня GeForce GTX 980 Ti практически никогда не дотягивала. Казалось бы, передовая архитектура, в связке с новой памятью HBM, но вот многие недочёты не позволили ей расскрыть свой потенциал.
В 2017 году AMD вновь предприняла попытку побороться на равных с NVIDIA и выпустила Radeon RX Vega 64, которая уже даже не метила в конкуренты к GeForce GTX 1080 Ti в топовый сегмент, а лишь была призвана бороться с её "младшей сестрой" GeForce GTX 1080. Она имела уже более современную архитектуру и 8 Gb памяти HBM2. Поначалу все шло не особо гладко, в связи с сыростью драйверов, и зачастую видеокарта составляла лишь конкуренцию GeForce GTX 1070. Но со временем, в особенности сейчас, она периодически может "пободаться" даже с GeForce GTX 1080 Ti, но это уже не собо актуально...
В феврале 2019 года AMD выпустила AMD Radeon VII, которая, в свою очередь, была усовршенстованным преемником Radeon RX Vega 64 с невероятным на тот момент объёмом памяти - 16 гигабайт памяти типа HBM2 и одвоенной разрядностью шины. Видеокарта была призвана бороться с GeForce RTX 2080, но чаще оказывалась медленнее неё, иногда даже показывая уровень быстродействия GeForce RTX 2070. О соперничестве с GeForce RTX 2080 Ti не могло быть и речи.
И вот настал декабрь 2020 года. AMD выпустила семейство видеокарт Big Navi. Сегодняшний тестовый образец, Radeon RX 6900 XT, заявлен в качестве конкурента флагману NVIDIA GeForce RTX 3090, но за гораздо меньшую стоимость. Рассмотрим, насколько это соответствует действительности, и как он себя чувствует в современных играх.
ВНЕШНИЙ ВИД И ХАРАКТЕРИСТИКИ |
В данном подразделе нашего обзора выявляются основные аспекты AMD Radeon RX 6900 XT, такие как внешний вид и сообенности архитектуры.
ВНЕШНИЙ ВИД |
Видеокарта AMD Radeon RX 6900 XT, как и все референсные решения AMD, выглядит очень стильно и эстетично. Перед нами предстаёт довольно мощное устройство со строгим дизайном и эффективной системой охлаждения:
По длине карта аналогична AMD Radeon VII, но на полслота расширения толще её:
Нереференсная GeForce RTX 3090 имеет большие габариты, нежели Radeon RX 6900 XT, насчёт референса ничего сказать не можем:
ОСОБЕННОСТИ АРХИТЕКТУРЫ |
Но поддержка трассировки лучей пока есть лишь в ограниченном количестве игр. С точки зрения "классической" растеризации, Radeon RX 6900 XT действительно смотрится одним из самых выгодных вариантов в верхнем ценовом сегменте. Доработав архитектуру RDNA, в RDNA 2 удалось повысить энергоэффективность более чем в полтора раза, а также были добавлены все недостающие "фичи", заявленные в графических API в последние годы: аппаратная трассировка лучей и прочие возможности DX12 Ultimate, которые в скором времени будут активно применяться в играх.
При производстве графического процессора Big Navi используется 7 нм техпроцесс компании TSMC, который уже известен по предыдущим решениям AMD. Чип содержит 26,8 миллиарда транзисторов и имеет площадь 519,8 мм². Для сравнения можно взять GA102 от Nvidia, для производства которого применяется техпроцесс 8 нм Samsung и который имеет 28,3 млрд транзисторов при площади в 628,4 мм². То есть при близкой сложности этих GPU техпроцесс TSMC явно выглядит лучше по плотности размещения транзисторов, чем 8-нанометровый вариант Samsung. Тем более, что GA100, производимый на TSMC, получился еще более плотным, чем Big Navi.
Но для производительности важнее тот факт, что по с точки зрения достижения максимальных частот и энергопотребления 7 нм TSMC оказался лучше, и тут явное преимущество у AMD. Другое дело — доступность, выход годных кристаллов, а значит и себестоимость.
Графический процессор Navi 21 (Big Navi) основан на архитектуре RDNA второго поколения (далее — RDNA 2), основной задачей при разработке которой было достижение максимально возможной энергоэффективности и внедрение всех необходимых функциональных возможностей. Базовые блоки чипа — все те же вычислительные блоки Compute Unit (CU), из которых собраны все графические процессоры AMD последних лет. Каждый CU имеет выделенное локальное хранилище данных для обмена данными или расширения локального регистрового стека, а также кэш-память и полноценный текстурный конвейер с блоками выборки и фильтрации. Каждый из таких блоков самостоятельно занимается планированием и распределением работы.
Архитектура RDNA 2 очень похожа на RDNA 1, но в то же время была серьезно обновлена. Полная версия Navi 21 содержит 80 вычислительных блоков CU (что вдвое больше, чем у предшественника), состоящих из 5120 блоков ALU, 320 блоков TMU, 128 блоков ROP и четырех асинхронных вычислительных движков. В итоге, мы имеем удвоенный практически по всем блокам чип Navi 10, известный нам по Radeon RX 5700 (XT), но при этом с целым рядом отличий. Компания AMD сделала приоритетом не только добавление полной поддержки DX12 Ultimate, но также и повышение энергоэффективности RDNA 2. Ведь если Radeon RX 5700 XT уже потребляет до 225 Вт, то вдвое более большой GPU никак не уместить в рамки 300—350 Вт. Для улучшения энергоэффективности были переделаны все блоки, перебалансирован конвейер, найдены и устранены основные "ботлнеки", переделаны линии передачи данных, обработка геометрии внутри чипа
Новинка получилась до двух раз быстрее Radeon RX 5700 XT в 4K-разрешении, имеет на 30% бо́льшую тактовую частоту при том же потреблении энергии на каждый блок CU, что дает нам даже более чем обещанные +50% улучшения энергоэффективности — реальный прирост в определенных условиях составил, по оценке самой AMD, 54%, что весьма неожиданно после не слишком то энергоэффективной RDNA 1.
Что касается вычислительных блоков RDNA 2, то в них явно просматривается происхождение от предшественника, и улучшены они были скорее в смысле физической реализации, чем логической, которая слабо изменилась с первой версии RDNA. Также были переделаны блоки растеризации (ROP). Каждый укрупненный блок ROP теперь обрабатывает по восемь 32-битных пикселей за такт, что вдвое больше, чем у предшественника. Скорее всего, это было связано с увеличения эффективной пропускной способности из-за большого кэша Infinity Cache. Добавили также и возможность использования переменной частоты затенения VRS, что также могло стать причиной переделки ROP.
DirectX 12 Ultimate
В Radeon RX 6000 появилась полная поддержка DirectX 12 Ultimate. Это нового стандарта графики для ПК и консолей нового поколения, который включает в себя трассировку лучей через DXR (DirectX Raytracing), увеличение производительности при помощи переменной частоты затенения Variable Rate Shading, улучшенной эффективности стриминга текстур при помощи Sampler Feedback, и возможности создания более детализированных игровых миров с новым геометрическим конвейером Mesh Shaders. В скором времени ожидается поддержка DirectStorage API для прямого доступа GPU к данным на накопителях.
RDNA 2 получила переменной частоты затенения Variable Rate Shading, которая уже поддерживается конкурирующими решениями с поколения Turing, что позволяет использовать отличающееся качество затенения для разных фрагментов изображения. Там, где изображение не обязательно должно быть четким (например, при использовании motion blur или DOF) вполне можно снизить качество расчетов шейдинга без видимых потерь, а в важных местах оставить нормальное затенение с максимальным качеством и четкостью.
VRS в варианте AMD предполагает возможность выбора переменных частот затенения: 1×1, 2×1 и 1×2, а также 2×2 — отдельно для каждого из блоков 8×8 пикселей, что позволяет подробно определить участки кадра, которые будут отрисовываться с меньшим качеством и большей производительностью - затенение указанных участков производится с вдвое или вчетверо сниженным качеством, но повышенной скоростью. Проще всего визуализировать работу этого алгоритма на примере гоночных игр с эффектом motion blur на периферии кадра.
Об аппаратной трассировке лучей.
Для аппаратного ускорения трассировки лучей, в RDNA 2 пришлось внедрять специализированные блоки Ray Accelerator. Хотя трассировку можно делать и полностью в шейдерах, но это очень сложная задача и без очень быстрой аппаратной обработки хотя бы части вычислений, общая скорость будет слишком низкой. На аппаратные блоки можно перенести хоть всю работу по трассировке лучей, но это будет дорого с точки зрения расходуемой площади чипа, и не всегда эффективно. Чаще всего лишь часть работы при трассировке лучей отдается специализированным блокам, но объем этой работы может быть разным в каждой конкретной реализации.
В случае RDNA 2 аппаратные ускорители трассировки занимаются поиском пересечений лучей и геометрии, и каждый из этих блоков способен за такт вычислить до четырех пересечений луча и ограничивающих объемов или одно пересечение луча и треугольника. Эти блоки достаточно эффективно вычисляют пересечения лучей и геометрии сцены, представленной в виде ускоряющих структур Bounding Volume Hierarchy, и возвращают информацию шейдерам для дальнейшего обхода сцены или шейдинга.
Такой подход позволяет ускорить обработку пересечений лучей и геометрии в разы (AMD заявляет о более чем 10-кратной разнице), по сравнению с полностью программным методом, но это уступает решению Nvidia, в котором несколько основная часть работы делается в специализированных MIMD-блоках, а не как в случае Radeon, обычными шейдерными SIMD. Получается, Ray Accelerators в RDNA 2 хоть и являются аппаратно выделенными блоками, но при этом несколько проще RT-ядер в графических процессорах семейств Ampere и Turing у конкурента. Но и здесь есть свои плюсы: упрощенные блоки занимают меньше места в GPU, хотя и должны несколько медленнее справляться с работой.
Трассировка лучей работает на RDNA 2 использует шейдерные SIMD-ядра. Это не мешает параллельному исполнению прочих вычислений, но свободных мощностей под операции затенения пикселей и другие задачи остается меньше. Та же трассировка лучей пока что использует малое количество лучей на пиксель и поэтому требует активного шумоподавления, а такие постфильтры весьма ресурсоемки и требуют высоких вычислительных мощностей.
Получается, RT-ядра у Nvidia сложнее и универсальнее, не требуют предварительной сортировки лучей для эффективной обработки, а у AMD они выполнены практичнее на сегодняшний день, так как занимают в GPU меньше места, что особенно важно с учетом ограниченности применения трассировки лучей на консолях и в будущих мультиплатформенных играх. Также, в AMD наверняка будут и дальше проводить работу с разработчиками игр(из уже имеющихся - Dirt 5, Godfall) для оптимизации трассировки под их решения.
Большой кэш Infinity Cache способен вместить большую часть ускоряющей структуры BVH, что в теории должно позволить выполнять сложную трассировку более эффективно, с меньшими задержками при получении данных. Даже несмотря на то, что в играх BVH-структуры занимают от полугигабайта до нескольких гигабайт видеопамяти, не обязательно весь BVH помещать в кэш, и даже если ускорить доступ лишь к наиболее часто требуемым данным этой ускоряющей структуры, то быстрый кэш все равно должен помогать.
Infinity Cache
Одним из самых любопытных нововведений семейства Radeon RX 6000 стал новый уровень кэша, находящийся перед видеопамятью, который обеспечивает быстрый доступ к данным и увеличивает эффективную пропускную способность. В остальном все более-менее так же, как и у других GPU: L0-кэш располагается в каждом из блоков CU, L1-кэш размещен в каждом движке шейдинга Shader Engine и имеет доступ к L2-кэшу, общий объем составляет 1 МБ, а L2-кэш объемом в 4 МБ, расположен между командным процессором и движками Shader Engine.
Сразу бросается в глаха очень большой Infinity Cache объемом в 128 МБ, который присоединен к четырем 64-битным контроллерам памяти. Этого тип кэш-памяти ранее не было в GPU. Инженеры AMD работали над обеспечением высокой пропускной способности, ведь в графическому процессору Big Navi это было жизненно необходимо из-за удвоенного количества вычислительных блоков CU и увеличенной тактовой частоте, по сравнению с Radeon RX 5700 XT, а пропускную способность видеопамяти настолько сильно повысить непросто: или расширять шину памяти до 512-бит, или хотя бы 384-бит, но с увеличением частоты работы памяти. GDDR6 и так работает практически на пределе, а AMD не имеет возможности использовать более быструю GDDR6X. Есть еще вариант HBM2, но она слишком дорога ее применение вряд ли благоприятно скажется на себестоимости видеокарты.
Повысить ширину шины было возможно, но довольно затруднительно, с учетом тонкого техпроцесса и меньшей площади чипа. Вдобавок, это сказалось бы на росте потребления энергии, и добиться заявленного прироста в энергоэффективности стало бы меньше возможностей. Поэтому в AMD и решили сделать еще один уровень кэш-памяти, прямо перед видеопамятью.
Кэширование решает вопрос пропускной способности, но это всегда компромисс, и обычно L2-кэши в GPU имеют небольшой объем в 2-4 МБ — в таком случае будет много промахов при доступе к данным, большинство их придется доставать из медленной видеопамяти, и только увеличение кэша до 64 МБ и более способно помочь в деле достаточного повышения эффективной ПСП. Но внедрение статической памяти такого объема обойдется слишком дорого в смысле занимаемой типичной кэш-памятью площади на кристалле. На помощь пришел опыт по размещению большого объема статической памяти в серверных процессорах EPYC, где 32 МБ L3-кэша поместились в 27 мм², что является в 4 раза большим объёмом на единицу площади, по сравнению с обычным кэшем второго уровня в GPU. Получается, AMD использовали разработки другого подразделения и разместили в Big Navi оптимизированный для нужд GPU кэш объемом аж в 128 МБ.
Передача данных происходит по 16 каналам шириной 64-бит (всего 1024-бит) на частоте до 1,94 ГГц, что дает практически в 4 раза большую ПСП, чем у GDDR6 на шине 256-бит. Как итог, получена более чем вдвое большая эффективная ПСП, по сравнению с 384-битной шиной, и при этом улучшена энергоэффективность, ведь доступ к кэш-памяти требует в 5-6 меньших затрат энергии. По оценкам AMD получилась более чем вдвое лучшая энергоэффективность для 4К-разрешения в типичных играх, по сравнению с обычной 384-битной шиной.
Внедрение подобного быстрого и объемного кэша не только позволило решить проблемы с ПСП, но и привело к раскрытию потенциала высокопроизводительных GPU — с ростом частоты работы графического процессора толк от Infinity Cache лишь увеличивается. Большинство необходимых данных при рендеринге достается из кэша, имеющего более высокую ПСП, что обеспечивает в среднем на треть меньшие задержки, по сравнению с доступом к GDDR6.
Подобная подсистема памяти потребляет где-то на 10% меньше энергии при более чем вдвое большей эффективной ПСП.
Частота Infinity Cache изменяется в зависимости от потребности приложения в каждый момент времени. Когда оно требует ПСП, частота работы кэша может расти, аналогично частоте GPU. Подобная инновация подсистемы памяти приводит к повышению пропускной способности, снижению задержек и снижению потребления энергии.
Infinity Cache полезен для эффектов, требующих высокой частоты заполнения, например, объемное освещение, и это является сильной стороной данной архитектуры, на которую наверняка будут давить разработчики игр, спонсируемых AMD.
Для разработчиков приложений же этот кэш полностью автоматический, а управление им возможно разве что как в CPU — при помощи префетчей и т. д., что дает меньше контроля, но более универсальное. AMD не отвергает возможности появления некоего контроля над кэшем для разработчиков ПО в будущем.
Спецификации AMD Radeon RX 6900 XT выглядят следующим образом:
GPU | Navi 21 |
Интерфейс | PCI-E 4.0 |
Частота GPU | 2015—2250(Boost)—2401(Max) |
Частота памяти | 4000(16000) |
Количество блоков ALU | 5120 |
Количество текстурных блоков | 320 |
Количество блоков растеризации (ROP) | 128 |
Общее количество вычислительных блоков | 80 |
Количество блоков RT | 80 |
Ширина шины обмена данных с памятью, бит | 256 |
Энергопотребление в режиме 3D, Вт | 250 |
Энергопотребление в режиме 2D, Вт | 25 |
Дополнительное питание | 2х8 pin |
Максимальное количество мониторов для одновременного вывода изображения | 4 |
Цвет текстолита | Черный |
Видеовыходы | 2×DisplayPort 1.4a, 1×HDMI 2.1, 1×USB Type-C |
Максимальное разрешение(Display port) | 3840×2160 120 Гц, 7680×4320 60 Гц |
Максимальное разрешение(HDMI) | 3840×2160 120 Гц, 7680×4320 60 Гц |
Размеры, мм | 265×110×55 |
AMD Smart Access Memory |
Еще одним новшеством стала технология Smart Access Memory, позволяющая системе получить полный доступ к видеопамяти по шине PCI Express. Ранее давался доступ лишь к 256 МБ видеопамяти, чего явно недостаточно для современных(или, скорее, будущих) условий, а SAM позволяет расширить этот кусок до полного объема видеопамяти Radeon RX 6000 — до 16 ГБ. В некоторых условиях это дает очень приличный прирост производительности, но в среднем это примерно 3%-5%.
Возможность изменения объема видеопамяти, к которой получает доступ система, существует в стандарте PCI Express уже давно. Она называется «Resizable BAR» (изменяемый Base Address Register) и доступна в драйверной модели WDDM 2 много лет, но видимо в погоне за успехом AMD решила вытащить ее как козырь(как позже выяснилось, лишь временный, ведь Intel и Nvidia тоже не дремлют).
Технология Smart Access Memory включается через настройки BIOS, также нужно сначала включить опцию «Above 4G Decoding» в разделе «PCIe Subsystem». Но для этого системный раздел обязательно должен быть GPT.
Приросты от включения Smart Access Memory зависят от игры, нагрузки на память, разрешения рендеринга, настроек изображения, и могут отличаться у различных моделей видеокарт. В среднем, по данным компании AMD, прирост может быть от 0%-3% в таких играх, как Battlefield V, F1 2020, Shadow of the Tomb Raider и Wolfenstein: Youngblood, до очень приличных 10%-15% в Forza Horizon 4, Borderlands 3 и Resident Evil 3.
В нашем распоряжении материснкая плата GIGABYTE X570 AORUS MASTER и процессор Ryzen R9 5900X.
Для активации AMD Smart Access Memory нам было необходимо в UEFI разрешить декодирование свыше 4 гигабайт и поддержку BAR выставить на "Авто".
Вторым важным пунктом является отключение поддержки CSM.
Результатом должно стать появление "Большого диапазана памяти" в ресурсах драйвера видеокарты.
ТЕСТОВАЯ ЧАСТЬ |
Тестовая конфигурация | |
Тестовые стенды |
GIGABYTE X570 AORUS MASTER |
ультимедийное оборудование | |
Программная конфигурация |
|
Операционная система | Windows 20H2 |
Графический драйвер |
Nvidia GeForce/ION Driver Release 460.89 AMD Radeon Adrenalin Edition 20.12.1 |
Программы мониторинга |
MSI Afterburner Action! FRAPS |
Metro Exodus |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
В данной игре AMD Radeon RX 6900 XT медленнее GeForce RTX 3080 как в стандартном режиме, так и с RT.
DOOM Eternal |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества. Так же нами был выбран новый тестовый отрезок, который будет использован в годовом тесте.
В Doom AMD Radeon RX 6900 XT оказалась чуть быстрее, чем GeForce RTX 3080.
Death Stranding |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
В Death Stranding AMD Radeon RX 6900 XT вплотную приблизилась к GeForce RTX 3090.
Horizon Zero Dawn |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
Horizon Zero Dawn хоть и игра с логотипами AMD, но в 4К тут преимущество за NVIDIA.
Mafia: Definitive Edition |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
В Mafia: Definitive Edition так же явное преимущество карт NVIDIA.
Crysis Remastered |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
В данной игре AMD Radeon RX 6900 XT идёт медленнее, чем GeForce RTX 3080.
Watch Dogs Legion |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
Без RT AMD Radeon RX 6900 XT выглядит вполне адекватно, а вот с RT-отражениями справляется чуть хуже, чем GeForce RTX 2080 Ti...
Assassin's Creed Valhalla |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
Assassin's Creed Valhalla очень симпатизирует AMD Radeon RX 6900 XT, в особенности с AMD Smart Access Memory.
Cyberpunk 2077 |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
Тут, как мы видим, AMD Smart Access Memory позволяет Radeon RX 6900 XT приблизиться к GeForce RTX 3080.
DIRT 5 |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
В DIRT 5 абсолютным фаворитом является AMD Radeon RX 6900 XT.
Godfall |
Ссылка на последний актуальный тест. Тестирование проходило при максимальных настройках качества
Godfall так же симпатизирует AMD Radeon RX 6900 XT, а при использовании RT работает лишь на последних картах AMD.
ЗАКЛЮЧЕНИЕ |
Ну что же, на наш взгляд AMD с видеокартой Radeon RX 6900 XT удалось вернуться в высшую лигу производительных видеокарт. Преимущество с картами NVIDIA перманентное и зависит от оптимизации игры под конкретного вендора. По рекомендованной цене она выглядит весьма заманчиво относительно конкурента, но нынешняя цена в магазинах оставляет желать лучшего...
Достоинства
- отличная производительность в 4К
- 16 гигабайт видеопамяти на борту
- хорошая оптимизация в RT играх AMD
- при рекомендованной цене это действительно выгодное решение
Недостатки
- цена сейчас далека от рекомендованной и оставляет желать лучшего
- производительность в RT играх от NVIDIA крайне мала
- отсустcтвие адекватного по качеству и производительности аналога технологии NVIDIA DLSS; FidelityFX CAS, особенно в Cyberpunk 2077, работает пока не очень качественно
ЖЕЛЕЗНЫЕ СПОНСОРЫ |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
|
AMD 1 1 1 1 1 1 1 1 1 1 Рейтинг 64% [21 Голоса (ов)] | Nvidia 1 1 1 1 1 1 1 1 1 1 Рейтинг 72% [22 Голоса (ов)] | 4K Gaming 1 1 1 1 1 1 1 1 1 1 Рейтинг 58% [15 Голоса (ов)] |