Radeon R9 290X
Новый графический чип Hawaii, который лежит в основе видеокарты AMD Radeon R9 290X, основан на уже известной нам архитектуре Graphics Core Next (GCN), которая была слегка модифицирована по вычислительным способностям и для полной поддержки всех возможностей DirectX 11.2, как это было ранее сделано в чипе Bonaire (Radeon HD 7790), который также стал основой и для Radeon R7 260X. Архитектурные изменения в Bonaire и Hawaii относятся к улучшениям вычислительных возможностей (поддержка большего количества одновременно исполняемых потоков) и новой версии технологии AMD PowerTune, о которой мы ещё расскажем ниже.
Новые возможности DirectX 11.2 включают тайловые ресурсы, которые используют аппаратные особенности Hawaii по огранизации виртуальной памяти GPU, называемые partially-resident textures (PRT). Используя виртуальную видеопамять, легко получить эффективную аппаратную поддержку алгоритмов, позволяющих применять в приложениях огромные объёмы текстур и их подкачку (streaming) в видеопамять. PRT позволяет повысить эффективность использования видеопамяти в таких задачах и подобные техники уже применяются в некоторых игровых движках.
Несмотря на то, что возможности GCN были расширены, главной задачей AMD при проектировании нового топового GPU было улучшение энергоэффективности чипа, так как Tahiti уже потреблял слишком много энергии, а в Hawaii включили больше вычислительных блоков. Давайте посмотрим, что удалось сделать инженерам компании AMD, чтобы выставить на рынок конкурентоспособный продукт:
Новый графический процессор логически разделён на четыре части (Shader Engine), каждая из которых содержит по 11 укрупнённых вычислительных блоков (Compute Unit), включающих и текстурные модули, по одному геометрическому процессору и растеризатору, а также по несколько блоков ROP. Иными словами, блок-схема самого современного чипа AMD стала ещё больше похожа на схему чипов NVIDIA, также имеющих подобную организацию.
Всего в состав графического чипа Hawaii входит: 44 вычислительных блока Compute Units, содержащих 2816 потоковых процессоров, 64 блока ROP и 176 блоков TMU. Рассматриваемый GPU имеет 512-битную шину памяти, состоящую из восьми 64-битных контроллеров, а также 1 МБ кэш-памяти второго уровня. Он производится на всё том же 28 нм техпроцессе, что и Tahiti, но содержит уже 6.2 млрд. транзисторов (у Tahiti — 4.3 млрд.).
Рассмотрим блок-схему шейдерного движка, из которых состоит графический процессор Hawaii. Это крупноблочная часть чипа, который содержит четыре таких движка:
Каждый из Shader Engine включает по одному геометрическому процессору и растеризатору, которые способны обрабатывать по одному геометрическому примитиву за такт. Похоже, что геометрическая производительность Hawaii не только выросла, но и должна быть неплохо сбалансированной, по сравнению с предыдущими GPU компании AMD.
Шейдерный движок архитектуры GCN может содержать до четырёх укрупнённых блоков Render Back-ends (RB), которые включают по четыре блока ROP каждый. Количество вычислительных блоков Compute Unit в составе шейдерного движка также может быть разным, но в данном случае их 11 штук, хотя кэши для инструкций и констант разделяются на каждые четыре блока Compute Unit. То есть, логичнее было бы включение в состав Shader Engine не 11, а 12 вычислительных блоков, но похоже, что такое количество уже не входило в пределы по энергопотреблению Hawaii.
Вычислительный блок архитектуры GCN включает различные функциональные блоки: модули текстурных выборок (16 штук), модули текстурной фильтрации (четыре штуки), блок предсказания ветвлений, планировщик, вычислительные блоки (четыре векторных и один скалярный), кэш-память первого уровня (16 КБ на вычислительный блок), память для векторных и скалярных регистров, а также разделяемая память (64 КБ на каждый Compute Unit).
Так как шейдерных движков в графическом процессоре Hawaii четыре, то всего он имеет четыре блока обработки геометрии и движков растеризации. Соответственно, новый топовый GPU компании AMD умеет обрабатывать до четырёх геометрических примитивов за такт. Кроме этого, в Hawaii улучшена буферизация геометрических данных и увеличены кэши для параметров геометрических примитивов. Всё вместе это обеспечивает серьёзный рост производительности при больших объёмах расчётов в геометрических шейдерах и активном использовании тесселяции.
Также некоторые изменения претерпели и вычислительные способности нового, пусть и графического, но всё же процессора. В состав чипа входят два DMA-движка, которые обеспечивают полное использование возможностей шины PCI Express 3.0, заявлена двунаправленная пропускная способность в 16 ГБ/с. Сравнительно новой можно назвать и возможность асинхронных вычислений, которая осуществляется при помощи восьми (в случае чипа Hawaii) вычислительных движков Asynchronous Compute Engines (ACE).
Блоки ACE работают параллельно с графическим командным процессором и каждый из них способен управлять восемью потоками команд. Такая организация обеспечивает независимое планирование и работу в многозадачной среде, доступ к данным в глобальной памяти и L2-кэше, а также быстрое переключение контекста. Это особенно важно в вычислительных задачах, а также в игровых приложениях при использовании GPU и для графических и для общих вычислений. Также это нововведение теоретически может быть преимуществом при использовании низкоуровневого доступа к возможностям GPU при помощи таких API как Mantle.
Вернёмся к возможностям Hawaii, которые применимы к графическим вычислениям. Из-за роста требований к разрешению с ожидаемым распространением UltraHD-мониторов, становится необходимым повышение вычислительных возможностей блоков растровых операций — ROP. В чип Hawaii включено 16 блоков Render Back End (RBE), что в два раза больше, чем у Tahiti. Шестнадцать RBE содержат 64 блока ROP, которые способны обрабатывать до 64 пикселей за такт, и это может быть очень полезно в некоторых случаях.
Что касается подсистемы памяти, то Hawaii имеет 1 мегабайт кэш-памяти второго уровня, который поделён на 16 разделов по 64 КБ. Заявлено как 33%-ное увеличение объёма кэш-памяти, так и повышение внутренней пропускной способности на треть. Общая пропускная способность L2/L1-кэшей заявлена равной 1 ТБ/с.
Доступ к памяти осуществляется при помощи восьми 64-битных контроллеров, что вместе составляет 512-битную шину. Микрохемы памяти в Radeon R9 290X работают на частоте в 5.0 ГГц, что даёт общую пропускную способность памяти в 320 ГБ/с, что более чем на 20% выше, чем у Radeon HD 7970 GHz. При этом площадь чипа, занимаемую контроллером памяти, удалось снизить на 20%, по сравнению с 384-битным контроллером в Tahiti.
Характеристики Radeon Radeon R9 290X
Наименование | Radeon R9 290X |
Ядро | Hawaii |
Техпроцесс (мкм) | 0.028 |
Транзисторов (млн) | 6200 |
Частота работы ядра | 1000 |
Частота работы памяти (DDR) | 5000 |
Шина и тип памяти | GDDR5 512-bit |
ПСП (Гб/с) | 320 |
Унифицированные шейдерные блоки | 2816 |
Частота унифицированных шейдерных блоков | 1000 |
TMU на конвейер | 176 |
ROP | 64 |
Fill Rate (Mpix/s) | 64600 |
Fill Rate (Mtex/s) | 176400 |
DirectX | 11.2 |
Объем памяти | 4096 |
Интерфейс | PCI-E 3.0 x16 |
По сравнению с предшественником Radeon HD 7970, производительность Hawaii в лице Radeon R9 290X увеличится примерно на 40-60%.