Radeon X1800 XT особенности архитектуры

Автор myxxx323, . Опубликовано в Radeon X1xxx series

1192781795_49490
ATI RADEON X1800 являеkся первым в мире графическим процессором, производимым в коммерческих масштабах с использованием 0.09-мкм техпроцесса на мощностях TSMC.

Пространства для маневров с названиями у ATI было немного, и лишь в старшем сегменте: вакантным оставалось лишь название RADEON X900, в то время, как почти все остальные варианты были уже заняты, ведь, в отличие от NVIDIA, ATI Technologies в случае линейки RADEON X, оперировала трехзначными числами в названиях своих продуктов. Выход из положения нашелся; он оказался простым и, в то же время, достаточно элегантным – к числовым обозначениям новинок было добавлено число 1000. Таким образом, новые графические процессоры ATI получили имена RADEON X1800, RADEON X1600 и RADEON X1300. На наш взгляд – достаточно удачный ход, оставляющий немало места для дальнейших маневров с названиями, а также говорящий о том, что перед нами архитектура нового поколения.

70083

На этот раз это действительно так: ATI и NVIDIA поменялись ролями. Если NVIDIA G70 представляk собой не что иное, как значительно улучшенный NV40 (эволюция), то RADEON X1000 действительно являkcя совершенно новой архитектурой, имеющей мало общего с архитектурами ATI предыдущих поколений (революция).
Более того, старшая модель в семействе, чип RADEON X1800 (R520), получился более сложным, нежели NVIDIA G70 – 320 против 302 миллионов транзисторов! При этом, RADEON X1600 (RV530), нацеленный на средние сегменты рынка состоит из 157 миллионов тразисторов, тогда как RADEON X1300 (RV515) стал, согласно заявлениям разработчиков, первым чипом начального уровня, внутри которого около 100 миллионов транзисторов.

Причинами усложнения архитектуры стал целый набор новведений в чипе, включая такие особенности как:
Поддержка Shader Model 3.0;
Модернизированные шейдерные процессоры со специальным блоком, для выполнения branch инструкций;
Новый контроллер памяти;
Модернизированная система кешей;
Модернизированная система внутренних соединений разных блоков чипа.

Теперь разные модели RADEON X1000 различались не только количеством пиксельных и вершинных процессоров, что позволило добиться оптимального соотношения цена/производительность. Как обычно, менее производительные версии нового GPU получили названия, начинающиеся с RV.

Семейство RADEON X1000 будет представлено на рынке следующими моделями видеоадаптеров:
RADEON X1800 XT (R520, 625/1500MHz, 16pp, 8vp, 256-bit, 256MB/512MB, );
RADEON X1800 XL (R520, 500/1000MHz, 16pp, 8vp, 256-bit, 256MB,);
RADEON X1600 XT (RV530, 590/1380MHz, 12pp, 5vp, 128-bit, 128/256 MB,);
RADEON X1600 XT (RV530, 500/780MHz, 12pp, 5vp, 128-bit, 128/256MB,);
RADEON X1300 PRO (RV515, 600/800MHz, 4pp, 2vp, 128-bit, 256MB,);
RADEON X1300 (RV515, 450/500MHz, 4pp, 2vp, 128-bit, 128/256MB, );
RADEON X1300 HyperMemory (RV515, 450/1000MHz, 4pp, 2vp, 128-bit, 32MB, up to 128 MB HyperMemory, ).

Пиксельные процессоры

Поскольку ATI уделила огромное внимание функциям распределения работы между разными испольнительными устройствами, новая архитектура RADEON X1000 стала по-настоящему мультипоточной, получив даже специальное название – Ultra-Threaded Architecture. Аналогия с Intel Hyper-Threading здесь вполне уместна, так как цели у этих технологий схожи: как можно более эффективное задействование имеющихся мощностей процессора и максимально возможное сокращение времени простоя исполнительных устройств

70044

Архитектура RADEON X1000 (R5xx) имеет сходства как с архитектурами RADEON 9000 (R3xx) и RADEON X800 (R4xx), так и с совершенно новой архитектурой, применяемой в GPU Xbox 360, однако, новые процессоры ATI содержат ряд уникальных особенностей, не имеющих аналогов в других чипах.

В частности, чипы RADEON X1000 имеют встроенный интеллектуальный коммутатор - специальный блок, называемый Ultra-Threading Dispatch Processor, отвечающий за оптимальное распределение нагрузки между квадами пиксельных процессоров (каждый квад состоит из четырех пиксельных процессоров, каждый из которых в состоянии обработать шейдер для блока 2х2 пиксела за такт), а также текстурными модулями. В частности, Ultra-Threading Dispatch Processor разбивает работу, связанную с одинаковыми пиксельными шейдерами (pixel processing workload) в небольшие группы, или нити (threads) из 4х4 пикселей.

Ultra-Threading Dispatch Processor распознаёт случаи, когда какие-либо пиксельные процессоры внутри квадов простаивают и моментально назначают им на выполнение новые задачи. Однако, в случае, когда для продолжения выполнения шейдера требуются еще не полученные данные, то подобная нить приостанавливается арбитражным процессором до их получения, таким образом высвобождая арифметические ресурсы (Arithmetic Logic Unit, ALU) для других нитей и маскируя латентность, к примеру, выборки текстур, находящихся как в кеше, так и в памяти. Согласно ATI, подобная организация работы позволяет достигать 90% эффективности задействования пиксельных процессоров на любых шейдерах.

Поскольку быстрое переключение между нитями требует сохранения промежуточных результатов каждой, ATI использует для этого специальные регистры - General Purpose Register Array - с высокоскоростным соединением с пиксельными процессорами, что мы уже видели в предыдущих графических процессорах. Пока непонятно, какое колиечество регистров имеется в RADEON X1800, X1600 и X1300 и насколько чувствительны новые чипы к сложностям пиксельных шейдеров.

Согласно стандарту Shader Model 3.0, циклы, ветвления и подпрограммы поддерживаются новыми решениями ATI в полной мере, а применение flow control позволяет им исполнять шейдеры практически неограниченной длины. Все вычисления процессоры семейства RADEON X1000 выполняют в формате 128-bit FP, что практически исключает возможность накопления ошибок и, как следствие, ухудшение качества изображения.

Количество одновременно выполняемых нитей кода было увеличено, а размер каждой, напротив, уменьшен до 4х4 пикселей, что позволило добиться большей эффективности при использовании динамического ветвлении, принцип которого хорошо иллюстрирует следующая диаграмма:

70031

Преимущество подхода ATI налицо – при большем размере ветви эффективность динамического ветвления значительно падает; в случае с размером 64х64 пиксела его применение становится неоправданным. Старший представитель семейства, RADEON X1800 (R520) способен исполнять до 512 нитей (потоков) шейдерного кода одновременно, в то время как менее мощные модели ограничены 128 потоками.

Вершинные процессоры

Устройство вершинных процессоров RADEON X1000 весьма напоминает таковое в NVIDIA GeForce 7 – каждый процессор состоит из двух блоков, векторного и скалярного, с той разницей, что оба ALU в вершинном процессоре G70 являются 32-битными, а векторное ALU в аналогичном процессоре RADEON X1000 имеет разрядность 128 бит. Подобное преимущество даёт возможность использовать графический чип для эмуляции центральных процессоров.

70047

Новые вершинные процессоры могут исполнять 2 инструкции за такт, а длина шейдера может достигать 1024 инструкций в обычном случае и быть практически бесконечной при использовании flow control. Разумеется, вершинные процессоры RADEON X1000 полностью отвечают спецификациям Shader Model 3.0.

Контроллер памяти

Контроллер памяти, входящий в состав новых графических процессоров ATI, был полностью переработан. Теперь внутренняя шина памяти RADEON X1800 имеет кольцевую топологию и состоит из двух 256-битных противонаправленных кольцевых шин, тогда как кольцевая топология RADEON X1600 состоит из пары противонаправленных 128-битных шин.

70042

Дело в том, что кольцевые шины, идущие вокруг всего кристалла, позволяют упростить и оптимизировать разводку проводников внутри него, соединив компоненты кратчайшим путем. Такое решение, вкупе с использованием коммутатора при операциях записи в память минимизирует задержки и искажения сигнала. Благодаря технологии Ring Bus, RADEON X1800/1600 могут без проблем использовать даже самую высокочастотную память, например, GDDR4, что, в случае традиционной архитектуры, могло бы привести к нестабильной работе из-за наличия помех, вызванных неоптимальной разводкой соответствующих проводников внутри GPU.

Память подключена к шинам посредством так называемых "кольцевых остановок" (Ring Stop). Всего таких остановок четыре, каждая имеет два канала доступа к памяти шириной 32-бита каждый. Для сравнения, в RADEON X850 память подключалась к контроллеру четырьмя 64-битными каналами. Каждый Ring Stop может передавать, согласно инструкциям контроллера памяти, затребовавшему данные клиенту.

Принцип работы Ring Bus подсистемы памяти довольно прост. Клиент посылает запрос на получение данных контроллеру памяти, который находится в середине чипа. Контроллер памяти определяет приоритетность каждого из запросов по определенному алгоритму и даёт приоритет тому, который влияет на производительность в большей степени, посылая соответствующий запрос чипам памяти и передавая эти данные по Ring Bus до ближайшего для клиента Ring Stop, который затем передаёт данные клиенту. Для наиболее оптимального доступа к памяти вокруг непосредственного контроллера располагается так называемая Write Crossbar Switch, позволяющая равномерно распределить запросы.

Улучшения коснулись и технологии HyperZ – теперь при определении невидимых областей, подлежащих отсечению, используются более продвинутый алгоритм. Он увеличивал эффективность отсечения скрытых поверхностей на 50% по сравнению с RADEON X850.

HDR

Новое поколение графических процессоров ATI получило полноценную поддержку режимов отображения с расширенным динамическим диапазоном, известных под общим названием HDR.

Разрабатывая новую архитектуру, ATI Technologies постаралась учесть все недостатки, и графические процессоры RADEON X1000 получили широчайшие возможности по работе с HDR, в том числе, и поддержку различных форматов, в том числе, нестандартных (custom). Кроме того, в RADEON X1000 впервые появилась возможность использования HDR одновременно с полноэкранным сглаживанием. По сравнению с NVIDIA GeForce 6/7 это огромный шаг вперед, но хватит ли производительности новых GPU для обеспечения комфортной игры в этих режимах? Ответ на этот вопрос могут дать лишь результаты тестов. По крайней мере, теперь ясно, почему графический процессор R520, старшая модель в новом семействе ATI получилась более сложной, нежели NVIDIA G70 – все вышеописанные архитектурные инновации дались разработчикам не даром и потребовали своей доли транзисторов на кристалле. В результате, несмотря на наличие 16 пиксельных процессоров против 24 у изделия конкурента, общее число транзисторов достигло 320 миллионов, что сделало R520 самым сложным графическим процессором в мире.

ATI RADEON X1800 являелся первым в мире графическим процессором, производимым в коммерческих масштабах с использованием 0.09-мкм техпроцесса на мощностях TSMC. Также, этот чип на тот день является самым сложным в 3D-индустрии – он состоит из 320 миллионов транзисторов, что несколько больше, нежели у самого опасного конкурента – NVIDIA G70. Хотя сложность RADEON X1800 достаточно высока, более тонкий техпроцесс сделал возможным его работу на частотах до 625 МГц, что ранее являлось недостижимым.

Несмотря на то, что количество транзисторов, из которых состоит RADEON X1800, вдвое превышает количество транзисторов предшественника, RADEON X800 – количество пиксельных процессоров увеличено не было, и в новом семействе их по-прежнему 16. Вместо увеличения их количества ATI оснастила новый GPU специальным блоком, носящим названием Ultra-Threading Dispatch Processor, отвечающим за эффективное распределение нагрузки между пиксельными процессорами, и увеличивающим эффективность их работы. ATI заявила, что такой подход позволяет достичь 90% эффективности при исполнении любого пиксельного шейдера.

 

Характеристики ATI Radeon X1800 XT

Наименование Radeon X1800 XT
Ядро R520
Техпроцесс (мкм) 0.09
Транзисторов (млн) 321
Частота работы ядра 625
Частота работы памяти (DDR) 750 (1500)
Шина и тип памяти GDDR3 256 Bit
ПСП (Гб/с) 48
Пиксельных конвейеров 16
TMU на конвейер 1
Текстур за такт 16
Текстур за проход 16
Вершинных конвейеров 8
Pixel Shaders 3.0
Vertex Shaders 3.0
Fill Rate (Mpix/s) 10000
Fill Rate (Mtex/s) 10000
DirectX 9.0c
Anti-Aliasing (Max) MS-6x
Анизотропная фильтрация (Max) 16x Quality
Объем памяти 256/512
Интерфейс PCI-E
RAMDAC 2x400

Хотя семейство RADEON X1800 в целом заслуживало высокой оценки за производительность и набор возможностей, оно все же опоздало почти на квартал, по сравнению с GeForce 7800 GTX, обладающем схожими возможностями и производительностью.

F.E.A.R.

10_fear

Печать