gamegpu     Search find 4120

 tg2 f2 lin2 in2 X icon 3 y2  p2 tik steam2

Radeon HD 4870 особенности архитектуры

dvcsdcsc93_86610

Если в случае с RV670 (Radeon HD 38x0) правомерность присвоения следующей цифры, обозначающей поколение, можно было поставить под сомнение, так как этот GPU мало чем отличался от ядра предыдущего поколения, R600 (Radeon HD 2900), то с RV770 таких сомнений не возникает – это действительно новый продукт, пусть и унаследовавший большинство черт своих предшественников. Новое семейство получило название ATI Radeon HD 4800, причём, схема наименования разных моделей графических карт, впервые использованная ATI в семействе ATI Radeon HD 3800, сохранена: первая цифра означает поколение графической архитектуры, вторая – семейство, а две последние – модель конкретного видеоадаптера.

Ядро RV770 состоит из 956 миллионов транзисторов, что довольно внушительно на первый взгляд, однако, не является абсолютным рекордом в индустрии; пальма первенства в этой области принадлежит Nvidia с её чипом GT200, насчитывающим 1.4 миллиарда транзисторов. Первенство можно назвать сомнительным, поскольку конкурент ATI использует менее совершенный 65-нм техпроцесс, что при огромной площади и сложности такого ядра автоматически означает меньшее количество ядер на подложке и меньший выход годных, а, следовательно, значительно более высокую себестоимость производства, однако, подобный подход является типичной тактикой Nvidia в последние годы. Карты на базе GT200 едва ли станут дешёвыми с течением времени, в отличие от новых решений ATI, использующих RV770. Таким образом, стратегия, избранная ATI Technologies, на первый взгляд, вполне оправдывает себя.

Следует отметить, что частоты GPU были заметно понижены по сравнению с картами на базе GPU предыдущего поколения, RV670, что вполне объяснимо существенно возросшей сложности нового ядра. С учётом усиленной вычислительной и текстурной мощности это не должно составлять какой-либо проблемы. Ещё одна любопытная деталь, заслуживающая внимания: применение в старшей модели ATI Radeon HD 4800 быстрой памяти GDDR5 позволило добиться высокой пропускной способности, не прибегая к расширению внешней шины доступа, как это сделала ATI в прошлом году и делает Nvidia сейчас. Увеличение разрядности шины памяти свыше традиционных 256 бит приводит к значительному усложнению печатной платы, а, следовательно, и к её удорожании. Разумеется, память GDDR5 стоит дороже, чем широко распространённая GDDR3, но, по-видимому, эта разница с лихвой компенсируется более простым дизайном PCB.

Хорошо видно, что топология подсистемы доступа к памяти в целом сохранена, хотя теперь её нельзя назвать кольцевой: почти каждый контроллер памяти соединен двунаправленным интерфейсом с другим, однако, само «кольцо» более не является замкнутым. Интерфейс доступа к памяти по-прежнему расположен по периметру кристалла, и рядом с ним расположены функциональные блоки, наиболее критичные к пропускной способности:

121951

Вместе с тем, в составе ядра появился коммутатор, связывающий между собой блоки, менее требовательные к пропускной способности – интерфейс шины PCI Express, интерфейс CrossFireX, видеопроцессор UVD2, контроллеры дисплеев и т.д. Эффективность использования ресурсов подсистемы памяти в предыдущих поколениях ATI Radeon HD и без того достигала 85 % по данным ATI, а оптимизация топологии RV770 позволила довести её практически до максимума. Вместе с возможностью применения быстрой памяти GDDR5 это избавило разработчиков от необходимости использования внешней шины разрядностью более 256 бит, что положительно сказалось на простоте дизайна печатных плат ATI Radeon HD 4800.

Ключевой частью любого графического ядра с современной архитектурой является блок диспетчера задач, на плечи которого возложена работа по распределению доступных ресурсов процессора таким образом, чтобы все его части были максимально загружены, и, следовательно, производительность стремилась к максимально возможной.

Блок диспетчера задач впервые появился ещё в составе семейства ATI Radeon X1000, где он мог управлять 512 ветвями кода по 16 пикселей каждая. Вторая версия процессора распределения задач была представлена в составе ATI Radeon HD 2000. Новый обработчик не только мог обрабатывать больше ветвей кода, но и делать это точнее и эффективнее – минимальный размер ветви был уменьшен с 16 до 5 пикселей.

121940

Вычислительная часть R600 и RV670 состояла из 64 универсальных модулей, каждый из которых включал в себя пять ALU, блок управления потоком и массива регистров общего назначения. Четыре ALU из пяти были достаточно простыми устройствами, способными исполнять за такт одну инструкцию FP MAD, а четвёртый – комплексным, умеющим работать со сложными инструкциями SIN, COS, LOG, EXP и т.д. По сути, каждый вычислительный модуль являлся процессором с пятистадийным конвейером.

В теории, такая организация позволяла говорить о наличии 320 исполнительных устройств, но на самом деле, это было справедливо только для случая полной загрузки всех 64 конвейеров, что на практике обеспечивалось далеко не всегда: в трёхмерных приложениях многие операции зависят от результатов выполнения предыдущих операций, поэтому последовательной работы конвейера добиться непросто. Это требует значительных оптимизаций под конкретное приложение на уровне драйверов Catalyst, но получить доступ к программной «начинке» игры не всегда возможно, по крайней мере, до её официального выпуска.

Как следствие, на практике нередко оказывалось, что выполнением полезной работы занято только одно ALU в каждом вычислительном модуле, что значительно снижало потенциал архитектуры ATI Radeon HD и приводило к отставанию в играх от решений на базе Nvidia G80/G92. Последние не только имели больше независимых вычислительных блоков, но и блоки эти функционировали на более высоких тактовых частотах. Создавая RV770, группа разработчиков ATI решила проблему с возможной неэффективностью суперскалярной архитектуры, что называется, прямым путём, а именно – увеличив количество вычислительных модулей с 64 до 160. Конечно, это увеличило количество транзисторов на ядре, однако, использование 55-нм техпроцесса позволило удержать его площадь в разумных пределах.

Сама архитектура модулей заметных изменений не претерпела, и они по-прежнему состоят из 5 ALU, блока управления потоком и набора регистров общего назначения:

121947

Если верить заявлениям ATI, то эффективность вычислительных модулей была увеличена на 40 %, но даже простое наращивание их количества с 64 до 160 способно сделать Radeon HD 4800 конкурентоспособным решением даже в не слишком благоприятных для данной архитектуры условиях. И это ещё не всё; как уже упоминалось выше, изменения присутствуют и на более глобальном уровне – уровне топологии ядра. При частичном сохранении кольцевой топологии расположение функциональных блоков было оптимизировано. Вычислительные модули RV770 объединены в 10 SIMD-ядер (раньше таких ядер было 4), по 16 модулей (80 ALU) в каждом.

Основным узким местом графических ядер ATI R600 и RV670 являлась подсистема текстурных процессоров.

Во-первых, их было всего 16 (4 больших блока), чего было явно недостаточно, даже, несмотря на тенденцию преобладания математических спецэффектов над использованием сложных текстур высокого разрешения, обусловленную ориентацией разработчиков игр на мультиплатформенность. Во-вторых, на каждые два блока адресации текстур приходился всего один блок фильтрации, что существенно снижало эффективность текстурных блоков при выполнении текстурной фильтрации, особенно анизотропной, которая сегодня используется повсеместно, и нет никаких оснований предполагать, что от её использования откажутся в будущем.

При разработке RV770 эти недостатки были учтены, и новое ядро получило новые текстурные процессоры:

121950

Их дизайн был полностью переработан, и теперь каждый TMU содержит 16 блоков выборки текстур FP32, 4 блока адресации и 4 блока фильтрации. Казалось бы, эффективность выборки должна упасть, однако, это компенсируется вдвое увеличенной пропускной способность шины, связывающей TMU и текстурные кэши. ATI удалось добиться 2.5-кратного увеличения скорости фильтрации 32-битных текстур и 1.5-кратного – 64 битных, что в теории выглядит очень неплохо, и, наверняка, крайне положительно скажется на производительности нового GPU в реальных условиях.

Текстурные процессоры по-прежнему объединены в большие модули по 4 TMU, и каждый такой модуль обслуживает одно из 10 SIMD-ядер. Оптимизация, выразившаяся в отказе от лишних блоков, позволила сократить количество транзисторов, составляющих TMU, и, соответственно, разместить большее их количество на кристалле сравнительно малой кровью, удержав сложность и площадь ядра в разумных пределах.

Подсистема кэшей является важной частью текстурной подсистемы графического процессора, и в RV770 она также подверглась существенной модернизации:

121941

Во-первых, надо отметить возросшую пропускную способность: теперь скорость выборки текстур из кэшей первого уровня составляет внушительные 480 ГБ/сек., а кэши первого и второго уровней могут общаться на скорости 384 ГБ/сек. Во-вторых, каждое SIMD-ядро теперь имеет свой кэш первого уровня, что благотворно сказывается на эффективности хранения данных. В-третьих, кэши второго уровня согласованы с контроллерами памяти, и, наконец, в-четвёртых, в составе RV770 появился отдельный кэш для хранения вершинных данных. Улучшения не так очевидны, как в случае с архитектурой текстурных процессоров, однако, они, наверняка внесут существенную лепту в прирост производительности ATI Radeon HD 4800 в играх. Можно с уверенностью сказать, что новый графический процессор ATI полностью избавлен от главного узкого места архитектуры ATI Radeon HD и теперь может поспорить на равных с решениями Nvidia там, где последние были традиционно сильны, а именно, на операциях с текстурами. Здесь наиболее ярко проявляется подход ATI к проектированию графических процессоров – оптимизация вместо прямого наращивания мощностей.

Растровые процессоры, в терминологии ATI именуемые render back-ends, никогда не были драматически узким местом архитектуры ATI Radeon HD, однако, в RV770 улучшения коснулись и их, хотя общее количество этих модулей не изменилось: их в составе ядра по-прежнему четыре, что позволяет говорить об эквиваленте 16 классических ROP.

Помимо прочих инноваций, вошедших в состав ATI RV770, следует отметить новые возможности видеодвижка, в частности, новый звуковой контроллер и некоторые программные улучшения.

Главным улучшением по части работы с HD-контентом стал восьмиканальный звуковой контроллер Realtek, поддерживающий аудиопотоки с битрэйтом до 6.144 Мб/сек., и частотой дискретизации до 192 КГц в форматах AC3, DTS, Dolby True-HD и DTS-HD. Расширенные возможности нового аудиоядра представляют огромную важность для тех, кто планирует использовать ATI Radeon HD 4000 в составе домашнего мультимедийного центра. Более того, на данный момент ATI Radeon HD 4800 являются единственными в мире графическими картами, обладающими «родной» поддержкой восьмиканального HD-звука, с возможностью его вывода через HDMI – существенное преимущество над конкурирующими решениями Nvidia.

121952

Для подключения питания видеокарты Radeon HD4870 служат два 6-контактных разъёма в хвосте видеокарты, в отличие от младшей Radeon HD4850, у которой всего один разъём. Усиленная система питания потребовалась для стабильной работы видеокарты на повышенных частотах. Так, по сравнению с видеокартой Radeon HD4850, у Radeon HD4870 частота графического процессора выше на 125 МГц и равна 750 МГц, а эффективная частота видеопамяти GDDR5 равна 3600 МГц, что значительно выше 1986 МГц, на которых работает видеопамять у видеокарты Radeon HD4850. Правда, тут стоит оговориться, реальная частота новой памяти GDDR5 равна 900 МГц, просто за один такт у неё передаётся не вдвое, а вчетверо больше информации по сравнению с «обычной» не-DDR памятью.

226074a7f05ee5587d

 

Характеристики ATI Radeon HD 4870

Наименование Radeon HD 4870
Ядро RV770XT
Техпроцесс (мкм) 55
Транзисторов (млн) 956
Частота работы ядра 750
Частота работы памяти (DDR) 900 (3600 QDR)
Шина и тип памяти GDDR5 256-bit
ПСП (Гб/с) 115,2
Унифицированные шейдерные блоки 800
Частота унифицированных шейдерных блоков 750
TMU на конвейер 40
ROP 16
Shaders Model 4.1
Fill Rate (Mtex/s) 30000
DirectX 10.1
Объем памяти 512/1024
Интерфейс PCIe 2.0

 

Видеокарта Radeon HD4870 оказалась не на словах, а на деле самым что ни на есть реальным конкурентом для видеокарты GeForce GTX 260 от компании NVIDIA. Давно мы такого не наблюдали, ведь «топовые» представители двух предыдущих семейств видеокарт от компании AMD могли конкурировать с продукцией NVIDIA лишь на словах, а на деле были слишком медленными. Очевидно, что новый шейдерный блок с увеличенным количеством потоковых процессоров и изменённой архитектурой оказался мощнее шейдерного блока в видеокарте GeForce GTX 260. Правда, до GeForce GTX 280 новинка не дотягивает, но при этом обеспечивает комфортный «геймплей» практически во всех современных играх.

Mass Effect

06974

Комментарии (0)