Максвелл (микроархитектура) - Maxwell (microarchitecture)

Nvidia Maxwell
Дата выходаФевраль 2014
Процесс изготовленияTSMC 28 нм
История
ПредшественникКеплер
ПреемникПаскаль

Максвелл это кодовое имя для GPU микроархитектура разработан Nvidia как преемник Кеплер микроархитектура. Архитектура Максвелла была представлена ​​в более поздних моделях GeForce 700 серии а также используется в GeForce 800M серии, GeForce 900 серии, и Quadro Серия Mxxx, все производятся с TSMC с 28 нм процесс.[1]

Первыми продуктами на базе Maxwell были GeForce GTX 750 и GeForce GTX 750 Ti. Оба были выпущены 18 февраля 2014 года, оба с кодовым номером чипа GM107. Ранее графические процессоры серии GeForce 700 использовали Кеплер чипы с кодовыми номерами GK1xx. Графические процессоры GM10x также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 г. с GeForce GTX 970 и GeForce GTX 980, за ним последовали GeForce GTX 960 22 января 2015 г., GeForce GTX Titan X 17 марта 2015 г. и GeForce GTX 980 Ti 1 июня 2015 г. Эти графические процессоры имеют GM2Кодовые номера чипов 0x.

Максвелл представил улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность,[2] PureVideo HD шестого и седьмого поколения, и CUDA Вычислительные возможности 5.2.

Архитектура названа в честь Джеймс Клерк Максвелл, основоположник теории электромагнитного излучения.

Архитектура Maxwell используется в системе на микросхеме (SOC), процессоре мобильных приложений, Tegra X1.

Преемник Максвелла носит кодовое название Паскаль.[3] Особенности архитектуры Pascal Память с высокой пропускной способностью, Единая память, и NVLink.[3]

Максвелл первого поколения (GM10x)

Чип Maxwell 107 на видеокарте GTX 750 Ti со снятым радиатором.

Графические процессоры Maxwell первого поколения (GM107 / GM108) были выпущены как GeForce GTX 745, GTX 750/750 Ti, GTX 850M / 860M (GM107) и GeForce 830M / 840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в большей пропускной способности памяти. Соответственно, шина памяти была уменьшена со 192 бит на Kepler (GK106) до 128 бит, уменьшая площадь кристалла и потребление энергии.[4]

Конструкция потокового мультипроцессора от Kepler также была переоборудована и разбита на разделы, а для Maxwell была переименована в SMM. Структура планировщика деформации была унаследована от Kepler, при этом блоки текстуры и ядра FP64 CUDA по-прежнему были общими, но расположение большинства исполнительных блоков было разделено так, что каждый планировщик деформации в SMM контролирует один набор из 32 ядер FP32 CUDA, один набор из 8 блоков загрузки / хранения и одного набора из 8 блоков специальных функций. В этом отличие от Kepler, где у каждого SMX есть 4 планировщика, которые планируют для общего пула исполнительных модулей.[5] До Kepler эти устройства были подключены к перекладине, которая потребляла ненужную мощность, чтобы их можно было совместно использовать.[5] На Максвелле перекладину убрали, так как она стала ненужной.[4][5] Это позволило более детально и эффективно распределять ресурсы, чем в Kepler, экономя электроэнергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что SMM со 128 ядрами CUDA имеет 90% производительности SMX со 192 ядрами CUDA, тогда как эффективность увеличивается в 2 раза.[4] Кроме того, каждый кластер обработки графики, или GPC, содержит до 4 модулей SMX в Kepler и до 5 модулей SMM в Maxwell первого поколения.[4]

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x. Динамический параллелизм и HyperQ, две функции в графических процессорах GK110 / GK208, также поддерживаются во всей линейке продуктов Maxwell. Maxwell также предоставляет атомарные операции с собственной общей памятью для 32-разрядных целых чисел и 32-разрядные и 64-разрядные атомарные операции с общей памятью (CAS), которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был обновлен и теперь работает в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в 6–8 раз.[4] Nvidia также заявляет об увеличении производительности в восемь-десять раз. PureVideo Набор функций декодирования видео E за счет кеш-памяти видеодекодера в сочетании с повышением эффективности памяти. Тем не мение, H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, полагаясь на сочетание аппаратного и программного декодирования.[4] При декодировании видео на графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии.[4]

Считалось, что графические процессоры Maxwell будут использовать рендеринг на основе тайлов, [6] но на самом деле они используют плиточное кеширование. [7]

Чипсы

  • GM107
  • GM108

Максвелл второго поколения (GM20x)

Снимок графического процессора GM200 внутри видеокарт GeForce GTX 980 Ti

Графические процессоры Maxwell второго поколения представили несколько новых технологий: Dynamic Super Resolution,[8] Сжатие дельта-цветов третьего поколения,[9] Выборка мультипиксельного программирования,[10] Nvidia VXGI (Воксель в реальном времени)Глобальное освещение ),[11] VR Direct,[12][13][14] Многопроекционное ускорение,[9] Многокадровое сглаживание с выборкой (MFAA)[15] (однако была удалена поддержка сглаживания выборки покрытия (CSAA)),[16] и API Direct3D12 на уровне функций 12_1. Также была добавлена ​​поддержка HDMI 2.0.[17][18]

Соотношение ROP и контроллера памяти было изменено с 8: 1 на 16: 1.[19] Однако некоторые ROP в GTX 970 обычно простаивают, потому что задействованных SMM недостаточно для работы, что снижает максимальную скорость заполнения.[20]

Механизм полиморфизма, отвечающий за мозаика был обновлен до версии 3.0 в графических процессорах Maxwell второго поколения, что привело к повышению производительности тесселяции на единицу / такт.

Maxwell второго поколения также имеет до 4 модулей SMM на GPC по сравнению с 5 модулями SMM на GPC.[19]

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107 / GM108, 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x).[9][19][21]

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p / 60FPS и 4K / 60FPS (по сравнению с NVENC на графических процессорах Maxwell GM10x первого поколения, которые поддерживали только кодирование H.264 1080p / 60FPS).[14]

После жалоб потребителей,[22] Nvidia показала, что может отключать отдельные блоки, каждый из которых содержит 256 КБ кеш-памяти L2 и 8 ROP, без отключения всех контроллеров памяти.[23] Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2 / ROP, управляющий обоими контроллерами GDDR5, совместно использует канал возврата чтения и шину данных записи. между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5.[23] Это используется в GeForce GTX 970, которая, следовательно, может быть описана как имеющая 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине.[23] Пиковая скорость такого графического процессора все еще может быть достигнута, но пиковая скорость доступна только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи.[23]

Чипсы

  • GM200
  • GM204
  • GM206

Спектакль

Теоретическая мощность обработки одинарной точности графического процессора Maxwell в ФЛОПЫ вычисляется как 2 (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).

Теоретическая мощность обработки с двойной точностью графического процессора Maxwell составляет 1/32 от производительности с одинарной точностью (которая была отмечена как очень низкая по сравнению с предыдущим поколением. Кеплер ).[24]

Преемник

Преемник Максвелла носит кодовое название Паскаль.[3] Особенности архитектуры Pascal Память с высокой пропускной способностью, Единая память, и NVLink.[3]

Смотрите также

Рекомендации

  1. ^ «NVIDIA GeForce GTX 880 и GTX 870 появятся этой осенью».
  2. ^ «5 вещей, которые вы должны знать о новой архитектуре графического процессора Maxwell». 2014-02-21.
  3. ^ а б c d «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal». Официальный блог NVIDIA.
  4. ^ а б c d е ж грамм Смит, Райан; Т. С., Ганеш (18 февраля 2014 г.). «Обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход». АнандТех. Архивировано из оригинал 18 февраля 2014 г.. Получено 18 февраля 2014.
  5. ^ а б c Райан Смит, Ганеш Т. С. «Maxwell: создан для энергоэффективности - обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход».
  6. ^ Кантер, Дэвид (1 августа 2016 г.). «Растеризация на основе плитки в графических процессорах Nvidia». Технологии реального мира. Получено 1 апреля, 2016.
  7. ^ «О рендеринге NVIDIA на основе плитки». Технология Power Up. 1 марта 2017 г.. Получено 9 мая, 2020.
  8. ^ «Динамическое суперразрешение улучшает ваши игры благодаря графике качества 4K на мониторах HD».
  9. ^ а б c «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2017-07-21. Получено 2014-09-19.CS1 maint: заархивированная копия как заголовок (связь)
  10. ^ «МИДА».
  11. ^ «Технология глобального освещения Voxel от Максвелла знакомит геймеров с новым поколением графики».
  12. ^ «Графические процессоры NVIDIA Maxwell: лучшие видеокарты для игр виртуальной реальности».
  13. ^ «Как VR Direct от Maxwell приближает виртуальную реальность к реальности». Официальный блог NVIDIA.
  14. ^ а б Райан Смит. «Вопросы отображения: HDMI 2.0, HEVC и VR Direct - Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  15. ^ «Многокадровое сглаживание обеспечивает лучшую производительность для геймеров Maxwell».
  16. ^ «Новые чипы nVidia Maxwell не поддерживают быстрый CSAA».
  17. ^ «Представляем удивительную новую видеокарту GeForce GTX 980 и 970».
  18. ^ Райан Смит. «Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  19. ^ а б c Райан Смит. «Архитектура Maxwell 2: Представляем GM204 - Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  20. ^ «Вот еще одна причина, по которой GeForce GTX 970 медленнее, чем GTX 980». Технический отчет.
  21. ^ «Максвелл: самый продвинутый графический процессор CUDA из когда-либо созданных». Параллельный Форалл.
  22. ^ Джеффри Тим (3 декабря 2015 г.). «Nvidia GTX970 имеет довольно серьезную ошибку выделения памяти». Lazygamer.net.
  23. ^ а б c d Райан Смит. «Погружение глубже: кроссбар памяти Maxwell 2 и разделы ROP - GeForce GTX 970: исправление характеристик и исследование распределения памяти».
  24. ^ Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X». АнандТех. п. 2. Получено 6 декабря 2015. ... ничтожная собственная скорость FP64 всего 1/32