Микроархитектура - Microarchitecture

Intel Core микроархитектура

В компьютерная инженерия, микроархитектура, также называется компьютерная организация и иногда сокращенно µарх или uarch, это способ данного архитектура набора команд (ISA) реализована в конкретном процессор.[1] Данная ISA может быть реализована с различными микроархитектурами;[2][3] Реализации могут отличаться из-за различных целей данного дизайна или из-за изменений в технологии.[4]

Компьютерная архитектура представляет собой сочетание микроархитектуры и архитектуры набора команд.

Отношение к архитектуре набора команд

Микроархитектура, организованная вокруг единого автобуса

ISA примерно такая же, как модель программирования процессора, которую видит язык ассемблера программист или составитель компилятора. ISA включает модель исполнения, регистры процессора, адреса и форматы данных среди прочего. Микроархитектура включает в себя составные части процессора и способы их взаимодействия и взаимодействия для реализации ISA.

Микроархитектура машины обычно представлена ​​в виде (более или менее подробных) диаграмм, которые описывают взаимосвязи различных элементов микроархитектуры машины, которые могут быть чем угодно, от отдельных вентилей и регистров до полных арифметико-логические устройства (ALU) и даже более крупные элементы. Эти диаграммы обычно разделяют путь к данным (где размещаются данные) и путь управления (который, можно сказать, управляет данными).[5]

Человек, разрабатывающий систему, обычно рисует конкретную микроархитектуру как своего рода диаграмма потока данных. Как блок-схема, на схеме микроархитектуры показаны такие элементы микроархитектуры, как арифметико-логический блок и зарегистрировать файл как единый схематический символ. Обычно диаграмма соединяет эти элементы стрелками, толстыми и тонкими линиями, чтобы различать шины с тремя состояниями (для которых требуется буфер с тремя состояниями для каждого устройства, которое управляет шиной), однонаправленные автобусы (всегда управляется одним источником, например, как адресная шина на более простых компьютерах всегда управляется регистр адреса памяти ) и отдельные линии управления. Очень простые компьютеры имеют организация единой шины данных - у них есть сингл трехгосударственный автобус. Схема более сложных компьютеров обычно показывает несколько шин с тремя состояниями, которые помогают машине выполнять больше операций одновременно.

Каждый элемент микроархитектуры, в свою очередь, представлен схематический описывая взаимосвязи логические ворота используется для его реализации. Каждый логический вентиль, в свою очередь, представлен принципиальная электрическая схема описание соединений транзисторов, используемых для его реализации, в частности логическая семья. Машины с разной микроархитектурой могут иметь одинаковую архитектуру набора команд и, таким образом, быть способны выполнять одни и те же программы. Новые микроархитектурные и / или схемотехнические решения, а также достижения в производстве полупроводников - это то, что позволяет новым поколениям процессоров достигать более высокой производительности при использовании того же ISA.

В принципе, одна микроархитектура может выполнять несколько разных ISA с незначительными изменениями в системе. микрокод.

Аспекты

Intel 80286 микроархитектура

В конвейерный путь к данным сегодня является наиболее часто используемым дизайном каналов данных в микроархитектуре. Этот метод используется в большинстве современных микропроцессоров, микроконтроллеры, и DSP. Конвейерная архитектура позволяет нескольким инструкциям перекрываться при выполнении, как на конвейере. Конвейер включает в себя несколько различных этапов, которые являются основополагающими для проектирования микроархитектуры.[5] Некоторые из этих этапов включают выборку инструкций, декодирование инструкций, выполнение и обратную запись. Некоторые архитектуры включают другие этапы, такие как доступ к памяти. Проектирование трубопроводов - одна из центральных задач микроархитектуры.

Исполнительные блоки также важны для микроархитектуры. Единицы исполнения включают арифметико-логические устройства (ALU), единицы с плавающей запятой (FPU), единицы загрузки / сохранения, прогнозирование ветвлений и SIMD. Эти блоки выполняют операции или вычисления процессора. Выбор количества исполнительных устройств, их задержки и пропускной способности - центральная задача проектирования микроархитектуры. Размер, время ожидания, пропускная способность и возможность подключения памяти в системе также являются решениями микроархитектуры.

Проектные решения на системном уровне, например, включать ли периферийные устройства, такие как контроллеры памяти, можно рассматривать как часть процесса проектирования микроархитектуры. Сюда входят решения об уровне производительности и возможности подключения этих периферийных устройств.

В отличие от архитектурного проектирования, где достижение определенного уровня производительности является основной целью, микроархитектурный дизайн уделяет больше внимания другим ограничениям. Поскольку решения при проектировании микроархитектуры напрямую влияют на то, что входит в систему, необходимо уделять внимание таким вопросам, как площадь / стоимость микросхемы, энергопотребление, логическая сложность, простота подключения, технологичность, простота отладки и тестируемость.

Микроархитектурные концепции

Циклы обучения

Для запуска программ все одно- или многочиповые процессоры:

  1. Прочтите инструкцию и расшифруйте ее
  2. Найдите любые связанные данные, которые необходимы для обработки инструкции
  3. Обработать инструкцию
  4. Запишите результаты

Цикл команд повторяется непрерывно, пока не будет отключено питание.

Многоцикловая микроархитектура

Исторически самые ранние компьютеры были многоцикловыми. Самые маленькие и недорогие компьютеры часто все еще используют эту технику. Многоцикловые архитектуры часто используют наименьшее общее количество логических элементов и разумное количество энергии. Они могут иметь детерминированную синхронизацию и высокую надежность. В частности, у них нет конвейера, который можно было бы остановить при выполнении условных переходов или прерываний. Однако другие микроархитектуры часто выполняют больше инструкций в единицу времени, используя то же семейство логики. При обсуждении «улучшенной производительности» улучшение часто связано с конструкцией с несколькими велосипедами.

В многоцикловом компьютере компьютер выполняет четыре шага последовательно за несколько тактов часов. Некоторые конструкции могут выполнять последовательность за два тактовых цикла, выполняя последовательные этапы на чередующихся фронтах тактовых импульсов, возможно, с более длинными операциями, происходящими за пределами основного цикла. Например, первая ступень по переднему фронту первого цикла, вторая ступень по заднему фронту первого цикла и т. Д.

В логике управления комбинация счетчика циклов, состояния цикла (высокий или низкий) и битов регистра декодирования команд точно определяют, что должна делать каждая часть компьютера. Чтобы разработать логику управления, можно создать таблицу битов, описывающую сигналы управления для каждой части компьютера в каждом цикле каждой инструкции. Затем эта логическая таблица может быть протестирована в программном симуляторе, выполняющем тестовый код. Если логическая таблица помещается в память и используется для фактического запуска реального компьютера, она называется микропрограмма. В некоторых компьютерных проектах логическая таблица оптимизируется в форму комбинационной логики, созданной из логических вентилей, обычно с использованием компьютерной программы, которая оптимизирует логику. Ранние компьютеры использовали специальную логику для управления, пока Морис Уилкс изобрел этот табличный подход и назвал его микропрограммированием.[6]

Повышение скорости выполнения

Эту простую на вид последовательность шагов усложняет тот факт, что иерархия памяти, которая включает кеширование, основная память и энергонезависимое хранилище, например жесткие диски (где находятся программные инструкции и данные), всегда был медленнее, чем сам процессор. Шаг (2) часто приводит к длительной (с точки зрения ЦП) задержке, пока данные прибывают через компьютерный автобус. Значительный объем исследований был направлен на разработку проектов, позволяющих максимально избежать этих задержек. На протяжении многих лет основной целью было параллельное выполнение большего числа инструкций, что повысило эффективную скорость выполнения программы. Эти усилия привели к появлению сложной логики и схемотехники. Первоначально эти методы могли быть реализованы только на дорогих мэйнфреймах или суперкомпьютерах из-за количества схем, необходимых для этих методов. По мере развития производства полупроводников все больше и больше этих технологий можно было реализовать на одном полупроводниковом кристалле. Увидеть Закон Мура.

Выбор набора инструкций

Наборы инструкций с годами изменились: от изначально очень простых до иногда очень сложных (в различных отношениях). За последние годы, архитектура загрузки-хранилища, VLIW и ЭПИЧЕСКИЙ типы были в моде. Архитектуры, имеющие дело с параллелизм данных включают SIMD и Векторы. Некоторые метки, используемые для обозначения классов архитектур ЦП, не являются особенно описательными, особенно метка CISC; многие ранние образцы задним числом обозначены "CISC "на самом деле значительно проще современных RISC-процессоров (в нескольких отношениях).

Однако выбор архитектура набора команд может сильно повлиять на сложность реализации высокопроизводительных устройств. Известная стратегия, использованная при разработке первых процессоров RISC, заключалась в упрощении инструкций до минимума индивидуальной семантической сложности в сочетании с высокой регулярностью и простотой кодирования. Такие унифицированные инструкции легко извлекались, декодировались и выполнялись конвейерным способом и простой стратегией по сокращению количества логических уровней для достижения высоких рабочих частот; кэш-память команд с компенсацией более высокой рабочей частоты и изначально низкой плотность кода в то время как большие наборы регистров использовались, чтобы исключить как можно большую часть (медленных) обращений к памяти.

Конвейерная обработка инструкций

Одним из первых и наиболее эффективных методов повышения производительности является использование конвейерная обработка инструкций. Ранние конструкции процессоров должны были выполнять все вышеперечисленные шаги для одной инструкции, прежде чем переходить к следующей. Большие части схемы оставались простаивающими на любом этапе; например, схема декодирования инструкций будет бездействовать во время выполнения и так далее.

Конвейерная обработка улучшает производительность, позволяя нескольким инструкциям проходить через процессор одновременно. В том же базовом примере процессор начнет декодировать (шаг 1) новую инструкцию, пока последняя ожидает результатов. Это позволило бы одновременно «выполнять» до четырех инструкций, в результате чего процессор выглядел в четыре раза быстрее. Хотя для выполнения любой одной инструкции требуется столько же времени (есть еще четыре шага), ЦП в целом "выводит" инструкции из эксплуатации намного быстрее.

RISC делает конвейеры меньше и намного проще в построении, четко разделяя каждый этап процесса инструкций и заставляя их занимать одинаковое количество времени - один цикл. Процессор в целом работает в сборочная линия мода, с инструкциями, приходящими с одной стороны, и результатами с другой. Благодаря уменьшенной сложности классический конвейер RISC конвейерное ядро ​​и кэш инструкций могут быть размещены на кристалле того же размера, который в противном случае поместился бы только в ядро ​​в конструкции CISC. Это была настоящая причина того, что RISC был быстрее. Ранние проекты, такие как SPARC и MIPS часто бегал в 10 раз быстрее, чем Intel и Motorola Решения CISC при той же тактовой частоте и цене.

Трубопроводы никоим образом не ограничиваются проектами RISC. К 1986 году первоклассная реализация VAX (VAX 8800 ) был сильно конвейерным проектом, немного предшествующим первым коммерческим проектам MIPS и SPARC. Большинство современных ЦП (даже встроенных ЦП) теперь являются конвейерными, а микрокодированные ЦП без конвейерной обработки видны только во встроенных процессорах с наиболее ограниченной площадью.[нужны примеры ] Большие машины CISC, от VAX 8800 до современных Pentium 4 и Athlon, реализуются как с микрокодом, так и с конвейерами. Усовершенствования конвейерной обработки и кэширования - это два основных достижения в области микроархитектуры, которые позволили производительности процессора идти в ногу со схемой, на которой они основаны.

Кеш

Незадолго до того, как усовершенствования в производстве микросхем позволили разместить на кристалле еще больше схем, дизайнеры начали искать способы их использования. Одним из наиболее распространенных способов было добавление постоянно увеличивающегося количества кэш-память on-die. Кэш - это просто очень быстрая память. Доступ к нему можно получить за несколько циклов, в отличие от многих, необходимых для «общения» с основной памятью. ЦП включает в себя контроллер кеша, который автоматизирует чтение и запись из кеша. Если данные уже находятся в кеше, они просто «появляются», тогда как если это не так, процессор «останавливается», пока контроллер кеша считывает их.

В RISC-проектах кеш-память начала добавляться в середине-конце 1980-х, часто всего 4 КБ. Это число со временем росло, и типичные процессоры теперь имеют не менее 512 КБ, в то время как более мощные процессоры поставляются с 1 или 2 или даже 4, 6, 8 или 12 МБ, организованными на нескольких уровнях. иерархия памяти. Вообще говоря, больший объем кеша означает большую производительность из-за уменьшения простоев.

Кэши и конвейеры идеально подходили друг другу. Раньше не имело особого смысла создавать конвейер, который мог бы работать быстрее, чем задержка доступа внешней памяти. Вместо этого использование кэш-памяти на кристалле означало, что конвейер мог работать со скоростью, равной задержке доступа к кеш-памяти, что намного меньше времени. Это позволило увеличить рабочие частоты процессоров намного быстрее, чем у внешней памяти.

Прогноз ветвления

Одним из препятствий для достижения более высокой производительности за счет параллелизма на уровне инструкций является остановка конвейера и сбросы из-за ветвлений. Обычно, будет ли выполнено условное ветвление, неизвестно до конца конвейера, поскольку условные переходы зависят от результатов, поступающих из регистра. С того момента, как декодер команд процессора определил, что он встретил команду условного перехода, до момента, когда значение решающего регистра может быть считано, конвейер должен быть остановлен на несколько циклов, или, если это не так, и ветвление взято, трубопровод нужно промыть. По мере увеличения тактовой частоты увеличивается глубина конвейера, и некоторые современные процессоры могут иметь 20 или более ступеней. В среднем каждая пятая выполняемая инструкция представляет собой ветвь, поэтому без какого-либо вмешательства это приводит к большой задержке.

Такие методы, как предсказание ветвления и спекулятивное исполнение используются для уменьшения этих штрафов за ветвь. Прогнозирование ветвления - это когда оборудование делает обоснованные предположения о том, будет ли выбрана конкретная ветвь. На самом деле одна или другая сторона ветви будет называться гораздо чаще, чем другая. Современные проекты имеют довольно сложные системы статистического прогнозирования, которые отслеживают результаты прошлых ветвей, чтобы предсказать будущее с большей точностью. Предположение позволяет оборудованию выполнять предварительную выборку инструкций, не дожидаясь чтения регистра. Спекулятивное выполнение - это еще одно усовершенствование, при котором код по предсказанному пути не только предварительно выбирается, но и выполняется до того, как станет известно, следует переходить или нет. Это может дать лучшую производительность, когда предположение хорошее, с риском огромного штрафа, когда предположение плохое, потому что инструкции должны быть отменены.

Суперскаляр

Даже со всей дополнительной сложностью и затворами, необходимыми для поддержки изложенных выше концепций, усовершенствования в производстве полупроводников вскоре позволили использовать еще больше логических вентилей.

На схеме выше процессор обрабатывает части одной инструкции за раз. Компьютерные программы могли бы выполняться быстрее, если бы несколько инструкций обрабатывались одновременно. Это то, что суперскалярный процессоры достигают этого, воспроизводя функциональные блоки, такие как ALU. Тиражирование функциональных единиц стало возможным только тогда, когда площадь кристалла процессора с одним выпуском больше не выходила за пределы того, что могло быть надежно изготовлено. К концу 1980-х годов на рынок начали выходить суперскалярные конструкции.

В современных конструкциях часто встречаются две единицы загрузки, одно хранилище (многие инструкции не имеют результатов для сохранения), две или более целочисленных математических единиц, две или более единиц с плавающей запятой и часто SIMD единица какая-то. Логика выдачи инструкций усложняется за счет чтения огромного списка инструкций из памяти и передачи их различным исполнительным блокам, которые в этот момент простаивают. Затем результаты собираются и переупорядочиваются в конце.

Внеочередное исполнение

Добавление кэшей снижает частоту или продолжительность остановок из-за ожидания выборки данных из иерархии памяти, но не избавляет от этих остановок полностью. В ранних разработках промах в кеше заставит контроллер кеша останавливать процессор и ждать. Конечно, в программе может быть какая-то другая инструкция, данные которой является доступный в кеше в этот момент. Внеочередное исполнение позволяет обрабатывать эту готовую инструкцию, пока старая инструкция ожидает в кэше, а затем переупорядочивает результаты, чтобы казалось, что все произошло в запрограммированном порядке. Этот метод также используется, чтобы избежать других остановок зависимости операндов, таких как инструкция, ожидающая результата операции с плавающей запятой с большой задержкой или других многоцикловых операций.

Регистрация переименования

Переименование регистров - это метод, используемый для предотвращения ненужного сериализованного выполнения программных инструкций из-за повторного использования тех же регистров этими инструкциями. Предположим, у нас есть две группы инструкций, которые будут использовать одинаковые регистр. Один набор инструкций выполняется первым, чтобы оставить регистр для другого набора, но если другой набор назначен другому аналогичному регистру, оба набора инструкций могут выполняться параллельно (или) последовательно.

Многопроцессорность и многопоточность

Компьютерные архитекторы оказались в тупике из-за растущего несоответствия рабочих частот ЦП и DRAM время доступа. Ни один из методов, использующих параллелизм на уровне инструкций (ILP) в одной программе, не мог компенсировать длительные задержки, возникавшие при извлечении данных из основной памяти. Кроме того, большое количество транзисторов и высокие рабочие частоты, необходимые для более совершенных методов ILP, требовали таких уровней рассеиваемой мощности, которые уже нельзя было охлаждать дешево. По этим причинам новые поколения компьютеров начали использовать более высокие уровни параллелизма, которые существуют за пределами одной программы или программный поток.

Эту тенденцию иногда называют вычислительная мощность. Эта идея возникла на рынке мэйнфреймов, где онлайн-обработка транзакций подчеркнул не только скорость выполнения одной транзакции, но и способность обрабатывать огромное количество транзакций. В связи с тем, что за последнее десятилетие значительно выросли приложения на основе транзакций, такие как сетевая маршрутизация и обслуживание веб-сайтов, компьютерная индустрия вновь подчеркнула проблемы емкости и пропускной способности.

Один из способов достижения этого параллелизма - это многопроцессорность системы, компьютерные системы с несколькими процессорами. Когда-то зарезервировано для высокого класса мэйнфреймы и суперкомпьютеры, маломасштабные (2–8) многопроцессорные серверы стали обычным явлением для рынка малого бизнеса. Для крупных корпораций распространены крупномасштабные (16–256) мультипроцессоры. Даже персональные компьютеры с несколькими процессорами появились с 1990-х годов.

Благодаря дальнейшему уменьшению размеров транзисторов с развитием полупроводниковой технологии, многоядерные процессоры появились там, где несколько процессоров реализованы на одном кремниевом чипе. Первоначально использовался в микросхемах, нацеленных на рынки встраиваемых систем, где более простые и небольшие ЦП позволили бы разместить несколько экземпляров на одном кристалле. К 2005 году полупроводниковые технологии позволили установить два высокопроизводительных процессора для настольных ПК. CMP чипы, подлежащие выпуску в объеме. Некоторые конструкции, такие как Sun Microsystems ' UltraSPARC T1 вернулись к более простым (скалярным, упорядоченным) конструкциям, чтобы вместить больше процессоров на одном кристалле кремния.

Еще одна техника, которая в последнее время стала более популярной, - это многопоточность. При многопоточности, когда процессору необходимо извлечь данные из медленной системной памяти, вместо того, чтобы ждать прибытия данных, процессор переключается на другую программу или программный поток, готовый к выполнению. Хотя это не ускоряет конкретную программу / поток, но увеличивает общую пропускную способность системы за счет сокращения времени простоя процессора.

Концептуально многопоточность эквивалентна переключатель контекста на уровне операционной системы. Разница в том, что многопоточный ЦП может переключать потоки за один цикл ЦП вместо сотен или тысяч циклов ЦП, которые обычно требуются для переключения контекста. Это достигается путем репликации аппаратного обеспечения состояния (например, зарегистрировать файл и счетчик команд ) для каждого активного потока.

Дальнейшее улучшение одновременная многопоточность. Этот метод позволяет суперскалярным процессорам выполнять инструкции из разных программ / потоков одновременно в одном цикле.

Смотрите также

использованная литература

  1. ^ Учебные планы для программ бакалавриата по компьютерной инженерии (PDF). Ассоциация вычислительной техники. 2004. с. 60. Комментарии к архитектуре и организации компьютера: Архитектура компьютера - ключевой компонент компьютерной инженерии, и практикующий компьютерный инженер должен иметь практическое понимание этой темы ...
  2. ^ Мурдокка, Майлз; Heuring, Винсент (2007). Архитектура и организация компьютера, комплексный подход. Вайли. п. 151. ISBN  9780471733881.
  3. ^ Клементс, Алан. Принципы компьютерного оборудования (4-е изд.). С. 1–2.
  4. ^ Флинн, Майкл Дж. (2007). «Введение в архитектуру и машины». Архитектура компьютера Конвейерная архитектура и проектирование параллельных процессоров. Джонс и Бартлетт. С. 1–3. ISBN  9780867202045.
  5. ^ а б Хеннесси, Джон Л.; Паттерсон, Дэвид А. (2006). Компьютерная архитектура: количественный подход (4-е изд.). Морган Кауфманн. ISBN  0-12-370490-1.
  6. ^ Уилкс, М. В. (1969). «Рост интереса к микропрограммированию: обзор литературы». Опросы ACM Computing. 1 (3): 139–145. Дои:10.1145/356551.356553. S2CID  10673679.

дальнейшее чтение