Архитектура мельницы - Mill architecture

Архитектура мельницы
ДизайнерИван Годар
Mill Computing, Inc.
Биты64
ДизайнЛенточная машина
ОткрытьНет
Регистры
33

В Мельница архитектура[1] это роман ленточная машина -основан компьютерная архитектура для общего назначения вычисление. Он находится в разработке с 2003 года Иваном Годаром и его стартапом Mill Computing, Inc., ранее называвшимся Нестандартные вычисления, в Восточный Пало-Альто, Калифорния.[2][3][4][5] Mill Computing утверждает, что у него "10-кратное увеличение мощности / производительности для однопоточных операций по сравнению с обычными вышел из строя суперскалярный архитектуры "но" запускает те же программы без перезаписи ".[6]

Компания Mill Computing была основана людьми, которые ранее работали вместе в семье цифровые сигнальные процессоры (DSP), Philips Trimedia.

Подход

Разработчики утверждают, что повышение мощности и стоимости достигается за счет адаптации DSP-подобного процессора с глубоким конвейером для универсального кода. Временные риски от ветвей и объем памяти говорят, что доступ осуществляется не через спекулятивное исполнение, конвейерная обработка, и другие позднее связывание, но статически запланированная логика. Утверждается, что заявленные улучшения в мощности и площади связаны с отказом от оборудования для динамической оптимизации: переименования регистров, управления опасностями выполнения вне очереди и динамического тайник оптимизация. Чтобы заменить это оборудование, каждый процессор Mill спроектирован таким образом, чтобы время и поведение доступа к памяти были предсказуемы для отдельных циклов, так что все планирование подлежит очень строгому контролю.оптимизирующий компилятор.

Очень длинные командные слова и инструкции разделенного потока

Милл использует очень длинное командное слово Кодирование в стиле (VLIW) для размещения до 33 простых операций, также известных как коды операций в общих словах инструкции. Эти слова не являются смежными в памяти, а разбиваются на два пакета инструкций и помещаются в два потока данных. Каждый поток обрабатывается в основном независимым декодером с собственным кешем инструкций верхнего уровня.

Инструкции расположены в расширенные базовые блоки, и декодирование обеих половин начинается с одного и того же адреса в середине блока. По мере декодирования пакетов инструкций счетчик команд в одном потоке увеличивается, а счетчик в другом декодере уменьшается [7]

Каждый пакет инструкций имеет заголовок, содержащий счетчик байтов инструкции и смещение пакетов кода операции внутри. Mill использует 3 пакета на инструкцию. Каждый код операции в пакете имеет фиксированную длину в битах и ​​управляет конкретным слотом выполнения или конвейером. Однако в каждом пакете есть переменное количество фактически закодированных инструкций. Каждый слот выполнения может начать спекулятивно выполнять свое поле инструкции в буфере пакета, и если позже будет обнаружено, что он находится вне фактического пакета инструкций, слот останавливается, а результаты отбрасываются.

Если один из декодеров не имеет инструкций в своем потоке, задержка без операции может быть выдана небольшим элементом данных фиксированного формата, расположенным в отверстии выравнивания пакета инструкций в противоположном декодере. Это помогает поддерживать плотность кода за счет уменьшения количества кодов отсутствия работы в коде Милля.

Ремень, конвейерная система регистров

Иван Годар, разработчик Mill, цитирует исследования, обнаружившие, что во время работы стандарта зарегистрировать машину, значений, хранящихся в регистры процессора: 6% не доступны никогда; 80% - один раз; и только 14%, более одного раза.

Таким образом, комбинат использует новую схему адресации временных регистров, Ремень по аналогии с конвейерная лента. Операнды арифметико-логические устройства (ALU) и другие функциональные блоки могут быть взяты из любого места на ремне, и результат вычислений будет упавший (хранится) в переднем положении ремня, продвигая ремень, чтобы освободить место. Поскольку длина ремня фиксированная, то капли спереди совпадают с более старыми операндами, падающими сзади; Отодвинутые операнды становятся недоступными и должны быть явно сохранены, если они все еще необходимы для дальнейшей работы. Большинство операций Набор инструкций работать только с данными на ленте, а не с регистрами данных или ячейками основной памяти.[8]

Для типичной инструкции вроде Добавить, оба операнда аргумента приходят из явно названных позиций на ленте, а результат отбрасывается вперед, готовый для следующей инструкции. Операции с несколькими результатами просто сбрасывают больше значений в передней части ленты. Например, разделение может произвести частное и остаток. Операции с переполнением могут давать результаты двойной ширины. Большинство инструкций по ремню закодированы как код операции (код операции ) и два положения ремня без дополнительных полей для указания регистра результата, адреса памяти или литеральной константы. Это кодирование легко расширяется для более сложных операций с более чем двумя входами или более чем одним результатом. Постоянные операнды отбрасываются отдельными немедленно загрузить инструкции. Полный доступ к программным переменным в главном оперативная память (RAM) выделена в отдельные нагрузка или же хранить инструкции, содержащие один адрес памяти, или какой-то способ вычислить этот адрес из операндов ремня.

Все ленточные машины имеют варианты загрузить / хранить коды операций для доступа локальные переменные и куча. Это может быть смещение, указатель на ленте или различные специализированные базовые регистры. Точно так же будут инструкции для перехода к адресу, взятому с ленты, вместе с переходами относительно счетчика программ.

Временная адресация

Поскольку каждое падение результата перемещает предыдущее содержимое ленты на более поздние позиции в очереди, данный операнд постоянно меняет свою позицию (и, следовательно, адрес) в результате более позднего выполнения. Фактически, доступ к операнду в нулевой позиции - это запрос самого последнего значения, сброшенного на ленту, в то время как (например) ссылка на пятую позицию относится к шестому последнему сбросу. Таким образом, адреса операндов ремня отражают историю ремня во времени. Это временная адресация. Программистам трудно отслеживать содержимое ленты и, следовательно, адреса операндов при написании кода сборки для ленточной машины. Однако компилятору легко отслеживать изменяющееся содержимое и выдавать правильные адреса позиций в сгенерированном коде.

Разлить и заполнить

Ремень имеет фиксированную длину и может быть слишком коротким, чтобы удерживать все активные переходные операнды до того, как они оттолкнутся от конца. Если операнд требуется дольше, чем срок его службы, его необходимо сохранить, пока он еще находится на ленте (разлив), а затем вернуть на ленту, когда он снова понадобится (заполнение). Эта ситуация эквивалентна необходимости сбросить регистры в память, когда в программе заканчиваются регистры в машине с регистрами общего назначения. Разбавленные операнды могут быть записаны в память с использованием обычных инструкций сохранения и восстановлены с использованием обычных инструкций загрузки, или разлив и заполнение могут использовать специализированное хранилище и связанные операции, которые выполняются быстрее или предлагают другие преимущества по сравнению с загрузкой и сохранением.

Свобода от опасности

Операнды на ленте доступны только для чтения. Новые результаты не перезаписывают предыдущие значения. Ремень, таким образом, разовое назначение структура, и невосприимчив к опасность для данных с этим должны справляться современные вышедшие из строя машины общего регистра.

Компактный объектный код

Плотный машинный код была очень ценной в 1960-х, когда основная память была очень дорогостоящей и ограниченной даже на мэйнфреймы. Это снова стало важным для изначально крошечных воспоминаний о миникомпьютеры, а потом микропроцессоры. Плотность остается важной сегодня для приложений смартфон, или загружаются в браузеры через медленное Интернет-соединение, а в только для чтения памяти (ROM) для встроенных приложений. Более общим преимуществом повышенной плотности является повышенная эффективность кеширования и предварительной выборки инструкций.

Ленточные машины имеют меньшие инструкции, чем машины на основе регистров, из-за того, что для результатов не требуется адрес назначения. Эта экономия может иметь большое значение для форматов инструкций фиксированной длины, которые обычно используют ширину инструкций, равную степени двойки. Если имеется тридцать два адресных элемента (регистры на машине с общим регистром, положения ремня на конвейерной машине), то адрес каждого элемента занимает пять битов в инструкции, а для трехадресного формата общего регистра требуется 15 бит. машина, но только 10 бит с использованием двухадресного формата ленточной машины. Поскольку биты также необходимы для кода операции и другой информации в инструкции, ширина инструкции (ограниченная степенью двойки) часто определяет максимальное количество адресуемых элементов, возможное в конструкции. Обычно команда ленточного станка может поддерживать кодирование удвоенного количества адресуемых элементов по сравнению с машиной общего регистра с той же шириной команд. Аналогичный выигрыш наблюдается в кодировании команд переменной длины.

В целом код ленточной машины менее компактен, чем для стековых машин, которые не используют адреса операндов, но часто должны вводить инструкции управления стеком, ненужные на ленточной машине. Инструкции для аккумуляторов не дополняются несколькими полями регистров, вместо этого они используют стек возврата и не требуют дополнительных инструкций обращения к памяти.

Выполнение

В то время как ленточная машина представляет очередь операндов как программную модель, архитектура мельницы не реализует ленту как физическую очередь (регистр сдвига ) в реализованном оборудовании. Вместо этого это семантическое представление обходной сети, присутствующей в большинстве быстрых компьютеров, которая перехватывает конвейерный доступ к регистрам, направляя их непосредственно к исполнительным модулям, которым нужен результат. Количество регистров достаточно мало: те, которые необходимы для конвейерной обработки вывода каждого функционального блока, и по одному для каждого возможного элемента ленты. Небольшое количество регистров уменьшает размер, мощность и сложность сети для доступа к регистрам. Значения данных в реальном времени хранятся в удобно адресуемых физических ресурсах (отдельные регистры, файлы регистров, статическая оперативная память (SRAM) или пересылка операндов из функциональных блоков) и, как правило, не перемещаются в течение всего срока службы ремня. Декодер инструкций сопоставляет логические положения ремня с физическими местоположениями. Отображение обновляется, чтобы отразить изменения логической позиции, возникающие из-за недавно отброшенных результатов.

Патент США 9513921  на пояс был подарен в 2016 году.

Использование метаданных

В зависимости от типа и успешности операций по загрузке завод также назначает метаданные для каждого элемента ремня, включая статус, ширину и количество векторизации. Операции работают с описанным элементом. Таким образом, ширина и количество векторов не являются частью кодирования команд. Если операция завершилась неудачно, отображается информация об ошибке. хешированный и помещается в место назначения вместе с его метаданными для использования при отладке.

The Mill также использует метаданные для поддержки спекулятивного исполнения и конвейерной обработки. Например, если операция векторной нагрузки завершится неудачно (например, часть ее покидает защитную границу), эти части входа в ремень будут отмечены как не результат (NaR) в метаданных. Это позволяет спекулятивно выполняемому векторному коду имитировать поведение сбоя по каждому элементу вектора. Элементы NaR создают ошибку только в том случае, если происходит попытка их сохранения или выполнения с ними другого неспекулятивного кода. Если они никогда не используются, неисправности не возникает.

Архитектура Mill, похоже, способна уменьшить размер и сложность конвейерного кода цикла. В конвейерном видео каждая операция должна была обрабатываться со специальным значением операнда, называемым Никто (не путать с не число в форматы с плавающей запятой ), который имеет специальную семантику для этой цели: операции, в которых хотя бы один аргумент является Никто обычно производят Никто как выход, а когда Никто пытается сохранить в памяти, это хранилище (или часть хранилища для векторов, где только некоторые элементы Никто) игнорируется, оставляя эту ячейку памяти нетронутой. Этот особенный Никто value реализуется не как зарезервированный битовый шаблон, а с использованием дополнительных битов метаданных, связанных с каждым элементом пояса. В первых нескольких итерациях конвейерного цикла код удаляет группу Нет на пояс с помощью специального выходить на пенсию операция, которая сообщает ЦП, сколько элементов должно упасть в этом цикле (то есть сколько реальных элементов упадет на ленту из предыдущих запланированных операций, выходить на пенсию падает только достаточно дополнительных Нет чтобы довести общее количество капель в этом цикле до запрошенного количества - после достижения устойчивого состояния обычно нет Нет будет сгенерирован). Таким образом, на ремне всегда будет ожидаемое количество новых элементов для работы с обычным корпусом установившейся петли, с Нет действует как заполнитель для данных, которые не готовы. Поскольку операции, запланированные на предыдущих итерациях цикла, начинают сбрасывать результаты, пояс начинает каждую новую итерацию цикла с большим количеством реальных элементов данных и меньшим количеством заполнителей. Нет (правила упорядочивания для одновременного удаления из операций с разной задержкой и выходить на пенсию убедитесь, что по мере появления более реальных результатов в новых итерациях они всегда занимают позицию, которая имела Никто во всех предыдущих итерациях, так что каждая операция может использовать один и тот же входной номер ремня для всех итераций). Между тем, операции сохранения в теле цикла получают Никто значения до тех пор, пока не будет достигнуто установившееся состояние цикла, и поэтому не действуют до тех пор, пока реальные результаты не будут доступны для сохранения. Таким образом, тело цикла, которое обрабатывает установившееся состояние конвейерного кода, включает соответствующие выходить на пенсию операций, действует как собственный код пролога. Обработка конечных элементов через конвейер обычно может быть завершена, если этот же цикл намеренно выполняет дополнительные итерации, так что оставшиеся запланированные операции успевают завершиться и быть сохранены в памяти, потому что почти все операции не имеют побочных эффектов (попытка недопустима чтение из памяти просто производит NaR значение на ленте, которое не вызывает неисправности, если оно не используется затем в операции сохранения или управления потоком).

Для конвейера вложенных циклов Mill обрабатывает каждый цикл почти как вызов подпрограммы с автоматическим сохранением и восстановлением соответствующего состояния (пояс и блокнот).

Поэтапное исполнение

Команды фрезерования выполняются поэтапно, при этом до 33 операций в одном командном слове выдаются за три такта. Фазирование фрезерования может захватывать очень короткие трассы и потоки данных за одну команду, и, как утверждается, улучшает доступный параллелизм на уровне инструкций, особенно вокруг потока управления. Каждая фаза перекрывается разными фазами из соседних инструкций. Фазы также тесно связаны с компоновкой пакета декодирования и позволяют аппаратному обеспечению декодирования быть более простым и упорядоченным.

В инструкции сначала происходит фаза чтения. Это операции, которые не требуют ввода и создают вывод, доступный в следующем цикле. Эти значения сбрасываются непосредственно из потока инструкций или из чтения статических байтовых адресов блокнота.

Далее следует этап операции или вычислений, который принимает входные данные от ленты и передает значения на ленты, такие как нагрузки или арифметические операции. Выходные данные этапа вычислений могут потребовать несколько циклов для вывода из эксплуатации, сбрасываемых на конвейер с аппаратной статической задержкой и порядком.

Затем этап записи считывает значение с ремня и изменяет глобальное состояние, но не создает значения ремня. Здесь бывают магазины и филиалы, а также записывает на электронные адреса.

Есть еще несколько концептуальных фаз, которые не являются частью трехциклового перекоса. Операция выбора эквивалентна тернарному оператору if (?: ) и реализован в обход сетевого управления между фазами вычислений и записи и не добавляет вычислительной задержки. Фаза вызова реализуется в том же месте, и аппаратное обеспечение сохраняет / восстанавливает состояние таким образом, что из программной модели в вызываемом объекте не произошло никаких циклов, даже если до возврата могло пройти много реальных циклов.

Семейные черты

В разработке находится несколько версий процессора Mill, включая Банка (низкое использование) в Золото (высокопроизводительное использование). По оценкам компании, двухъядерные чипы Gold, реализованные с 28 нм литография может работать на частоте 1,2 ГГц с типичным Тепловая схема питания (TDP) из 28 ватт и производительность 79 миллиардов операций в секунду.[7]

Различные версии Mill предназначены для разных рынков и, как говорят, имеют разную архитектуру набора команд, разное количество исполнительных блоков, разное время конвейера и, следовательно, очень разные двоичные файлы. Чтобы учесть это, компиляторы должны выдавать Технические характеристики который затем перекомпилируется в исполняемый двоичный файл с помощью рекомпилятора, поставляемого компанией Mill Computing. Таким образом, распространяемый код адаптируется к особенностям конвейера конкретной модели, двоичного кодирования и т. Д.

Разработка такого количества наборов инструментов и конструкций процессоров может оказаться непрактично дорогостоящей. Иван Годар сказал, что план Милля состоит в том, чтобы разработать программные инструменты, которые принимают спецификацию для процессора Mill, а затем написать программные инструменты (ассемблер, бэкэнд компилятора и симулятор), а также Verilog описание процессора. В демонстрационном видео Милл утверждал, что показал ранние версии программного обеспечения для создания ассемблера и симулятора. Большая часть компилятора называется портом LLVM. По состоянию на 2014 г., это неполно.

Рекомендации

  1. ^ https://millcomputing.com/technology/docs/
  2. ^ «Оборудование, устройства хранения и периферийные устройства ETTechnology: обзор компании Mill Computing, Inc.». Bloomberg. Bloomberg L.P.23 июня 2016 г.. Получено 22 июн 2016.
  3. ^ Крафт, Калеб (20 ноября 2013 г.). «Мельница: Иван Годар объясняет революционный новый процессор». EETimes. А. Получено 23 июн 2016.
  4. ^ Годар, Иван (29 мая 2013 г.). «Напиток из шланга: как ЦП Mill декодирует более 30 инструкций за цикл». Стэнфордский университет, факультет электротехники. Стэндфордский Университет. Получено 23 июн 2016.
  5. ^ Бенчофф, Брайан (2 августа 2013 г.). "Архитектура ЦП Mill". Hackaday. Получено 24 июн 2016.
  6. ^ Архитектура ЦП Mill, спецификации (8 из 9). 2014-05-24. Получено 2014-07-23.
  7. ^ а б Гвеннап, Линли (5 августа 2013 г.). "Выход из коробки". Отчет микропроцессора: наблюдение за процессором. Группа Линли. Получено 23 июн 2016.
  8. ^ http://millcomputing.com/docs/belt/

внешняя ссылка