Raft (алгоритм) - Raft (algorithm)

Плот это консенсус алгоритм, разработанный как альтернатива Паксос семейство алгоритмов. Он должен был быть более понятным, чем Paxos, благодаря разделению логики, но он также формально признан безопасным и предлагает некоторые дополнительные функции.[1] Raft предлагает универсальный способ распространения Государственный аппарат через кластер вычислительных систем, гарантируя, что каждый узел в кластере согласовывает одну и ту же серию переходов состояний. Он имеет ряд эталонных реализаций с открытым исходным кодом, с реализациями полной спецификации в Идти, C ++, Ява, и Scala.[2] Он назван в честь «Надежный, тиражируемый, избыточный и отказоустойчивый».[3]

Плот - это не Византийский разлом толерантный алгоритм: узлы доверяют избранному лидеру.[1]

Основы

Raft достигает консенсуса через избранного лидера. Сервер в кластере рафта - это либо лидер или последователь, и может быть кандидат в конкретном случае выборов (лидер недоступен). Лидер отвечает за репликацию журнала для последователей. Он регулярно информирует последователей о своем существовании, отправляя контрольное сообщение. У каждого ведомого есть время ожидания (обычно от 150 до 300 мс), в течение которого он ожидает тактового сигнала от ведущего. Тайм-аут сбрасывается при получении контрольного сигнала. Если пульс не поступает, ведомый меняет свой статус на кандидата и начинает выборы лидера.[1][4]

Подход к проблеме консенсуса в Raft

Raft реализует консенсус с помощью лидерского подхода. В кластере есть один и только один избранный лидер, который полностью отвечает за управление репликацией журналов на других серверах кластера. Это означает, что лидер может принять решение о размещении новых записей и установлении потока данных между ним и другими серверами без консультации с другими серверами. Лидер ведет до тех пор, пока он не потерпит неудачу или не отключится, и в этом случае будет избран новый лидер.

Проблема консенсуса разбита в Raft на две относительно независимые подзадачи, перечисленные ниже.

Выборы лидера

Когда существующий лидер выходит из строя или когда алгоритм инициализируется, необходимо выбрать нового лидера.

В этом случае новый срок начинается в кластере. Срок - это произвольный период времени на сервере, на который необходимо избрать нового лидера. Каждый семестр начинается с выборов лидера. Если выборы завершены успешно (т. Е. Избран один лидер), срок продолжается в обычном режиме, организованном новым лидером. Если выборы не удались, начинается новый срок с новыми выборами.

Выборы лидера начинаются кандидат сервер. Сервер становится кандидатом, если он не получает сообщений от лидера в течение периода, называемого тайм-аут выборов, поэтому предполагается, что действующего лидера больше нет. Он начинает выборы, увеличивая счетчик сроков, голосуя за себя как нового лидера и отправляя сообщение всем другим серверам с просьбой проголосовать. Сервер будет голосовать только один раз за срок, в порядке очереди. Если кандидат получает сообщение с другого сервера с числом терминов, превышающим текущий срок кандидата, то выборы кандидата не проходят, и кандидат становится последователем и признает лидера легитимным. Если кандидат получает большинство голосов, он становится новым лидером. Если ни то, ни другое не происходит, например, из-за разделения голосов, начинается новый срок и начинаются новые выборы.[1]

Raft использует случайный тайм-аут выборов, чтобы обеспечить быстрое решение проблем с разделением голосов. Это должно снизить вероятность разделения голосов, потому что серверы не станут кандидатами одновременно: один сервер выйдет из строя, выиграет выборы, затем станет лидером и отправит контрольные сообщения другим серверам, прежде чем кто-либо из последователей сможет стать кандидатом. .[1]

Репликация журнала

Лидер отвечает за репликацию журнала. Он принимает запросы клиентов. Каждый клиентский запрос состоит из команды, которая должна выполняться реплицированными конечными автоматами в кластере. После добавления в журнал лидера в виде новой записи каждый из запросов пересылается подписчикам в виде сообщений AppendEntries. В случае недоступности подписчиков лидер повторяет сообщения AppendEntries бесконечно, пока запись журнала в конечном итоге не будет сохранена всеми подписчиками.

Как только лидер получает подтверждение от большинства своих последователей, что запись была реплицирована, лидер применяет запись к своему локальному конечному автомату, и запрос считается преданный идее.[1][4] Это событие также фиксирует все предыдущие записи в журнале лидера. Как только ведомый узнает, что запись в журнале зафиксирована, он применяет ее к своему локальному конечному автомату. Это гарантирует согласованность журналов между всеми серверами в кластере, обеспечивая соблюдение правила безопасности сопоставления журналов.

В случае отказа лидера, журналы могут остаться несогласованными, при этом некоторые журналы старого лидера не будут полностью реплицированы через кластер. Затем новый лидер исправит несоответствие, заставляя последователей дублировать свой собственный журнал. Для этого для каждого из своих последователей лидер сравнит свой журнал с журналом подписчика, найдет последнюю запись, с которой они согласны, затем удалит все записи, следующие за этой важной записью в журнале подписчиков, и заменит ее своей собственные записи журнала. Этот механизм восстановит согласованность журналов в кластере, подверженном сбоям.

Безопасность

Правила безопасности на плоту

Raft гарантирует каждое из этих свойств безопасности:

  • Безопасность выборов: за один срок может быть избран не более одного лидера.
  • Только выноски: лидер может только добавлять новые записи в свои журналы (он не может ни перезаписывать, ни удалять записи).
  • Соответствие журнала: если два журнала содержат запись с одним и тем же индексом и термином, то журналы идентичны во всех записях до данного индекса.
  • Полнота лидера: если запись в журнале совершена в определенный срок, то она будет присутствовать в журналах лидеров с этого срока
  • Безопасность государственной машины: если сервер применил конкретную запись журнала к своему конечному автомату, то никакой другой сервер не может применить другую команду для того же журнала.

Первые четыре правила гарантированы деталями алгоритма, описанного в предыдущем разделе. Безопасность Государственного аппарата гарантируется ограничением избирательного процесса.

Безопасность государственной машины

Это правило обеспечивается простым ограничением: кандидат не может выиграть выборы, если его журнал не содержит всех зафиксированных записей. Чтобы быть избранным, кандидат должен связаться с большей частью кластера, и, учитывая правила фиксации журналов, это означает, что каждая зафиксированная запись будет присутствовать по крайней мере на одном из серверов, с которыми кандидаты связываются.

Raft определяет, какой из двух журналов (переносимых двумя отдельными серверами) является более актуальным, сравнивая индексный термин последних записей в журналах. Если в журналах есть последняя запись с другими условиями, то журнал с более поздним сроком является более актуальным. Если журналы заканчиваются одним и тем же термином, то тот журнал, который длиннее, является более актуальным.

В Raft запрос от кандидата к избирателю включает информацию о журнале кандидата. Если его собственный журнал более актуален, чем журнал кандидата, избиратель отказывает в голосовании кандидату. Эта реализация обеспечивает правило безопасности конечного автомата.

Сбой подписчика

Если последователь выйдет из строя, AppendEntries и голосование запросы, отправленные другими серверами, завершатся ошибкой. Такие сбои обрабатываются серверами, которые бесконечно пытаются добраться до сбитого ведомого. Если последователь перезапустится, ожидающие запросы будут выполнены. Если запрос уже был учтен до сбоя, перезапущенный последователь просто проигнорирует его.

Сроки и доступность

В Raft решающее значение имеет выбор времени для выбора и поддержания устойчивого лидера с течением времени, чтобы иметь идеальную доступность кластера. Стабильность обеспечивается соблюдением требование времени алгоритма:

broadcastTime << выборыTimeout << MTBF

  • broadcastTime это среднее время, которое требуется серверу для отправки запроса на каждый сервер в кластере и получения ответов. Это относительно используемой инфраструктуры.
  • MTBF (среднее время наработки на отказ) это среднее время наработки на отказ сервера. Это также связано с инфраструктурой.
  • выборыTimeout такое же, как описано в разделе «Выборы лидера». Это то, что должен выбрать программист.

Типичное число для этих значений может составлять от 0,5 мс до 20 мс для broadcastTime, что означает, что программист устанавливает выборыTimeout где-то между 10 мс и 500 мс. Между сбоями одного сервера может пройти несколько недель или месяцев, что означает, что значения приемлемы для стабильной работы кластера.

Рекомендации

  1. ^ а б c d е ж Онгаро, Диего; Остерхаут, Джон (2013). «В поисках понятного алгоритма консенсуса» (PDF).
  2. ^ «Алгоритм консенсуса Raft». 2014.
  3. ^ Почему такое название «Плот»?
  4. ^ а б «Raft: понятный распределенный консенсус». Получено 2015-03-14.

внешняя ссылка