Btrfs - Btrfs - Wikipedia

Btrfs
Разработчики)Facebook, Fujitsu, Fusion-IO, Intel, Linux Foundation, Netgear, Корпорация Oracle, Красная шляпа, STRATO AG, и SUSE[1]
Полное имяФайловая система B-tree
ВведеноЯдро Linux 2.6.29, март 2009 г.; 11 лет назад (2009-03)
Структуры
Содержимое каталогаB-дерево
Размещение файловЭкстенты
Пределы
Максимум. размер тома16 EiB[2][а]
Максимум. размер файла16 EiB[2][а]
Максимум. количество файлов264[b][3]
Максимум. длина имени файла255 ASCII символов (меньше для многобайтовых кодировки символов Такие как Unicode )
Допустимые символы в именах файловВсе, кроме '/' и NUL ('\0')
Функции
Даты записаныСоздание (время),[4] модификация (mtime), модификация атрибута (ctime) и доступ (atime)
Диапазон дат64-битное смещение int со знаком от 1970-01-01T00: 00: 00Z[5]
Разрешение датыНаносекунда
АтрибутыPOSIX и расширенные атрибуты
Разрешения файловой системыPOSIX и ACL
Прозрачное сжатиеДа (zlib, LZO[6] и (начиная с 4.14) ZSTD[7])
Прозрачное шифрованиеПланируется[8]
Дедупликация данныхда[9]
Копирование при записида
Другой
Поддерживается операционные системыLinux, ReactOS[10]
Интернет сайтbtrfs.wiki.kernel.org Отредактируйте это в Викиданных

Btrfs, сокращение от B-дерево файловая система, (произносится как "масляная суета",[11] "лучше F S",[8] "масло сливочное F S",[12] "б-дерево F S",[12] или просто по буквам) - это файловая система, основанная на копирование при записи (COW) принцип. Первоначально он был разработан в Корпорация Oracle в 2007 году для использования в Linux, а с ноября 2013 года дисковый формат файловой системы объявлен в ядре Linux стабильным.[13]

Btrfs предназначен для устранения недостатка объединение, снимки, контрольные суммы, и интегрированный охват нескольких устройств в Файловые системы Linux.[8] Крис Мейсон, главный автор Btrfs, заявил, что его цель состояла в том, чтобы «позволить [Linux] масштабироваться для доступного хранилища. Масштабирование - это не только обращение к хранилищу, но и возможность администрировать и управлять им с помощью чистого интерфейс, который позволяет людям видеть, что используется, и делает его более надежным ».[14]

История

Основная структура данных Btrfs‍ - копирование при записи B-дерево ‍ — ‌ был первоначально предложен исследователем IBM Охадом Роде на презентации в USENIX 2007.[15] Крис Мейсон, инженер, работающий над ReiserFS за SUSE в то время он присоединился к Oracle позже в том же году и начал работу над новой файловой системой, основанной на этих B-деревьях.[16]

В 2008 году главный разработчик ext3 и ext4 файловые системы, Теодор Ц'О, заявил, что хотя ext4 имеет улучшенные функции, это не является большим достижением; он использует старую технологию и является временной остановкой. Ц'о сказал, что Btrfs - лучшее направление, потому что «оно предлагает улучшения в масштабируемости, надежности и простоте управления».[17] Btrfs также имеет «ряд тех же дизайнерских идей, которые Reiser3 /4 имел".[18]

Btrfs 1.0 с завершенным дисковым форматом изначально планировалось выпустить в конце 2008 года,[19] и был наконец принят в Основная линия ядра Linux в 2009.[20] Несколько Дистрибутивы Linux начал предлагать Btrfs в качестве экспериментального варианта корневая файловая система во время установки.[21][22][23]

В июле 2011 года Btrfs automatic дефрагментация и чистка функции были объединены в версию 3.0 Основная линия ядра Linux.[24] Помимо Мэйсона из Oracle, Мяо Се из Fujitsu внесла вклад в повышение производительности.[25] В июне 2012 года Крис Мейсон покинул Oracle, чтобы Fusion-io, которую он покинул год спустя вместе с Йозефом Бачиком, чтобы присоединиться к Facebook. Находясь в обеих компаниях, Мейсон продолжил свою работу над Btrfs.[26][16]

В 2012 году два дистрибутива Linux перевели Btrfs из экспериментального в производственный или поддерживаемый статус: Oracle Linux в марте,[27] с последующим SUSE Linux Enterprise в августе.[28]

В 2015 году Btrfs была принята в качестве файловой системы по умолчанию для SUSE Linux Enterprise Server 12.[29]

В августе 2017 года Red Hat объявила в примечаниях к выпуску для Red Hat Enterprise Linux (RHEL) 7.4, что он больше не планирует переносить Btrfs, который был включен в качестве «предварительного просмотра технологии» после бета-версии RHEL 6, в полностью поддерживаемую функцию, отмечая, что он останется доступным в серии выпусков RHEL 7.[30] Btrfs был удален из RHEL 8 в мае 2019 года.[31]

В 2020 году Btrfs была выбрана файловой системой по умолчанию для Fedora 33.[32]

Функции

Реализовано

Начиная с версии 5.0 ядра Linux, Btrfs реализует следующие функции:[33][34]

  • В основном самовосстановление в некоторых конфигурациях из-за характера копирования при записи
  • Онлайн-дефрагментация и автодефрагментация вариант крепления[24]
  • Рост и сокращение объема онлайн-продаж
  • В сети блочное устройство добавление и удаление
  • Онлайн-балансировка (перемещение объектов между блочными устройствами для балансировки нагрузки)
  • Не в сети проверка файловой системы[35]
  • В сети очистка данных для поиска ошибок и автоматического их исправления для файлов с избыточными копиями
  • RAID 0, RAID 1, и RAID 10[36]
  • Подтомы (один или несколько монтируемых отдельно корни файловой системы внутри каждого раздел диска )
  • Прозрачный сжатие через zlib, LZO[6] и (начиная с 4.14) ZSTD,[7] настраивается для каждого файла или тома[37][38]
  • Атомарная запись (через копирование при записи) или только для чтения[39] Снимки подразделов
  • Клонирование файлов (ссылка, копирование при записи) через cp --reflink <исходный файл> <целевой файл>[40]
  • Контрольные суммы по данным и метаданным (CRC-32C[41]). Начиная с 5.5 реализованы новые хэш-функции:[42] xxHash, SHA256, BLAKE2B.
  • Конвертация на месте из ext3 / 4 в Btrfs (с откатом). Эта функция регрессировала в btrfs-progs версии 4.0, переписанная с нуля в 4.6.[43]
  • Союз монтажный хранилища только для чтения, известного как заполнение файловой системы (хранилище только для чтения, используемое как резервное копирование при записи для записываемых Btrfs)[44]
  • Сброс блока (освобождает место на некоторых виртуализированный настройки и улучшения выравнивание износа на SSD с ПОДРЕЗАТЬ )
  • Отправить / получить (сохранение различия между снимками в двоичный поток)[45]
  • Инкрементное резервное копирование[46]
  • Из группы дедупликация данных (требуются инструменты пользовательского пространства)[9]
  • Способность справиться файлы подкачки и поменять местами разделы

Реализовано, но не рекомендуется для производственного использования

  • Иерархические квоты для отдельных объемов[47]
  • RAID 5, RAID 6[48]

Планируется, но еще не реализовано

В 2009 году ожидалось, что Btrfs предложит набор функций, сопоставимый с ZFS, разработан Sun Microsystems.[52] После приобретения Oracle компании Sun в 2009 году Мейсон и Oracle решили продолжить разработку Btrfs.[53]

Клонирование

Btrfs предоставляет клон операция, которая атомарно создает моментальный снимок копии при записи файл. Такие клонированные файлы иногда называют рефссылки, в свете предлагаемого связанного ядра Linux системный вызов.[54]

При клонировании файловая система не создает новую ссылку, указывающую на существующий индекс; вместо этого он создает новый индексный дескриптор, который изначально использует те же блоки диска, что и исходный файл. В результате клонирование работает только в пределах одной и той же файловой системы Btrfs, но, начиная с версии 3.6 ядра Linux, при определенных обстоятельствах оно может пересекать границы субтомов.[55][56] Фактические блоки данных не дублируются; в то же время, из-за того, что Btrfs использует копирование при записи (CoW), изменения любого из клонированных файлов не видны в исходном файле, и наоборот.[57]

Клонирование не следует путать с жесткие ссылки, которые представляют собой записи каталога, которые связывают несколько имен файлов с фактическими файлами в файловой системе. Хотя жесткие ссылки могут восприниматься как разные имена для одного и того же файла, клонирование в Btrfs предоставляет независимые файлы, которые изначально используют все свои дисковые блоки.[57][58]

Поддержка этой функции Btrfs была добавлена ​​в версии 7.5 GNU coreutils, через --reflink вариант для cp команда.[59][60]

Помимо клонирования данных (ФИКЛОНЕ), Btrfs также поддерживает внеполосную дедупликацию через FIDEDUPERANGE. Эта функция позволяет двум файлам с (даже частично) идентичными данными совместно использовать хранилище.[61][9]

Подтомы и снимки

Подтом Btrfs можно рассматривать как отдельный файл POSIX. пространство имен, монтируемый отдельно, передав subvol или же субволид варианты для крепление (8) полезность. К нему также можно получить доступ, смонтировав подобтома верхнего уровня, и в этом случае подобтомы видны и доступны как его подкаталоги.[62]

Подтомы могут быть созданы в любом месте в иерархии файловой системы, а также могут быть вложенными. Вложенные подтомы появляются как подкаталоги в своих родительских подтомах, аналогично тому, как подтома верхнего уровня представляет свои подтомы как подкаталоги. Удаление подобтома невозможно, пока не будут удалены все подчиненные тома в иерархии вложенности; в результате этого нельзя удалить подобтома верхнего уровня.[63]

Любая файловая система Btrfs всегда имеет вложенный том по умолчанию, который изначально установлен как вложенный том верхнего уровня, и монтируется по умолчанию, если параметр выбора вложенного тома не передан в устанавливать. При необходимости вложенный объем по умолчанию можно изменить.[63]

A Btrfs снимок - это вложенный том, который делится своими данными (и метаданными) с некоторым другим подобтомом, используя возможности копирования при записи Btrfs, и изменения в моментальном снимке не видны в исходном подобтоме. После создания снимка с возможностью записи его можно рассматривать как альтернативную версию исходной файловой системы. Например, для отката к моментальному снимку необходимо размонтировать измененный исходный подобтом, а на его место нужно смонтировать моментальный снимок. На этом этапе исходный подобтом также может быть удален.[62]

Копирование при записи (CoW) в Btrfs означает, что моментальные снимки создаются быстро, при этом изначально занимая очень мало места на диске. Поскольку моментальный снимок представляет собой подобъем, также возможно создание вложенных снимков. Создание снимков подобъема не является рекурсивным процессом; таким образом, если создается моментальный снимок подобтома, каждый подобтом или моментальный снимок, который уже содержится в подобоме, отображается в пустой каталог с тем же именем внутри снимка.[62][63]

Создание снимков каталога невозможно, так как снимки могут быть только у вложенных томов. Однако существует обходной путь, связанный с распределением ссылок по подтомам: создается новый подтом, содержащий перекрестные ссылки на содержимое целевого каталога. Имея это в наличии, можно создать моментальный снимок этого нового тома.[55]

Подтом в Btrfs сильно отличается от традиционного Диспетчер логических томов (LVM) логический том. В LVM логический том является отдельным блочное устройство, в то время как подобъем Btrfs - нет, и его нельзя обрабатывать или использовать таким образом.[62] Создание dd или LVM моментальных снимков btrfs приводит к потере данных, если либо оригинал, либо копия монтируются, когда оба находятся на одном компьютере.[64]

Отправить – получить

Учитывая любую пару подобъемов (или снимков), Btrfs может сгенерировать двоичный разница между ними (используя btrfs отправить команда), которую можно воспроизвести позже (с помощью btrfs получить), возможно, в другой файловой системе Btrfs. Функция отправки-получения эффективно создает (и применяет) набор модификаций данных, необходимых для преобразования одного подобома в другой.[45][65]

Функция отправки / получения может использоваться с регулярно запланированными снимками состояния для реализации простой формы файловой системы. репликация, или с целью выполнения инкрементные резервные копии.[45][65]

Группы квот

А группа квот (или же qgroup) накладывает верхний предел на пространство, которое может занимать подобтом или моментальный снимок. Новый моментальный снимок изначально не требует квоты, поскольку его данные используются совместно с его родительским моментом, но после этого взимается плата за новые файлы и операции копирования при записи для существующих файлов. Когда квоты активны, группа квот автоматически создается для каждого нового подтома или моментального снимка. Эти исходные группы квот представляют собой строительные блоки, которые можно сгруппировать (с помощью btrfs qgroup command) в иерархии для реализации пулов квот.[47]

Группы квот применяются только к вложенным объемам и снимкам состояния, в то время как принудительное применение квот для отдельных подкаталогов, пользователей или групп пользователей невозможно. Тем не менее, обходные пути возможны, если использовать разные подтомы для всех пользователей или групп пользователей, для которых требуется принудительная квота.

Преобразование на месте из ext2 / 3/4 и ReiserFS

В результате очень небольшого количества метаданных, привязанных к фиксированным местоположениям, Btrfs может деформироваться, чтобы соответствовать необычным пространственным схемам внутренних устройств хранения. В btrfs-convert инструмент использует эту возможность для преобразования на месте файлов ext2 / 3/4 или ReiserFS файловая система, встраивая эквивалентные метаданные Btrfs в нераспределенное пространство, при этом сохраняя неизмененную копию исходной файловой системы.[66]

Преобразование включает в себя создание копии всех метаданных ext2 / 3/4, в то время как файлы Btrfs просто указывают на те же блоки, которые используются файлами ext2 / 3/4. Это делает большую часть блоков разделенными между двумя файловыми системами, прежде чем преобразование станет постоянным. Благодаря природе Btrfs с копированием при записи исходные версии блоков данных файла сохраняются во время всех модификаций файла. Пока преобразование не станет постоянным, только те блоки, которые были помечены как свободные в ext2 / 3/4, используются для хранения новых модификаций Btrfs, что означает, что преобразование можно отменить в любое время (хотя при этом будут удалены все изменения, сделанные после преобразования. в Btrfs).[66]

Все преобразованные файлы доступны и доступны для записи в субтоме по умолчанию Btrfs. Разреженный файл, содержащий все ссылки на исходную файловую систему ext2 / 3/4, создается в отдельном подтоме, который монтируется сам по себе как образ диска только для чтения, что обеспечивает доступ к исходной и преобразованной файловой системе с то же время. Удаление этого разреженного файла освобождает место и делает преобразование постоянным.[66]

По состоянию на июнь 2015 года и версии 4.x основной ветки ядра Linux преобразование в ext3 / 4 на месте считалось непроверенным и использовалось редко.[66] Однако эта функция была переписана с нуля в 2016 году для btrfs-progs 4.6.[43] и с тех пор считается стабильным.

Преобразование на месте из ReiserFS было представлено в сентябре 2017 года с ядром 4.13.[67]

Монтажные соединения / посевные устройства

При создании нового Btrfs существующий Btrfs может использоваться как "начальная" файловая система только для чтения.[68] Затем новая файловая система будет действовать как наложение копирования при записи на начальное число, как форму монтажный штуцер. Семя может быть позже отсоединено от Btrfs, после чего ребалансировщик просто скопирует любые начальные данные, на которые еще ссылается новая файловая система, перед отсоединением. Мейсон предположил, что это может быть полезно для Live CD Программа установки, которая может загружаться с начального значения Btrfs, доступного только для чтения, на оптическом диске, в фоновом режиме выполняет перебалансировку на целевой раздел на установочном диске, пока пользователь продолжает работать, затем извлекает диск, чтобы завершить установку без перезагрузки.[69]

Шифрование

В своем интервью 2009 года Крис Мейсон заявил, что поддержка шифрования была запланирована для Btrfs.[70] В то же время обходным путем для объединения шифрования с Btrfs является использование механизма шифрования всего диска, такого как dm-crypt  / LUKS на базовых устройствах и создать файловую систему Btrfs поверх этого уровня.

В качестве УМНАЯ Команды не проходят через уровень LUKS, RAID на основе Btrfs не может надежно работать поверх, так как любая обработка ошибок, требующая связи с диском, не удастся. Фактически любой программный RAID должен иметь возможность передавать команды SMART на диск для надежной работы, и это может быть проблемой, поскольку ряд контроллеров SATA не обрабатывает SMART должным образом, особенно внешние корпуса, и даже внешние корпуса, которые это делают, должны убедитесь, что ядро ​​и связанные с ним инструменты достаточно актуальны, чтобы должным образом облегчить обмен данными SMART с этим контроллером, а также обеспечить прямой доступ Btrfs к дискам.[нужна цитата ]

2020

В настоящее время разработчики работают над добавлением ключевого хэша, например HMAC (SHA256 ).[71] Ключевой хеш - это шаг к шифрованию.

Проверка и восстановление

Системы Unix традиционно полагаются на "fsck "программы для проверки и восстановления файловых систем. Эта функция реализована через проверка btrfs программа. Начиная с версии 4.0 эта функциональность считается относительно стабильной. Однако по состоянию на август 2017 года в документации по btrfs предлагается использовать его только после того, как вы попробовали другие методы восстановления.[72]

Есть еще один инструмент под названием btrfs-восстановление, который можно использовать для восстановления файлов из не монтируемой файловой системы без изменения самой сломанной файловой системы (т. е. неразрушающим образом).[73]

При нормальном использовании Btrfs в основном самовосстанавливается и может восстанавливаться после сломанных корневых деревьев во время монтирования, благодаря периодическому сбросу данных в постоянное хранилище, по умолчанию каждые 30 секунд. Таким образом, изолированные ошибки приведут к потере максимум 30 секунд изменений файловой системы при следующем монтировании.[74] Этот период можно изменить, указав желаемое значение (в секундах) для совершить вариант крепления.[75][76]

Дизайн

В первоначальном предложении Охада Родеха на USENIX 2007 отмечалось, что B + деревья, которые широко используются в качестве структур данных на диске для баз данных, не могли эффективно разрешать моментальные снимки на основе копирования при записи, потому что его конечные узлы были связаны вместе: если лист был копируемым при записи, его братья, сестры и родители имели бы быть так же хорошо, как и их братья и сестры, родители и так далее, пока не будет скопировано все дерево. Он предложил вместо этого модифицированный B-дерево (который не имеет листовой связи), с пересчет связаны с каждым узлом дерева, но хранятся в специальной свободной структуре карты, а также с некоторыми изменениями в алгоритмах балансировки дерева, чтобы сделать их удобными для копирования при записи. Результатом будет структура данных, подходящая для высокопроизводительного объектного хранилища, которое могло бы выполнять моментальные снимки копирования при записи, сохраняя при этом хорошие параллелизм.[15]

Позднее в том же году в Oracle начал работу над файловой системой с возможностью создания моментальных снимков, которая будет использовать эту структуру данных почти исключительно - не только для метаданных и файловых данных, но и рекурсивно для отслеживания распределения пространства самих деревьев. Это позволяло проводить все обходы и модификации по единому пути кода, в котором такие функции, как копирование при записи, контрольная сумма и зеркалирование, необходимо было реализовать только один раз, чтобы принести пользу всей файловой системе.[52]

Btrfs структурирован как несколько слоев таких деревьев, использующих одну и ту же реализацию B-дерева. Деревья хранят универсальные Предметы отсортировано по 136-битному ключу. Старшие 64 бита ключа являются уникальными идентификатор объекта. Средние восемь битов представляют собой поле типа элемента: его использование встроено в код в качестве фильтра элементов при поиске по дереву. Объекты может иметь несколько элементов разных типов. Остальные (наименее значимые) 64 бита используются в зависимости от типа. Следовательно, элементы одного и того же объекта оказываются рядом друг с другом в дереве, сгруппированными по типу. Выбирая определенные ключевые значения, объекты могут размещать элементы одного и того же типа в определенном порядке.[52][3]

Узлы внутреннего дерева - это просто плоские списки пар ключ-указатель, где указатель - это номер логического блока дочернего узла. Узлы-листы содержат ключи элементов, упакованные в переднюю часть узла, и данные элементов, упакованные в конец, причем два элемента растут друг к другу по мере заполнения листа.[52]

Дерево файловой системы

В каждом каталоге записи каталога отображаются как элементы каталога, младшие значащие биты значений ключа которого являются CRC32C хеш их имени файла. Их данные - это ключ местоположения, или ключ индекс элемент, на который он указывает. Таким образом, элементы каталога вместе могут действовать как индекс для поиска пути к индексному дескриптору, но не используются для итерации, потому что они сортируются по их хешу, что эффективно случайно переставляя их. Это означает, что пользовательские приложения, повторяющие и открывающие файлы в большом каталоге, будут, таким образом, генерировать намного больше операций поиска диска между несмежными файлами - заметное снижение производительности в других файловых системах с каталогами с упорядоченным хешированием, такими как ReiserFS,[77] ext3 (с включенными Htree-индексами[78]) и ext4, все из которых имеют ЧАЙ -хешированные имена файлов. Чтобы этого избежать, каждая запись каталога имеет элемент индекса каталога, значение ключа которого элемента установлено равным счетчику каталога, который увеличивается с каждой новой записью каталога. Таким образом, итерация по этим элементам индекса возвращает записи примерно в том же порядке, в каком они хранятся на диске.

Файлы с жесткими ссылками в нескольких каталогах имеют несколько ссылочных элементов, по одному для каждого родительского каталога. Файлы с несколькими жесткими ссылками в одно и тоже directory упаковать все имена файлов ссылок в один и тот же элемент ссылки. Это был недостаток дизайна, который ограничивал количество жестких ссылок на один и тот же каталог до того количества, которое могло уместиться в одном блоке дерева. (При размере блока по умолчанию 4 КиБ, средней длине имени файла 8 байтов и заголовке каждого имени файла 4 байта это будет меньше 350.) Приложения, которые интенсивно использовали несколько жестких ссылок на один каталог, такие как мерзавец, GNUS, GMame и BackupPC наблюдались отказы на этом пределе.[79] В конечном итоге ограничение было снято[80] (и по состоянию на октябрь 2012 г. был объединен[81] ожидающий выпуск в Linux 3.7), введя вторичный расширенные справочные позиции содержать жесткие ссылки на имена файлов, которые в противном случае не подходят.

Экстенты

Данные файла хранятся вне дерева в экстенты, которые представляют собой непрерывные серии блоков данных на диске. Блоки экстентов по умолчанию имеют размер 4 КиБ, не имеют заголовков и содержат только (возможно, сжатые) данные файла. В сжатых экстентах отдельные блоки не сжимаются отдельно; скорее, поток сжатия охватывает весь экстент.

Файлы имеют элементы данных экстентов для отслеживания экстентов, содержащих их содержимое. Ключевым значением элемента является смещение начального байта экстента. Это обеспечивает эффективный поиск в больших файлах с множеством экстентов, поскольку правильный экстент для любого заданного смещения файла может быть вычислен с помощью только одного поиска в дереве.

Экстенты снимков и клонированных файлов используются совместно. Когда небольшая часть такого большого экстента перезаписывается, в результате копирования при записи может быть создано три новых экстента: маленький, содержащий перезаписанные данные, и два больших, с неизмененными данными по обе стороны от перезаписи. Чтобы избежать повторной записи неизмененных данных, копирование при записи может вместо этого создавать подставки для книг, или экстенты, которые представляют собой просто фрагменты существующих экстентов. Элементы данных экстента позволяют это сделать, включая смещение в отслеживаемый экстент: элементы для подставок - это элементы с ненулевым смещением.[3]

Дерево распределения экстентов

В дерево распределения экстентов действует как карта размещения файловой системы. В отличие от других деревьев, элементы в этом дереве не имеют идентификаторов объектов. Они представляют регионы пространства: их ключевые значения содержат начальные смещения и длины регионов, которые они представляют.

Файловая система делит выделенное пространство на группы блоков которые представляют собой области распределения переменного размера, которые чередуются между предпочтительными экстентами метаданных (узлами дерева) и экстентами данных (содержимым файла). По умолчанию соотношение данных к группам блоков метаданных составляет 1: 2. Они предназначены для использования концепций Распределитель блоков Орлова для размещения связанных файлов вместе и противодействия фрагментации, оставляя свободное пространство между группами. (Группы блоков Ext3, однако, имеют фиксированные местоположения, вычисляемые из размера файловой системы, тогда как группы в Btrfs являются динамическими и создаются по мере необходимости.) Каждая группа блоков связана с элемент группы блоков. Элементы Inode в дереве файловой системы включают ссылку на свою текущую группу блоков.[3]

Элементы экстента содержат обратную ссылку на узел дерева или файл, занимающий этот экстент. Если экстент является общим для снимков, может быть несколько обратных ссылок. Если обратных ссылок слишком много, чтобы поместиться в предмете, они переходят в отдельные элементы ссылок на данные экстентов. Узлы дерева, в свою очередь, имеют обратные ссылки на содержащиеся в них деревья. Это позволяет найти, какие экстенты или узлы дерева находятся в любой области пространства, выполнив поиск диапазона B-дерева по паре смещений, ограничивающих эту область, а затем следуя обратным ссылкам. Для перемещения данных это позволяет эффективно перемещаться вверх от перемещенных блоков, чтобы быстро находить и исправлять все нисходящие ссылки на эти блоки без необходимости сканировать всю файловую систему. Это, в свою очередь, позволяет файловой системе эффективно сжимать, переносить и дефрагментировать свое хранилище онлайн.

Дерево распределения экстентов, как и все другие деревья в файловой системе, копирует при записи. Таким образом, записи в файловую систему могут вызвать каскад, в результате которого измененные узлы дерева и данные файла приводят к выделению новых экстентов, вызывая изменение самого дерева экстентов. Чтобы избежать создания Обратная связь узлы дерева экстентов, которые все еще находятся в памяти, но еще не зафиксированы на диске, могут быть обновлены на месте, чтобы отразить новые экстенты с копированием при записи.

Теоретически дерево распределения экстентов представляет собой обычный растровое изображение в свободном пространстве ненужным, потому что дерево распределения экстентов действует как версия B-дерева BSP дерево. На практике, однако, в памяти красно-черное дерево из страница -размерные растровые изображения используются для ускорения выделения. Эти растровые изображения сохраняются на диске (начиная с Linux 2.6.37 через space_cache вариант крепления[82]) как специальные экстенты, которые не подлежат проверке контрольной суммы и копированию при записи. Элементы экстентов, отслеживающие эти экстенты, хранятся в корневом дереве.

Контрольная сумма и очистка

CRC-32C контрольные суммы вычисляются как для данных, так и для метаданных и сохраняются как элементы контрольной суммы в дерево контрольных сумм. Существует место для 256 бит контрольных сумм метаданных и до полного узла (примерно 4 КБ или более) для контрольных сумм данных. Btrfs предусматривает добавление дополнительных алгоритмов контрольной суммы в будущих версиях файловой системы.[33][83]

На каждый непрерывный прогон выделенных блоков приходится один элемент контрольной суммы, при этом контрольные суммы для каждого блока непрерывно упаковываются в данные элемента. Если контрольных сумм больше, чем может поместиться, они переходят в другой элемент контрольной суммы на новом листе. Если файловая система обнаруживает несоответствие контрольной суммы при чтении блока, она сначала пытается получить (или создать) хорошую копию этого блока с другого устройства - если используются методы внутреннего зеркалирования или RAID.[84][85]

Btrfs может инициировать онлайн-проверку всей файловой системы, запустив задание очистки файловой системы, которое выполняется в фоновом режиме. Задание очистки сканирует всю файловую систему на предмет целостности и автоматически пытается сообщить и исправить любые сбойные блоки, которые оно обнаружит.[84][86]

Бревенчатое дерево

An fsync запрос немедленно фиксирует измененные данные в стабильном хранилище. fsync-тяжелые рабочие нагрузки (например, база данных или виртуальная машина чья работающая ОС fsyncs часто) потенциально может генерировать множество избыточных операций ввода-вывода при записи, заставляя файловую систему многократно копировать при записи и сбрасывать часто изменяемые части деревьев в хранилище. Чтобы избежать этого, временный для каждого подобъема бревенчатое дерево создан для журнал Запускаемое fsync копирование при записи. Деревья журналов являются самодостаточными, отслеживая свои собственные размеры и сохраняя свои собственные элементы контрольной суммы. Их элементы воспроизводятся и удаляются при следующей фиксации полного дерева или (если произошел сбой системы) при следующем повторном подключении.

Деревья чанков и устройств

Блокировать устройства делятся на физические куски 256 МБ и более. Физические фрагменты на нескольких устройствах можно зеркально отображать или объединять в одно логический кусок. Эти логические блоки объединены в единое логическое адресное пространство, которое использует остальная файловая система.

В кусок дерева отслеживает это, сохраняя каждое устройство в качестве элемент устройства и логические фрагменты как элементы карты фрагментов, которые обеспечивают прямое преобразование логических адресов в физические, сохраняя их смещения в 64 младших разрядах ключа. Элементы карты фрагментов могут быть одного из нескольких типов:

Один
От 1 логического к 1 физическому блоку
обман
От 1 логического фрагмента до 2 физических фрагментов на 1 блочном устройстве
raid0
От N логических блоков до N≥2 физических блоков на N≥2 блочных устройствах
raid1
1 логический блок на 2 физических блока на 2 из N≥2 блочных устройств,[87] в отличие от обычных RAID 1 который имеет N физических блоков
raid1c3
От 1 логического блока до 3 физических блоков из N≥3 блочных устройств
raid1c4
От 1 логического блока до 4 физических блоков из N≥4 блочных устройств
рейд5
От N (для N≥2) логических фрагментов до N + 1 физических фрагментов на N + 1 блочных устройствах, с 1 физическим фрагментом, используемым для контроля четности
рейд6
От N (для N≥2) логических фрагментов до N + 2 физических фрагментов на N + 2 блочных устройствах, при этом 2 физических фрагмента используются для контроля четности

N - это количество блочных устройств, на которых остается свободное пространство при выделении блока. Если N недостаточно велик для выбранного зеркального отображения / отображения, тогда в файловой системе фактически не хватает места.

Деревья переселения

Для операций дефрагментации, сжатия и перебалансировки требуется переместить экстенты. Однако выполнение простого копирования и записи перемещаемого экстента нарушит совместное использование снимков и займет дисковое пространство. Чтобы сохранить совместное использование, используется алгоритм обновления и замены со специальным дерево переезда служит временным пространством для затронутых метаданных. Перемещаемый экстент сначала копируется в место назначения. Затем, следуя обратным ссылкам вверх по дереву файловой системы затронутого подобтома, метаданные, указывающие на старый экстент, постепенно обновляются, чтобы указывать на новый; любые недавно обновленные элементы сохраняются в дереве перемещения. После завершения обновления элементы в дереве перемещения меняются местами со своими аналогами в затронутом подобтоме, а дерево перемещения отбрасывается.[88]

Суперблок

Все деревья файловой системы, включая само дерево фрагментов, хранятся фрагментами, что создает потенциальную возможность самонастройка проблема, когда монтаж файловая система. К бутстрап в монтирование список физических адресов фрагментов, принадлежащих фрагменту и корневому дереву, хранится в суперблок.[89]

Зеркала суперблок хранятся в фиксированных местах:[90] 64 КиБ в каждое блочное устройство, с дополнительными копиями размером 64 МБ, 256 ГБ и 1 ПиБ. При обновлении зеркала суперблока его номер поколения увеличивается. Во время монтирования используется копия с наивысшим номером поколения. Все зеркала суперблока обновляются в тандеме, кроме SSD режим, который чередует обновления между зеркалами, чтобы обеспечить некоторые выравнивание износа.

Коммерческая поддержка

Поддерживается

Больше не поддерживается

Смотрите также

Примечания

  1. ^ а б Это собственный предел размера на диске Btrfs. Лимит снижен до 8EiB в 64-битных системах и 2 EiB в 32-битных системах из-за внутренних ограничений ядра Linux, если только ядро ​​не CONFIG_LBD вариант конфигурации (доступен с 2.6.x серия ядра ) включен для снятия этих ограничений ядра.[100][101]
  2. ^ Каждый элемент в Btrfs имеет 64-битный идентификатор, что означает, что максимальное количество файлов в файловой системе Btrfs равно 2.64.

Рекомендации

  1. ^ «Авторы Btrfs на kernel.org». kernel.org. 18 января 2016 г.. Получено 20 января 2016.
  2. ^ а б «Документация Suse: Руководство по администрированию хранилища - Поддержка больших файлов в Linux». SUSE. Получено 12 августа 2015.
  3. ^ а б c d Мейсон, Крис. «БТРФС дизайн». Btrfs вики. Получено 8 ноября 2011.
  4. ^ Джонатан Корбет (26 июля 2010 г.). «Время создания файла». LWN.net. Получено 15 августа 2015.
  5. ^ «Форматирование на диске - btrfs Wiki». btrfs.wiki.kernel.org.
  6. ^ а б "btrfs Wiki". kernel.org. Получено 19 апреля 2015.
  7. ^ а б "Linux_4.14 - новички в ядре Linux". kernelnewbies.org.
  8. ^ а б c d Макферсон, Аманда (22 июня 2009 г.). «Разговор с Крисом Мейсоном о BTRfs: файловой системе нового поколения для Linux». Linux Foundation. Архивировано из оригинал 27 июня 2012 г.. Получено 2009-09-01.
  9. ^ а б c «Дедупликация». kernel.org. Получено 19 апреля 2015.
  10. ^ «Выпущена ReactOS 0.4.1». reactos.org. Получено 11 августа 2016.
  11. ^ http://streaming.oracle.com/ebn/podcasts/media/20209545_Oracle-Linux-7.mp4
  12. ^ а б Хенсон, Валери (31 января 2008 г.). Chunkfs: быстрая проверка и восстановление файловой системы. Мельбурн, Австралия. Событие происходит в 18 минут 49 секунд.. Получено 5 февраля 2008. Это называется Butter FS или B-tree FS, но все крутые ребята говорят, что Butter FS
  13. ^ "Ядро Linux фиксирует изменение статуса стабильности в fs / btrfs / Kconfig". Получено 8 февраля 2019.
  14. ^ Кернер, Шон Майкл (30 октября 2008 г.). "Лучшая файловая система для Linux?". InternetNews.com. В архиве из оригинала от 8 апреля 2011 г.. Получено 27 августа 2020.
  15. ^ а б Родех, Охад (2007). B-деревья, затенение и клоны (PDF). USENIX Семинар по хранению и файловой системе Linux. Также Родех, Охад (2008). «Б-деревья, затенение и клоны». ACM-транзакции в хранилище. 3 (4): 1–27. Дои:10.1145/1326542.1326544.
  16. ^ а б «Ведущие разработчики файловой системы Btrfs присоединяются к Facebook». phoronix.com. Получено 19 апреля 2015.
  17. ^ Пол, Райан (13 апреля 2009 г.). «Эксперты обсуждают ядро ​​на саммите Linux Collaboration Summit». Ars Technica. Архивировано из оригинал 17 июня 2012 г.. Получено 2009-08-22. Цитировать журнал требует | журнал = (помощь)
  18. ^ Ц'О, Теодор (1 августа 2008 г.). "Re: reiser4 для 2.6.27-rc1". Linux-ядро (Список рассылки). Получено 31 декабря 2010.
  19. ^ «График разработки». Btrfs вики. 11 декабря 2008. Архивировано с оригинал 20 декабря 2008 г.. Получено 5 ноября 2011.
  20. ^ Вуэльфинг, Бритта (12 января 2009 г.). "Ядро 2.6.29: Корбет говорит, что файловая система нового поколения Btrfs". Журнал Linux. Получено 5 ноября 2011.
  21. ^ а б «Документация по Red Hat Enterprise Linux 6: предварительные версии технологий». Архивировано из оригинал 28 мая 2011 г.. Получено 21 января 2011.
  22. ^ "Выпуск 276 еженедельных новостей Fedora". 25 мая 2011г.
  23. ^ "Выпущен Debian 6.0" Squeeze "" (Пресс-релиз). Debian. 6 февраля 2011 г.. Получено 8 февраля 2011. Также была добавлена ​​поддержка файловых систем ext4 и Btrfs ...
  24. ^ а б «Ядро Linux 3.0, раздел 1.1. Btrfs: автоматическая дефрагментация, очистка, улучшения производительности». kernelnewbies.org. 21 июля 2011 г.. Получено 5 апреля 2016.
  25. ^ Leemhuis, Thorsten (21 июня 2011 г.). «Журнал ядра: появится в версии 3.0 (часть 2) - Файловые системы». H Open. Получено 8 ноября 2011.
  26. ^ Варгезе, Сэм. «iTWire». ITWire.com. Получено 19 апреля 2015.
  27. ^ «Выпущен Unbreakable Enterprise Kernel Release 2». Получено 8 мая 2019.
  28. ^ «Примечания к выпуску SLES 11 SP2». 21 августа 2012 г.. Получено 29 августа 2012.
  29. ^ «Примечания к выпуску SUSE Linux Enterprise Server 12». 5 ноября 2015 г.. Получено 20 января 2016.
  30. ^ а б «Примечания к выпуску Red Hat Enterprise Linux 7.4, Глава 53: Устаревшие функции». 1 августа 2017 г. Архивировано с оригинал 8 августа 2017 г.. Получено 15 августа 2017.
  31. ^ а б «Соображения по поводу принятия RHEL 8». Документация по продукту для Red Hat Enterprise Linux 8. Красная шляпа. Получено 9 мая 2019.
  32. ^ «Btrfs переходит в Fedora 33». Журнал Fedora. 24 августа 2020 г.. Получено 25 августа 2020.
  33. ^ а б c «Btrfs Wiki: особенности». btrfs.wiki.kernel.org. 27 ноября 2013 г.. Получено 27 ноября 2013.
  34. ^ "Btrfs Wiki: Список изменений". btrfs.wiki.kernel.org. 29 мая 2019. Получено 27 ноября 2013.
  35. ^ "Manpage btrfs-check".
  36. ^ «Использование Btrfs с несколькими устройствами». kernel.org. 7 ноября 2013 г.. Получено 20 ноября 2013.
  37. ^ «Сжатие». kernel.org. 25 июня 2013 г.. Получено 1 апреля 2014.
  38. ^ «Btrfs: добавить поддержку свойств inode». kernel.org. 28 января 2014 г.. Получено 1 апреля 2014.
  39. ^ "btrfs: снимки только для чтения". Получено 12 декабря 2011.
  40. ^ «Сэкономьте дисковое пространство в Linux, клонируя файлы на Btrfs и OCFS2». Получено 1 августа 2017.
  41. ^ "Wiki FAQ: Какую функцию контрольной суммы использует Btrfs?". Btrfs вики. Получено 15 июн 2009.
  42. ^ "Btrfs hilights в 5.5: новые хеши". Получено 29 августа 2020.
  43. ^ а б "Btrfs проги релиз 4.6". Получено 1 августа 2017.
  44. ^ Мейсон, Крис (12 января 2009 г.). "Журнал изменений Btrfs". Архивировано из оригинал 29 февраля 2012 г.. Получено 12 февраля 2012.
  45. ^ а б c Корбет, Джонатан (11 июля 2012 г.), Btrfs отправка / получение, LWN.net, получено 14 ноября 2012
  46. ^ "Btrfs Wiki: добавочное резервное копирование". 27 мая 2013. Получено 27 ноября 2013.
  47. ^ а б Янсен, Арне (2011), Группы квот вложенных объемов Btrfs (PDF), Strato AG, получено 14 ноября 2012
  48. ^ btrfs (16 июля 2016 г.). «RAID 5/6». kernel.org. Получено 1 октября 2016.
  49. ^ Корбет, Джонатан (2 ноября 2011 г.). «Обновление btrfs на LinuxCon Europe». Получено 12 февраля 2012.
  50. ^ Маццолени, Андреа. "btrfs: lib: raid: Новая библиотека RAID, поддерживающая до шести четностей". Получено 16 марта 2014.
  51. ^ «Идеи проекта БТРФС». 21 февраля 2013 г.. Получено 21 февраля 2013.
  52. ^ а б c d Аврора, Валери (22 июля 2009 г.). «Краткая история БТРФС». LWN.net. Получено 5 ноября 2011.
  53. ^ Хильцингер, Марсель (22 апреля 2009 г.). "Будущее BTRFS обеспечено". Журнал Linux. Получено 5 ноября 2011.
  54. ^ Корбет, Джонатан (5 мая 2009 г.). "Две стороны reflink ()". LWN.net. Получено 17 октября 2013.
  55. ^ а б «Варианты использования - документация btrfs». kernel.org. Получено 4 ноября 2013.
  56. ^ "btrfs: разрешить клонирование файла из одного тома". github.com. Получено 4 ноября 2013.
  57. ^ "Символьные ссылки ссылочные имена, жесткие ссылки ссылочные метаданные и ссылочные данные ссылочные данные". pixelbeat.org. 27 октября 2010 г.. Получено 17 октября 2013.
  58. ^ Мейеринг, Джим (20 августа 2009 г.). «НОВОСТИ GNU coreutils: важные изменения в версии 7.5». savannah.gnu.org. Получено 30 августа 2009.
  59. ^ Скривано, Джузеппе (1 августа 2009 г.). "cp: примите параметр --reflink". savannah.gnu.org. Получено 2 ноября 2009.
  60. ^ ioctl_fideduperange (2) – Linux Программиста Руководство - Системные вызовы
  61. ^ а б c d "SysadminGuide - документация Btrfs". kernel.org. Получено 31 октября 2013.
  62. ^ а б c «5.6 Создание вложенных томов и моментальных снимков [требуется обновление]». oracle.com. 2013. Получено 31 октября 2013.
  63. ^ "Попался - btrfs Wiki". btrfs.wiki.kernel.org.
  64. ^ а б «5.7 Использование функции отправки / получения». oracle.com. 2013. Получено 31 октября 2013.
  65. ^ а б c d Мейсон, Крис (25 июня 2015 г.). "Конвертация из Ext3 (документация Btrfs)". kernel.org. Получено 22 апреля 2016.
  66. ^ "страница руководства btrfs-convert (8)". Получено 24 апреля 2018.
  67. ^ «Посевной аппарат».
  68. ^ Мейсон, Крис (5 апреля 2012 г.), Файловая система Btrfs: состояние и новые возможности, Linux Foundation, получено 16 ноября 2012[постоянная мертвая ссылка ]
  69. ^ Аманда Макферсон (22 июня 2009 г.). «Разговор с Крисом Мейсоном о BTRfs: файловой системе нового поколения для Linux». Linux Foundation. Архивировано из оригинал 27 июня 2012 г.. Получено 9 октября 2014. В будущих выпусках мы планируем добавить онлайн-утилиту fsck, дедупликацию, шифрование и другие функции, которые уже давно находятся в списках желаний администратора.
  70. ^ Стерба, Дэвид. "аутентифицированные файловые системы с использованием HMAC (SHA256)". lore.kernel.org. Получено 25 апреля 2020.
  71. ^ "Btrfsck - btrfs Wiki". btrfs.wiki.kernel.org.
  72. ^ "Восстановление - btrfs Wiki". btrfs.wiki.kernel.org.
  73. ^ "Часто задаваемые вопросы о проблемах - btrfs Wiki". kernel.org. 31 июля 2013 г.. Получено 16 января 2014.
  74. ^ "kernel / git / torvalds / linux.git: Документация: файловые системы: добавить новые параметры монтирования btrfs (дерево исходных текстов ядра Linux)". kernel.org. 21 ноября 2013 г.. Получено 6 февраля 2014.
  75. ^ «Параметры монтирования - btrfs Wiki». kernel.org. 12 ноября 2013 г.. Получено 16 января 2014.
  76. ^ Райзер, Ганс (7 декабря 2001 г.). "Re: Индекс каталога Ext2: документ ALS и тесты". Список рассылки разработчиков ReiserFS. Получено 28 августа 2009.
  77. ^ Мейсон, Крис. "Acp". Персональная веб-страница Oracle. Получено 5 ноября 2011.
  78. ^ Фашех, Марк (9 октября 2012 г.). "btrfs: расширенные ссылки на индексные дескрипторы". Архивировано из оригинал 15 апреля 2013 г.. Получено 7 ноября 2012.
  79. ^ Торвальдс, Линус (10 октября 2012 г.). "Получите обновление btrfs от Криса Мэйсона". git.kernel.org. Архивировано из оригинал 15 апреля 2013 г.. Получено 7 ноября 2012.
  80. ^ Ларабель, Майкл (24 декабря 2010 г.). «Контрольные показатели опции Btrfs Space Cache». Фороникс. Получено 16 ноября 2012.
  81. ^ "FAQ - btrfs Wiki: Какую функцию контрольной суммы использует Btrfs?". Проект btrfs. Получено 22 ноября 2020.
  82. ^ а б Бирман, Маргарет; Гриммер, Ленц (август 2012 г.). «Как я использую расширенные возможности Btrfs». Получено 20 сентября 2013.
  83. ^ Солтер, Джим (15 января 2014 г.). "Bitrot и Atomic COWs: Внутри файловых систем" следующего поколения ". Ars Technica. Получено 15 января 2014.
  84. ^ Коэкартс, Вим (28 сентября 2011 г.). "Btrfs Scrub - Исправьте повреждения с помощью зеркальных копий, пожалуйста!". Получено 20 сентября 2013.
  85. ^ "Manpage / MKFS.BTRFS - BTRFS Wiki".
  86. ^ Мейсон, Крис; Родех, Охад; Бачик, Йозеф (9 июля 2012 г.), BTRFS: файловая система Linux B-tree (PDF), IBM Research, получено 12 ноября 2012
  87. ^ Мейсон, Крис (30 апреля 2008 г.). «Поддержка нескольких устройств». Btrfs вики. Архивировано из оригинал 20 июля 2011 г.. Получено 5 ноября 2011.
  88. ^ Бартелл, Шон (20 апреля 2010 г.). "Re: Восстановление раздела BTRFS". linux-btrfs (Список рассылки).
  89. ^ "Fedora 33 официально здесь!". 27 Октябрь 2020. Получено 28 октября 2020.
  90. ^ «Oracle теперь поддерживает Btrfs RAID5 / 6 на своем нерушимом корпоративном ядре - Phoronix». Phoronix.com.
  91. ^ «Управление Btrfs в Oracle Linux 8». docs.oracle.com.
  92. ^ "SUSE подтверждает поддержку Btrfs [LWN.net]". LWN.net.
  93. ^ «Примечания к выпуску | SUSE Linux Enterprise Server 15 GA». Suse.com.
  94. ^ «DiskStation Manager - База знаний | Synology Inc». Synology.com.
  95. ^ «Поддержка файловых систем ReactOS». reactos.org/wiki/.
  96. ^ «⁠Btrfs устарел в RHEL | Hacker News». news.ycombinator.com.
  97. ^ "Red Hat, похоже, отказывается от своих надежд на Btrfs - Phoronix". www.phoronix.com.
  98. ^ Андреас Йегер (15 февраля 2005 г.). «Поддержка больших файлов в Linux». users.suse.com. Получено 12 августа 2015.
  99. ^ "Справка по настройке ядра Linux для CONFIG_LBD в 2.6.29 на x86". kernel.xc.net. Архивировано из оригинал 6 сентября 2015 г.. Получено 12 августа 2015.

внешняя ссылка