Биннинг данных - Data binning

Биннинг данных (также называемый Дискретный бункер или же ведро) это предварительная обработка данных техника, используемая для уменьшения влияния незначительных ошибок наблюдения. Исходные значения данных, которые попадают в заданный небольшой интервал, a мусорное ведро, заменяются значением, представляющим этот интервал, часто центральным значением. Это форма квантование.

Группирование статистических данных это способ сгруппировать числа с более или менее непрерывными значениями в меньшее количество «ячеек». Например, если у вас есть данные о группе людей, вы можете разделить их возраст на меньшее количество возрастных интервалов (например, группируя каждые пять лет вместе). Его также можно использовать в многомерная статистика, биннинг сразу в нескольких измерениях.

Обработка данных изображения

В контексте обработка изображений, бининг - это процедура объединения кластера пиксели в один пиксель. Таким образом, в биннинге 2x2 массив из 4 пикселей становится на один пиксель большего размера,[1] уменьшение общего количества пикселей.

Такое агрегирование, хотя и связано с потерей информации, уменьшает объем данных, которые необходимо обработать, облегчая анализ. Например, группирование данных может также уменьшить влияние шума чтения на обработанное изображение (за счет более низкого разрешения).

Пример использования

Гистограммы являются примером объединения данных, используемого для наблюдения за лежащими в основе распределения. Обычно они возникают в одномерное пространство И в равный интервалы для удобства визуализации.

Объединение данных может использоваться, когда небольшие инструментальные сдвиги в спектральном измерении от масс-спектрометрии (MS) или ядерный магнитный резонанс (ЯМР) эксперименты будут ошибочно интерпретированы как представляющие разные компоненты, когда набор профилей данных подвергается распознавание образов анализ. Самый простой способ справиться с этой проблемой - использовать методы бинирования, при которых разрешение спектра уменьшается до достаточной степени, чтобы гарантировать, что данный пик остается в своем бине, несмотря на небольшие спектральные сдвиги между анализами. Например, в ЯМР то химический сдвиг ось может быть дискретизирована и грубо разбита, а в РС спектральная точность может быть округлена до целого числа атомная единица массы значения. Также несколько цифровая камера системы включают функцию автоматического объединения пикселей для улучшения контрастности изображения.[2]

Биннинг также используется в машинном обучении для ускорения[3] дерево решений повышение метод контролируемой классификации и регрессии в таких алгоритмах, как Microsoft с LightGBM и scikit-learn с Дерево классификации повышения градиента на основе гистограммы.

Смотрите также

Рекомендации

  1. ^ «Небольшое объяснение биннинга при обработке изображений». Стив Каннистра. Получено 2011-01-18.
  2. ^ «Использование биннинга в фотографии». Nikon, СНГ. Получено 2011-01-18.
  3. ^ «LightGBM: высокоэффективное дерево решений для повышения градиента». Системы обработки нейронной информации (NIPS). Получено 2019-12-18.