Установить балансировку - Set balancing

В установить балансировку Проблема в математике - это проблема разделения набора на два подмножества, которые имеют примерно одинаковые характеристики. Это естественно возникает в дизайн экспериментов.[1]:71–72

Есть группа предметов. У каждого предмета есть несколько функций, которые считаются бинарными. Например: каждый испытуемый может быть молодым или старым; либо черный, либо белый; высокие или низкие; и т.д. Цель состоит в том, чтобы разделить субъектов на две подгруппы: группа лечения (T) и контрольная группа (C), так что для каждой особенности количество субъектов, у которых есть эта особенность в T, примерно равно количеству субъектов, у которых есть эта особенность в CEg, в обеих группах должно быть примерно одинаковое количество молодых людей, одинаковое количество чернокожих, столько же высоких и т. д.

Матричное представление

Формально задачу балансировки множества можно описать следующим образом.

количество субъектов в общей популяции.

- количество потенциальных возможностей.

Сюжеты описаны , матрица с записями в . Каждый столбец представляет тему, а каждая строка представляет функцию. если предмет имеет особенность , и если предмет не имеет функции .

Разделение на группы описывается , вектор с записями в . если предмет находится в группе лечения Т и подлежит находится в контрольной группе C.

Баланс функций описывается . Это вектор. Числовое значение это дисбаланс в функции : если то есть еще предметы с в T и если то есть еще предметы с в C.

В дисбаланс данного раздела определяется как:

Задача балансировки множества - найти вектор что сводит к минимуму дисбаланс .

Рандомизированный алгоритм

Приблизительное решение можно найти с помощью следующих очень простых рандомизированный алгоритм:

Отправьте каждого испытуемого в группу лечения с вероятностью 1/2.

В матричной формулировке:

Выберите элементы случайным образом с вероятностью 1/2 для каждого значения в {1, -1}.

Как ни удивительно, хотя этот алгоритм полностью игнорирует матрицу , достигается небольшой дисбаланс с большой вероятностью когда есть много функций. Формально для случайного вектора :

ДОКАЗАТЕЛЬСТВО:

Позволять быть общим количеством субъектов, у которых есть особенности (эквивалентно, количество единиц в -я матрицы ). Рассмотрим следующие два случая:

Легкий случай: . Тогда с вероятностью 1 дисбаланс признака (что мы отметили ) не более .

Трудный случай: . Для каждого , позволять . Каждый такой - случайная величина, которая может иметь значение 1 или -1 с вероятностью 1/2. Несбалансированность функции является: . Поскольку независимые случайные величины, согласно Граница Чернова, для каждого :

Выбирать: и получить:

Посредством связанный союз,

.

Рекомендации

  1. ^ Митценмахер, Майкл и Упфаль, Эли (2005). Вероятность и вычисления: рандомизированные алгоритмы и вероятностный анализ. Издательство Кембриджского университета. ISBN  0-521-83540-2.