Передискретизация и недостаточная выборка при анализе данных - Oversampling and undersampling in data analysis

Передискретизация и недостаточная выборка в анализе данных используются методы, позволяющие настроить распределение классов набор данных (т.е. соотношение между различными представленными классами / категориями). Эти термины используются как в статистической выборке, так и в методологии разработки обследований, а также в машинное обучение.

Передискретизация и недостаточная выборка - противоположные и примерно эквивалентные методы. Существуют также более сложные методы передискретизации, включая создание искусственных точек данных. ^[1]^[2].

Мотивация передискретизации и недостаточной выборки

И передискретизация, и недостаточная выборка включают введение предвзятость для отбора большего количества образцов из одного класса, чем из другого, чтобы компенсировать дисбаланс, который либо уже присутствует в данных, либо может развиться, если будет взята чисто случайная выборка. Дисбаланс данных может быть следующих типов:

Недостаточное представление класса в одной или нескольких важных переменных-предикторах. Предположим, что для решения вопроса о гендерной дискриминации у нас есть данные опроса о заработной плате в определенной области, например, компьютерное программное обеспечение. Известно, что женщины значительно недопредставлены в случайной выборке инженеров-программистов, что было бы важно при поправке на другие переменные, такие как стаж и текущий стаж. Предположим, только 20% разработчиков программного обеспечения - женщины, то есть мужчин в 4 раза чаще, чем женщин. Если бы мы разрабатывали опрос для сбора данных, мы бы опросили женщин в 4 раза больше, чем мужчин, так что в окончательной выборке оба пола будут представлены в равной степени. (Смотрите также Стратифицированная выборка.)
Недопредставленность одного класса в выходной (зависимой) переменной. Предположим, мы хотим предсказать на основе большого набора клинических данных, у каких пациентов может развиться конкретное заболевание (например, диабет). Однако предположим, что только у 10% пациентов развивается болезнь. Предположим, у нас есть большой существующий набор данных. Затем мы можем выбрать 1/9 числа пациентов, у которых не развилось заболевание, на каждого пациента, у которого заболевание развилось.

Конечным результатом избыточной / недостаточной выборки является создание сбалансированный набор данных. Многие методы машинного обучения, такие как нейронные сети, делать более надежные прогнозы, обучаясь на сбалансированных данных. Однако некоторые аналитические методы, в частности линейная регрессия и логистическая регрессия, не используйте балансирующий подход.^{[нужна цитата ]}

Избыточная выборка обычно используется чаще, чем недостаточная выборка, особенно когда подробные данные еще не были собраны с помощью опроса, интервью или иным образом. Недостаточная выборка применяется гораздо реже. Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», и причины использования недостаточной выборки в основном практические и связаны с затратами ресурсов. В частности, хотя для получения достоверных статистических выводов требуется достаточно большой размер выборки, данные должны быть очищенный прежде, чем его можно будет использовать. Очистка обычно включает в себя значительный человеческий компонент и, как правило, зависит от набора данных и аналитической задачи и, следовательно, требует времени и денег. Например:

Эксперты в предметной области предложат специальные средства проверки для набора данных, включающие не только проверки внутри переменных (допустимые значения, максимальные и минимально возможные допустимые значения и т. Д.), Но и проверки между переменными. Например, отдельные компоненты дифференциальное количество лейкоцитов все должно составлять в сумме 100, потому что каждое - это процент от общей суммы.

Данные, встроенные в повествовательный текст (например, стенограммы интервью), должны быть вручную закодированы в дискретные переменные, с которыми может справиться пакет статистического или машинного обучения. Чем больше данных, тем больше усилий по кодированию. (Иногда кодирование может быть выполнено с помощью программного обеспечения, но часто кто-то должен написать для этого индивидуальную разовую программу, и выходные данные программы должны быть проверены на точность с точки зрения ложноположительных и ложноотрицательных результатов.)

По этим причинам обычно очищают столько данных, сколько необходимо для ответа на вопрос с разумной статистической достоверностью (см. Размер выборки), но не более того.

Методы передискретизации для задач классификации

Случайная передискретизация

Случайная передискретизация включает дополнение обучающих данных несколькими копиями некоторых классов меньшинства. Передискретизация может выполняться более одного раза (2x, 3x, 5x, 10x и т. Д.). Это один из первых предложенных методов, который также оказался надежным. ^[3] Вместо того чтобы дублировать каждую выборку в классе меньшинства, некоторые из них могут быть выбраны случайным образом с заменой.

SMOTE

Существует ряд методов, доступных для передискретизации набора данных, используемого в типичной задаче классификации (с использованием алгоритма классификации для классификации набора изображений с учетом помеченного обучающего набора изображений). Наиболее распространенный метод известен как SMOTE: метод передискретизации синтетического меньшинства.^[4] Чтобы проиллюстрировать, как работает этот метод, рассмотрим некоторые обучающие данные, которые s образцы и ж особенности в пространстве признаков данных. Обратите внимание, что эти функции для простоты являются непрерывными. В качестве примера рассмотрим набор данных о птицах для классификации. Пространством признаков для класса меньшинства, для которого мы хотим увеличить выборку, могут быть длина клюва, размах крыльев и вес (все непрерывно). Чтобы затем выполнить передискретизацию, возьмите образец из набора данных и рассмотрите его k ближайшие соседи (в пространстве функций). Чтобы создать точку синтетических данных, возьмите вектор между одним из этих k соседи и текущая точка данных. Умножьте этот вектор на случайное число Икс который находится между 0 и 1. Добавьте это к текущей точке данных, чтобы создать новую точку синтетических данных.

С момента его предложения в метод SMOTE было внесено множество изменений и расширений. ^[5]

АДАСИН

Подход адаптивной синтетической выборки или алгоритм ADASYN,^[6] основан на методологии SMOTE, смещая важность границы классификации на те классы меньшинств, которые являются трудными. ADASYN использует взвешенное распределение для различных примеров классов меньшинств в соответствии с их уровнем сложности в обучении, где больше синтетических данных генерируется для примеров классов меньшинств, которые труднее изучить.

Методы недостаточной выборки для задач классификации

Случайная недостаточная выборка

Произвольно удаляйте образцы из большинства классов с заменой или без нее. Это один из самых ранних методов, используемых для устранения дисбаланса в наборе данных, однако он может увеличить дисперсию классификатора и потенциально может отбросить полезные или важные образцы. ^[5]

Кластер

Центроид кластера - это метод, который заменяет кластер выборок центроидом кластера алгоритма K-средних, где количество кластеров задается уровнем недостаточной выборки.

Томек ссылки

Ссылки Tomek устраняют нежелательное перекрытие между классами, при этом ссылки большинства классов удаляются до тех пор, пока все пары ближайших соседей, минимально удаленные друг от друга, не будут принадлежать к одному классу. Ссылка Tomek определяется следующим образом: задана пара экземпляров ${displaystyle (x_ {i}, x_ {j})}$ , куда ${displaystyle x_ {i} в S_ {min}, x_ {j} в S_ {operatorname {max}}}$ и ${displaystyle d (x_ {i}, x_ {j})}$ это расстояние между ${displaystyle x_ {i}}$ и ${displaystyle x_ {j}}$ , то пара ${displaystyle (x_ {i}, x_ {j})}$ называется ссылкой Tomek, если нет экземпляра ${displaystyle x_ {k}}$ такой, что ${displaystyle d (x_ {i}, x_ {k})$ или же ${displaystyle d (x_ {j}, x_ {k})$ . Таким образом, если два экземпляра образуют ссылку Tomek, то либо один из этих экземпляров является шумом, либо оба находятся рядом с границей. Таким образом, можно использовать ссылки Tomek, чтобы убрать перекрытие между классами. Удалив перекрывающиеся примеры, можно создать четко определенные кластеры в обучающем наборе и повысить эффективность классификации.

Недовыборка с ансамблевым обучением

Недавнее исследование показывает, что комбинация недостаточной выборки с ансамблевым обучением может достичь лучших результатов, см. IFME: фильтрация информации по нескольким примерам с недостаточной выборкой в среде цифровой библиотеки.^[7]

Дополнительные техники

Можно объединить методы передискретизации и недостаточной выборки в гибридную стратегию. Общие примеры включают ссылки SMOTE и Tomek или SMOTE и отредактированные ближайшие соседи (ENN). Дополнительные способы обучения на несбалансированных наборах данных включают взвешивание обучающих примеров, введение различных затрат на неправильную классификацию для положительных и отрицательных примеров и самонастройку ^[8].

Реализации

В пакете imbalanced-learn реализованы различные методы повторной выборки данных. ^[1] совместим с интерфейсом Python scikit-learn. Методы повторной выборки реализованы в четырех различных категориях: недостаточная выборка класса большинства, передискретизация класса меньшинства, объединение избыточной и недостаточной выборки и объединение выборки.
Реализация Python 85 техник передискретизации меньшинства с функциями выбора модели доступна в сглаженных вариантах. ^[2] упаковка.