Обучение контрастному набору - Contrast set learning - Wikipedia

Обучение контрастному набору это форма изучение правил ассоциации который направлен на выявление значимых различий между отдельными группами путем обратного проектирования ключевых предикторов, которые идентифицируются для каждой конкретной группы. Например, учитывая набор атрибутов для группы студентов (помеченных по типу степени), учащийся с контрастным набором определит контрастирующий особенности между студентами, желающими получить степень бакалавра, и теми, кто стремится получить степень доктора наук.

Обзор

Обычная практика в сбор данных должен классифицировать, чтобы посмотреть на атрибуты объекта или ситуации и предположить, к какой категории относится наблюдаемый объект. По мере изучения новых доказательств (обычно путем кормления Обучающий набор к обучению алгоритм ) эти догадки уточняются и улучшаются. Обучение набору контраста работает в обратном направлении. В то время как классификаторы считывают набор данных и собирают информацию, которая используется для помещения новых данных в серию дискретных категорий, изучение набора контрастов берет категорию, к которой принадлежит элемент, и пытается реконструировать статистическое свидетельство, которое идентифицирует элемент как член. класса. То есть учащиеся с контрастным набором ищут правила, связывающие значения атрибутов с изменениями в распределении классов.[1] Они стремятся определить ключевые предикторы, которые отличают одну классификацию от другой.

Например, аэрокосмический инженер может записывать данные об испытательных запусках новой ракеты. Измерения будут проводиться через регулярные промежутки времени на протяжении всего запуска, с учетом таких факторов, как траектория полета ракеты, рабочие температуры, внешнее давление и так далее. Если запуск ракеты завершится неудачей после ряда успешных испытаний, инженер может использовать обучение с помощью набора контрастов, чтобы различать успешные и неудачные испытания. Обучающийся набор контрастов создаст набор ассоциативных правил, которые при применении будут указывать ключевые предикторы каждого неудачного теста по сравнению с успешным (температура была слишком высокой, давление ветра было слишком высоким и т. Д.).

Обучение набору контраста - это форма изучение правил ассоциации.[2] Учащиеся, изучающие правила ассоциации, обычно предлагают правила, связывающие атрибуты, обычно встречающиеся вместе в учебном наборе (например, люди, которые участвуют в четырехлетних программах и проходят полный курс обучения, как правило, также живут рядом с университетским городком). Вместо того, чтобы находить правила, описывающие текущую ситуацию, учащиеся из контрастного набора ищут правила, которые существенно различаются по своему распределению по группам (и, таким образом, могут использоваться в качестве предикторов для этих групп).[3] Например, учащийся с контрастным набором может спросить: «Каковы ключевые идентификаторы человека со степенью бакалавра или человека со степенью доктора философии, и чем люди со степенями доктора философии и бакалавра различаются?»

Стандарт классификатор алгоритмы, такие как C4.5, не имеют понятия важности класса (то есть они не знают, является ли класс «хорошим» или «плохим»). Такие учащиеся не могут искажать или фильтровать свои прогнозы в отношении определенных желаемых классов. Поскольку цель обучения с использованием набора контрастов - выявить значимые различия между группами, полезно иметь возможность ориентировать изученные правила на определенные классификации. Несколько учащихся с контрастным набором, например MINWAL[4] или семейство алгоритмов TAR,[5][6][7] назначьте веса каждому классу, чтобы сосредоточить изученные теории на результатах, представляющих интерес для конкретной аудитории. Таким образом, обучение с использованием набора контрастов можно рассматривать как форму взвешенного обучения в классе.[8]

Пример: покупки в супермаркете

Различия между стандартной классификацией, изучением ассоциативных правил и изучением контрастных наборов можно проиллюстрировать простой метафорой супермаркета. В следующем небольшом наборе данных каждая строка представляет собой транзакцию в супермаркете, и каждая цифра «1» указывает на то, что товар был куплен («0» указывает, что товар не был приобретен):

ГамбургерКартофельФуа-граЛукшампанскоеЦель покупки
11010Готовка
11010Готовка
00101Годовщина
11010Готовка
11001Братская вечеринка

Учитывая эти данные,

  • Изучение правил ассоциации может обнаружить, что клиенты, которые вместе покупают лук и картофель, скорее всего, также купят мясо для гамбургеров.
  • Классификация может обнаружить, что клиенты, которые покупали лук, картофель и гамбургеры, покупали продукты для приготовления еды.
  • Изучение набора контрастов может обнаружить, что основное различие между покупателями, покупающими кулинарный ужин, и теми, кто покупает на юбилейный ужин, состоит в том, что покупатели, приобретающие продукты для кулинарного ужина, покупают лук, картофель и мясо для гамбургеров не покупай фуа-гра или шампанское).

Обучение лечению

Обучение лечению - это форма обучения с взвешенным набором контрастов, которая требует одного желательно группу и противопоставляет ее остальным нежелательный группы (уровень желательности представлен взвешенными классами).[5] Получающееся «лечение» предлагает набор правил, применение которых приведет к желаемому результату.

Обучение лечению отличается от обучения стандартному набору контрастов следующими ограничениями:

  • Вместо того, чтобы искать различия между всеми группами, обучение лечению определяет конкретную группу, на которой нужно сосредоточиться, применяет вес к этой желаемой группе и объединяет оставшиеся группы в одну «нежелательную» категорию.
  • При обучении лечению основное внимание уделяется минимальным теориям. На практике лечение ограничено максимум четырьмя ограничениями (т. Е. Вместо того, чтобы указывать все причины, по которым ракета отличается от скейтборда, обучающийся будет указывать от одного до четырех основных различий, которые предсказывают для ракет на высоком уровне статистических данных. значимость).

Акцент на простоте - важная цель для изучающих лечение. Обучение лечению направлено на самый маленький изменение, которое имеет величайший влияние на классовое распределение.[8]

Концептуально учащиеся лечения исследуют все возможные подмножества диапазона значений для всех атрибутов. Такой поиск часто невозможен на практике, поэтому обучение лечению часто фокусируется вместо этого на быстром сокращении и игнорировании диапазонов атрибутов, которые при применении приводят к распределению классов, при котором желаемый класс находится в меньшинстве.[7]

Пример: данные о жилищном строительстве в Бостоне

В следующем примере демонстрируются выходные данные TAR3 учащегося лечения в наборе данных о жилье из города Бостон (нетривиальный общедоступный набор данных с более чем 500 примерами). В этом наборе данных для каждого дома собирается ряд факторов, и каждый дом классифицируется в соответствии с его качеством (низкое, средне-низкое, средне-высокое и высокое). В желанный class установлен на "high", а все остальные классы объединены как нежелательные.

Результат лечения учащегося выглядит следующим образом:

Базовое распределение классов: низкое: 29% среднее низкое: 29% среднее высокое: 21% высокое: 21% Предлагаемое лечение: [PTRATIO = [12.6..16), RM = [6.7..9.78)] Новое распределение классов: низкое: 0% средний уровень: 0% средний высокий: 3% высокий: 97%


Без применяемых обработок (правил) желаемый класс составляет только 21% от распределения классов. Однако если отфильтровать набор данных для домов с 6,7–9,78 комнатами и соотношением родителей и учителей по соседству от 12,6 до 16, то 97% оставшихся примеров попадут в желаемый класс (дома высокого качества).

Алгоритмы

Существует ряд алгоритмов, которые выполняют обучение набора контраста. В следующих подразделах описаны два примера.

STUCCO

Ученик контрастного набора STUCCO[1][3] рассматривает задачу обучения на контрастных наборах как поиск по дереву проблема, когда корневой узел дерева представляет собой пустой набор контраста. Дочерние элементы добавляются путем добавления в набор дополнительных элементов, выбранных с помощью канонического упорядочения атрибутов (чтобы не посещать одни и те же узлы дважды). Дочерние элементы формируются путем добавления терминов, следующих за всеми существующими терминами в заданном порядке. Сформированное дерево ищется в ширину. Учитывая узлы на каждом уровне, набор данных сканируется, и поддержка подсчитывается для каждой группы. Затем каждый узел проверяется, чтобы определить, является ли он значительным и большим, следует ли его сокращать и создавать ли новые дочерние узлы. После того, как все значимые наборы контрастов обнаружены, постпроцессор выбирает подмножество для демонстрации пользователю - сначала показываются более простые результаты низкого порядка, а затем результаты более высокого порядка, которые «удивительны и существенно отличаются».[3]"

Расчет поддержки основан на проверке нулевой гипотезы о том, что поддержка набора контрастов одинакова для всех групп (т. Е. Поддержка набора контрастов равна независимо от членства в группе). Счетчик поддержки для каждой группы - это значение частоты, которое можно проанализировать в таблице непредвиденных обстоятельств, где каждая строка представляет истинное значение набора контрастов, а каждая переменная столбца указывает частоту членства в группе. Если есть разница в пропорциях между частотами набора контрастов и частотами нулевой гипотезы, алгоритм должен затем определить, представляют ли различия в пропорциях связь между переменными, или это может быть отнесено к случайным причинам. Это можно определить с помощью критерий хи-квадрат сравнение наблюдаемой частоты с ожидаемой.

Узлы удаляются из дерева, когда все специализации узла никогда не могут привести к значительному и большому набору контраста. Решение об обрезке основано на:

  • Минимальный размер отклонения: максимальная разница между поддержкой любых двух групп должна быть больше установленного пользователем порога.
  • Ожидаемые частоты ячеек: Ожидаемые частоты ячеек в таблице непредвиденных обстоятельств могут только уменьшаться, поскольку набор контрастности является специализированным. Когда эти частоты слишком малы, действие критерия хи-квадрат нарушается.
  • границы: сохраняется верхняя граница распределения статистики, вычисляемой, когда нулевая гипотеза верна. Узлы обрезаются, когда больше невозможно выполнить это ограничение.

TAR3

TAR3[6][9] ученик с взвешенным контрастным набором основан на двух фундаментальных концепциях: поднимать и поддерживать набора правил.

Подъем набора правил - это изменение, которое какое-то решение вносит в набор примеров после наложения этого решения (то есть, как изменяется распределение классов в ответ на введение правила). TAR3 ищет наименьший набор правил, который вызывает наибольшие изменения в сумме весов, присвоенных каждому классу, умноженных на частоту, с которой каждый класс встречается. Прирост рассчитывается путем деления оценки набора, в котором установлен набор правил, на оценку базового набора (т. Е. Правила не применяются). Обратите внимание, что, изменив функцию подсчета лифта, учащийся TAR3 может также выбрать оставшиеся классы и отклонить целевой класс.

Довольно проблематично полагаться только на подъем набора правил. Неправильный или вводящий в заблуждение шум данных, если он коррелирует с неудачными примерами, может привести к переобучению набора правил. Такая переоборудованная модель может иметь большой показатель подъемной силы, но она не точно отражает преобладающие условия в наборе данных. Чтобы избежать переобучения, TAR3 использует порог поддержки и отклоняет все правила, которые не соответствуют этому порогу. Для заданного целевого класса порог поддержки - это задаваемое пользователем значение (обычно 0,2), которое сравнивается с отношением частоты целевого класса, когда набор правил был применен, к частоте этого класса в общем наборе данных. TAR3 отклоняет все наборы правил с поддержкой ниже этого порога.

Требуя как высокого подъема, так и высокого значения поддержки, TAR3 не только возвращает идеальные наборы правил, но и поддерживает меньшие наборы правил. Чем меньше правил будет принято, тем больше будет доказательств, подтверждающих эти правила.

Алгоритм TAR3 строит наборы правил только из диапазонов значений атрибутов с высоким эвристическим значением. Алгоритм определяет, какие диапазоны использовать, сначала определяя оценку подъема диапазонов значений каждого атрибута. Эти индивидуальные оценки затем сортируются и преобразуются в кумулятивное распределение вероятностей. TAR3 случайным образом выбирает значения из этого распределения, поэтому маловероятно, что будут выбраны диапазоны с низкой оценкой. Для создания подходящего набора правил выбираются и объединяются несколько диапазонов. Затем эти подходящие наборы правил оцениваются и сортируются. Если после определенного пользователем количества раундов улучшения не наблюдается, алгоритм завершает работу и возвращает наборы правил с наивысшей оценкой.

Рекомендации

  1. ^ а б Стивен Бэй; Майкл Паццани (2001). «Выявление групповых различий: наборы контрастов для майнинга» (PDF). Интеллектуальный анализ данных и обнаружение знаний. 5 (3): 213–246. Дои:10.1023 / А: 1011429418057. S2CID  2941550.
  2. ^ Г.И. Уэбб; С. Батлер; Д. Ньюлендс (2003). Об обнаружении различий между группами. KDD'03 Материалы девятой Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных.
  3. ^ а б c Стивен Бэй; Майкл Паццани (1999). Обнаружение изменений в категориальных данных: наборы контрастов для интеллектуального анализа данных. KDD '99 Труды пятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.
  4. ^ C.H. Цай; A.W.C. Фу; C.H. Ченг; W.W. Квонг (1998). Правила ассоциации интеллектуального анализа данных с взвешенными элементами (PDF). Труды Международного симпозиума по разработке баз данных и приложениям (IDEAS 98).
  5. ^ а б Ю. Ху (2003). Обучение лечению: реализация и применение (Дипломная работа). Кафедра электротехники Университета Британской Колумбии.
  6. ^ а б К. Гунди-Бурлет; Дж. Шуман; Т. Барретт; Т. Мензис (2007). Параметрический анализ алгоритмов управления входом в атмосферу ANTARES с использованием расширенных тестов и анализа данных. В 9-м Международном симпозиуме по искусственному интеллекту, робототехнике и автоматизации в космосе.
  7. ^ а б Грегори Гей; Тим Мензис; Мисти Дэвис; Карен Ганди-Бурлет (2010). «Автоматический поиск управляющих переменных для сложного поведения системы» (PDF). Автоматизированная разработка программного обеспечения. 17 (4).
  8. ^ а б Т. Мензис; Ю. Ху (2003). «Интеллектуальный анализ данных для очень занятых людей» (PDF). IEEE Computer. 36 (11): 22–29. Дои:10.1109 / mc.2003.1244531.
  9. ^ Дж. Шуман; К. Гунди-Бурлет; К. Пасареану; Т. Мензис; А. Барретт (2009). Программная V&V поддержка путем параметрического анализа больших программных систем моделирования. Материалы аэрокосмической конференции IEEE 2009.