Функция (машинное обучение) - Feature (machine learning) - Wikipedia

В машинное обучение и распознавание образов, а особенность - индивидуальное измеримое свойство или характеристика наблюдаемого явления. [1] Выбор информативных, различающих и независимых функций является важным шагом для эффективных алгоритмов в распознавание образов, классификация и регресс. Элементы обычно числовые, но структурные элементы, такие как струны и графики используются в распознавание синтаксических образов.Понятие «особенность» связано с концепцией объясняющая переменная используется в статистический такие методы, как линейная регрессия.

Классификация

Набор числовых признаков можно удобно описать вектором признаков. двоичная классификация использует функция линейного предиктора (связанный с перцептрон ) с вектором признаков в качестве входных данных. Метод состоит из расчета скалярное произведение между вектором признаков и вектором весов, сравнивая результат с порогом и выбирая класс на основе сравнения.

Алгоритмы классификации по вектору признаков включают: классификация ближайшего соседа, нейронные сети, и статистические методы Такие как Байесовские подходы.

Примеры

В распознавание символов, функции могут включать гистограммы подсчет количества черных пикселей по горизонтали и вертикали, количество внутренних отверстий, обнаружение штрихов и многое другое.

В распознавание речи, особенности распознавания фонемы может включать коэффициенты шума, длину звуков, относительную мощность, совпадения фильтров и многое другое.

В спам алгоритмы обнаружения, функции могут включать наличие или отсутствие определенных заголовков электронной почты, структуру электронной почты, язык, частоту использования определенных терминов, грамматическую правильность текста.

В компьютерное зрение, существует большое количество возможных Особенности, например края и объекты.

Расширения

В распознавание образов и машинное обучение, а вектор признаков является n-мерным вектор числовых характеристик, которые представляют какой-либо объект. Много алгоритмы в машинном обучении требуется числовое представление объектов, поскольку такие представления облегчают обработку и статистический анализ. При представлении изображений значения признаков могут соответствовать пикселям изображения, а при представлении текстов признаками могут быть частоты встречаемости текстовых терминов. Векторы признаков эквивалентны векторам объясняющие переменные используется в статистический такие процедуры как линейная регрессия. Векторы признаков часто комбинируются с весами с помощью скалярное произведение чтобы построить функция линейного предиктора который используется для определения оценки для прогнозирования.

В векторное пространство связанные с этими векторами, часто называют пространство функций. Чтобы уменьшить размерность пространства признаков, ряд уменьшение размерности могут быть использованы методы.

Возможности более высокого уровня могут быть получены из уже имеющихся функций и добавлены в вектор признаков; например, для изучения болезней полезна функция «Возраст», которая определяется как Возраст = "Год смерти" минус "Год рождения" . Этот процесс называется построение функций.[2][3] Построение функций - это применение набора конструктивных операторов к набору существующих функций, в результате чего создаются новые функции. Примеры таких конструктивных операторов включают проверку условий равенства {=, ≠}, арифметических операторов {+, -, ×, /}, операторов массива {max (S), min (S), среднего (S)} как а также другие более сложные операторы, например count (S, C)[4] который подсчитывает количество признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до других классов распознавания, обобщенные некоторым принимающим устройством. Построение признаков долгое время считалось мощным инструментом для повышения точности и понимания структуры, особенно в задачах большой размерности.[5] Приложения включают исследования болезней и распознавание эмоций из речи.[6]

Выбор и извлечение

Первоначальный набор необработанных функций может быть избыточным и слишком большим для управления. Таким образом, предварительный шаг во многих приложениях машинное обучение и распознавание образов состоит из выбор подмножество функций или строительство новый и сокращенный набор функций для облегчения обучения, улучшения обобщения и интерпретируемости[нужна цитата ].

Извлечение или же выбор особенности - это сочетание искусства и науки; разработка систем для этого известна как разработка функций. Это требует экспериментирования с множеством возможностей и комбинации автоматизированных методов с интуицией и знаниями эксперт в предметной области. Автоматизация этого процесса особенности обучения, где машина не только использует функции для обучения, но и сама изучает функции.

Смотрите также

Рекомендации

  1. ^ Епископ, Кристофер (2006). Распознавание образов и машинное обучение. Берлин: Springer. ISBN  0-387-31073-8.
  2. ^ Лю Х., Мотода Х. (1998) Выбор функций для обнаружения знаний и интеллектуального анализа данных., Kluwer Academic Publishers. Норвелл, Массачусетс, США. 1998 г.
  3. ^ Пирамуту, С., Сикора Р. Т. Итеративное построение функций для улучшения алгоритмов индуктивного обучения. В журнале экспертных систем с приложениями. Vol. 36, вып. 2 (март 2009 г.), стр. 3401-3406, 2009 г.
  4. ^ Блодорн, Э., Михальски, Р. Конструктивная индукция, управляемая данными: методология и ее приложения. Интеллектуальные системы IEEE, специальный выпуск о преобразовании признаков и выборе подмножества, стр. 30-37, март / апрель 1998 г.
  5. ^ Брейман, Л. Фридман, Т., Олшен, Р., Стоун, К. (1984) Деревья классификации и регрессии, Уодсворт
  6. ^ Сидорова Дж., Бадиа Т. Синтаксическое обучение для ESEDA.1, инструмент для расширенного обнаружения и анализа речевых эмоций. Конференция по Интернет-технологиям и защищенным сделкам 2009 г. (ICITST-2009), Лондон, 9–12 ноября. IEEE