Оптимизация естественных перерывов Дженкса - Jenks natural breaks optimization

В Метод оптимизации Дженкса, также называемый Метод классификации естественных разрывов Дженкса, это кластеризация данных Метод, предназначенный для определения наилучшего распределения значений по различным классам. Это делается путем стремления минимизировать среднее отклонение каждого класса от среднего класса, при этом максимизируя отклонение каждого класса от средних значений других групп. Другими словами, метод стремится уменьшить отклонение внутри классов и максимизировать разницу между классами.[1][2]

Метод оптимизации Дженкса напрямую связан с Метод Оцу и Дискриминантный анализ Фишера.

История

Джордж Фредерик Дженкс

Джордж Фредерик Дженкс был американцем 20 века. картограф. Получил степень доктора философии. в аграрной географии от Сиракузский университет в 1947 году Дженкс начал свою карьеру под опекой Ричард Харрисон картограф для Время и Удача журнал.[3] Он поступил на факультет Канзасский университет в 1949 году и начал строить картографическую программу. За 37 лет работы в KU Дженкс превратил программу «Картография» в одну из трех программ, известных своим последипломным образованием в этой области; остальные являются Университет Висконсина и Вашингтонский университет. Много времени он тратил на разработку и продвижение улучшенных картографических методов и программ обучения. Он также потратил много времени на изучение трехмерных карт, исследование движения глаз, тематическая карта общение и геостатистика.[2][3][4]

Предпосылки и развитие

Дженкс по профессии был картографом. Его работа с статистика вырос из желания сделать хороплетные карты более визуально точный для зрителя. В своей статье Концепция модели данных в статистическом картировании, он утверждает, что, визуализируя данные в трехмерной модели, картографы могли бы разработать «систематический и рациональный метод подготовки хороплетических карт».[1] Дженкс использовал аналогию с «одеялом ошибки», чтобы описать необходимость использования элементов, отличных от среднего, для обобщения данных. Трехмерные модели были созданы, чтобы помочь Дженксу визуализировать разницу между классами данных. Его цель состояла в том, чтобы обобщить данные с использованием как можно меньшего количества самолетов и поддерживать постоянное «одеяло ошибок».

Описание метода

Метод требует итеративного процесса. То есть, вычисления должны быть повторены с использованием различных разрывов в наборе данных, чтобы определить, какой набор разрывов имеет наименьшее значение в классе. отклонение. Процесс начинается с разделения упорядоченных данных на группы. Первоначальное деление группы может быть произвольным. Необходимо повторить три шага:

  1. Рассчитайте сумму квадратов отклонений от среднего класса (SDCM).
  2. Рассчитайте сумму квадратов отклонений от среднего значения массива (SDAM).
  3. После проверки каждого SDCM принимается решение о перемещении одного блока из класса с более крупным SDCM в соседний класс с более низким SDCM.

Затем рассчитываются новые отклонения по классам, и процесс повторяется до тех пор, пока сумма отклонений в пределах класса не достигнет минимального значения.[1][5]

В качестве альтернативы могут быть проверены все комбинации разрывов, рассчитан SDCM для каждой комбинации и выбрана комбинация с наименьшим SDCM. Поскольку проверяются все комбинации разрывов, это гарантирует, что будет найдена комбинация с наименьшим SDCM.

Наконец, рассчитывается степень согласия дисперсии (GVF). GVF определяется как (SDAM - SDCM) / SDAM. GVF варьируется от 0 (наихудшее соответствие) до 1 (идеальное соответствие).

Использование в картографии

Целью Дженкса при разработке этого метода было создание карты, которая была бы абсолютно точной с точки зрения представления пространственных атрибутов данных. Следуя этому процессу, утверждает Дженкс, «покров ошибки» можно равномерно распределить по отображаемой поверхности. Он разработал это с намерением использовать относительно немного классов данных, меньше семи, потому что это был предел при использовании монохроматического затенения на хороплетической карте.[1]

Картограмма по классификации Дженкса.

Метод классификации Дженкса обычно используется в тематических картах, особенно картограммах, как один из нескольких доступных методов классификации. При создании картограмм метод классификации Дженкса может быть полезным, потому что, если в значениях данных есть кластеры, он их идентифицирует. Фактически, в текущих версиях программного обеспечения ArcGIS от Esri Jenks является методом классификации по умолчанию. Однако классификация Дженкса не рекомендуется для данных с низкой дисперсией. Естественные разрывы Дженкса в данных используются для обеспечения более осмысленной визуализации данных карты на основе «естественных разрывов» в данных, идентифицированных итеративным процессом.

Альтернативные методы

Другие методы классификации данных включают: Голова / хвост ломается, Естественные перерывы (без оптимизации Дженкса), равный интервал, квантиль и стандартное отклонение.

Смотрите также

  • k-означает кластеризацию, обобщение для многомерных данных (оптимизация естественных разрывов Дженкса кажется одномерным k-средним[6]).

Рекомендации

  1. ^ а б c d Дженкс, Джордж Ф. 1967. «Концепция модели данных в статистическом картографировании», Международный ежегодник картографии 7: 186–190.
  2. ^ а б Макмастер, Роберт, «Памяти Джорджа Ф. Дженкса (1916–1996)». Картография и географическая информатика. 24 (1) с. 56-59.
  3. ^ а б Макмастер, Роберт и Макмастер, Сюзанна. 2002. «История американской академической картографии двадцатого века», Картография и географическая информатика. 29 (3) с.312-315.
  4. ^ Специализированная группа картографии CSUN, Информационный бюллетень зимы 1997 года В архиве 2010-06-07 на Wayback Machine
  5. ^ ESRI FAQ, Что такое метод оптимизации Дженкса В архиве 2007-11-16 на Wayback Machine.
  6. ^ «Глава 9».

внешняя ссылка