Индекс несходства - Index of dissimilarity

В индекс несходства это демографический мера равномерности, с которой две группы распределены по составляющим географическим областям, составляющим большую территорию. Показатель индекса также можно интерпретировать как процент одной из двух групп, включенных в расчет, которые должны были бы переместиться в разные географические области, чтобы получить распределение, соответствующее распределению в большей области. Индекс несходства может использоваться как мера сегрегации.

Основная формула

Основная формула индекса несходства:

{ displaystyle D = { frac {1} {2}} sum _ {i = 1} ^ {N} left | { frac {a_ {i}} {A}} - { frac {b_ { i}} {B}} right |}

где (например, сравнивая черно-белое население):

а_я = население группы А в я^th площадь, например переписной тракт

А = общая численность населения в группе А в крупном географическом объекте, для которого рассчитывается индекс несходства.

б_я = население группы B в я^th площадь

B = общая численность населения в группе B в крупном географическом объекте, для которого рассчитывается индекс несходства.

Индекс несходства применим к любому категориальная переменная (демографический или нет) и благодаря своим простым свойствам полезен для ввода в программы многомерного масштабирования и кластеризации. Он широко использовался при изучении социальная мобильность для сравнения распределения по профессиональным категориям происхождения (или назначения).

Перспектива линейной алгебры

Формулу для индекса несходства можно сделать гораздо более компактной и содержательной, если рассматривать ее с точки зрения Линейная алгебра. Предположим, мы изучаем распределение богатых и бедных людей в городе (например, Лондон ). Допустим, в нашем городе есть ${ displaystyle N}$ блоки:

${ displaystyle {{ text {block 1}}, { text {block 2}}, ldots, { text {block N}} }}$

Создадим вектор ${ displaystyle mathbf {r}}$ который показывает количество богатых людей в каждом квартале нашего города:

${ Displaystyle mathbf {r} = [r_ {1}, r_ {2}, cdots, r_ {N}]}$

Аналогично создадим вектор ${ displaystyle mathbf {p}}$ который показывает количество бедных в каждом квартале нашего города:

${ Displaystyle mathbf {p} = [p_ {1}, p_ {2}, cdots, p_ {N}]}$

Теперь ${ Displaystyle L ^ {1}}$ -норма вектора - это просто сумма (величина) каждой записи в этом векторе.^[1] То есть для вектора ${ Displaystyle mathbf {v} = [v_ {1}, v_ {2}, cdots, v_ {N}]}$ , у нас есть ${ Displaystyle L ^ {1}}$ -норма:

${ displaystyle | mathbf {v} | _ {1} = sum _ {i = 1} ^ {N} | v_ {i} |}$

Если обозначить ${ displaystyle R}$ как общее количество богатых людей в нашем городе, чем компактный способ подсчитать ${ displaystyle R}$ было бы использовать ${ Displaystyle L ^ {1}}$ -норма:

${ Displaystyle R = | mathbf {r} | _ {1} = sum _ {i = 1} ^ {N} | r_ {i} |}$

Аналогично, если обозначить ${ displaystyle P}$ как общее количество бедных в нашем городе, то:

${ Displaystyle P = | mathbf {p} | _ {1} = sum _ {i = 1} ^ {N} | p_ {i} |}$

Когда мы делим вектор ${ displaystyle mathbf {v}}$ по его норме мы получаем так называемый нормализованный вектор или Единичный вектор ${ displaystyle { hat { mathbf {v}}}}$ :

${ displaystyle { hat { mathbf {v}}} = { frac { mathbf {v}} {| mathbf {v} | _ {1}}}}$

Нормализуем богатый вектор ${ displaystyle mathbf {r}}$ и бедный вектор ${ displaystyle mathbf {p}}$ :

${ displaystyle { hat { mathbf {r}}} = { frac { mathbf {r}} {| mathbf {r} | _ {1}}} = { frac { mathbf {r}} {Р}}}$

${ displaystyle { hat { mathbf {p}}} = { frac { mathbf {p}} {| mathbf {r} | _ {1}}} = { frac { mathbf {p}} {П}}}$

Наконец, вернемся к формуле для индекса несходства ( ${ displaystyle D}$ ); он просто равен половине ${ Displaystyle L ^ {1}}$ -норма разности векторов ${ displaystyle { hat { mathbf {r}}}}$ и ${ displaystyle { hat { mathbf {p}}}}$ :

Индекс несходства
(в линейно-алгебраической записи)

${ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1}}$

Числовой пример

Рассмотрим город, состоящий из четырех кварталов по 2 человека в каждом. Один блок состоит из 2 богатых людей. Один блок состоит из 2 бедняков. Два блока состоят из 1 богатого и 1 бедного человека. Каков показатель непохожести этого города?

В нашем вымышленном городе 4 квартала: в одном - 2 богатых человека; в другом 2 бедных человека; и два блока, содержащие 1 богатого и 1 бедного человека.

Сначала найдем богатый вектор ${ displaystyle mathbf {r}}$ и плохой вектор ${ displaystyle mathbf {p}}$ :

${ Displaystyle mathbf {r} = [2,0,1,1]}$

${ Displaystyle mathbf {p} = [0,2,1,1]}$

Далее посчитаем общее количество богатых и бедных в нашем городе:

${ Displaystyle R = 2 + 0 + 1 + 1 = 4}$

${ Displaystyle P = 0 + 2 + 1 + 1 = 4}$

Далее, давайте нормализуем богатые и бедные векторы:

${ displaystyle { hat { mathbf {r}}} = { frac { mathbf {r}} {R}} = { frac {1} {4}} [2,0,1,1] = [0,5,0,0,25,0,25]}$

${ displaystyle { hat { mathbf {p}}} = { frac { mathbf {p}} {P}} = { frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}$

Теперь мы можем вычислить разницу ${ displaystyle { hat { mathbf {r}}} - { hat { mathbf {p}}}}$ :

${ displaystyle { hat { mathbf {r}}} - { hat { mathbf {p}}} = [0.5,0,0.25,0.25] - [0,0.5,0.25,0.25] = [0,5, -0,5,0,0]}$

Наконец, найдем индекс несходства ( ${ displaystyle D}$ ):

${ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1} = { frac {1 } {2}} (| 0,5 | + | -0,5 |) = 0,5}$

Эквивалентность формул

Мы можем доказать, что линейная алгебраическая формула для ${ displaystyle D}$ идентична основной формуле для ${ displaystyle D}$ . Начнем с формулы линейной алгебры:

${ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1}}$

Заменим нормализованные векторы ${ displaystyle mathbf {r}}$ и ${ displaystyle mathbf {p}}$ с:

${ displaystyle D = { frac {1} {2}} left | { frac { mathbf {r}} {R}} - { frac { mathbf {p}} {P}} right | _ {1}}$

Наконец, из определения ${ Displaystyle L ^ {1}}$ -norm, мы знаем, что можем заменить его суммированием:

${ displaystyle D = { frac {1} {2}} sum _ {i = 1} ^ {N} | { frac {r_ {i}} {R}} - { frac {p_ {i} } {P}} |}$

Таким образом, мы доказываем, что формула линейной алгебры для индекса несходства эквивалентна основной формуле для него:

${ displaystyle D = { frac {1} {2}} | { hat { mathbf {r}}} - { hat { mathbf {p}}} | _ {1} = { frac {1 } {2}} sum _ {i = 1} ^ {N} | { frac {r_ {i}} {R}} - { frac {p_ {i}} {P}} |}$

Нулевая сегрегация

Когда индекс несходства равен нулю, это означает, что в изучаемом нами сообществе отсутствует сегрегация. Например, если мы изучаем сегрегацию богатых и бедных в городе, то если ${ displaystyle D = 0}$ , это означает, что:

В городе нет кварталов, которые были бы «богатыми кварталами», и в городе нет кварталов, которые были бы «бедными кварталами».
Богатые и бедные люди равномерно распределены по всему городу.

Если мы установим ${ displaystyle D = 0}$ в линейной алгебраической формуле мы получаем необходимое условие наличия нулевой сегрегации:

${ displaystyle mathbf { hat {r}} = mathbf { hat {p}}}$

Например, предположим, что у вас есть город из двух кварталов. В каждом блоке 4 богатых и 100 бедных:

${ Displaystyle mathbf {r} = [4,4]}$

${ displaystyle mathbf {p} = [100 100]}$

Тогда общее количество богатых людей будет ${ Displaystyle R = 4 + 4 = 8}$ , а общее количество бедных составляет ${ Displaystyle P = 100 + 100 = 200}$ . Таким образом:

${ Displaystyle mathbf { Hat {r}} = [4 / 8,4 / 8] = [0,5,0,5]}$

${ displaystyle mathbf { hat {p}} = [100 / 200,100 / 200] = [0,5,0,5]}$

Потому что ${ displaystyle mathbf { hat {r}} = mathbf { hat {p}}}$ , таким образом, в этом городе нет сегрегации.

В качестве другого примера предположим, что у вас есть город из 3 кварталов:

${ Displaystyle mathbf {r} = [1,2,3]}$

${ displaystyle mathbf {p} = [100,200,300]}$

Тогда у нас есть ${ Displaystyle R = 1 + 2 + 3 = 6}$ богатые люди в нашем городе, и ${ displaystyle P = 100 + 200 + 300 = 600}$ бедные люди. Таким образом: