Лексикостатистика - Lexicostatistics

Лексикостатистика это метод сравнительное языкознание это включает в себя сравнение процента лексические родственные между языками, чтобы определить их отношения. Лексикостатистика связана с сравнительный метод но не реконструирует протоязык. Его следует отличать от глоттохронология, который пытается использовать лексикостатистические методы для оценки времени, прошедшего с тех пор, как два или более языка разошлись от общего более раннего протоязыка. Однако это всего лишь одно из применений лексикостатистики; другие его приложения могут не разделять предположение о постоянной скорости изменения основных лексических элементов.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, но не статистика. Другие особенности языка могут использоваться помимо лексики, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика не выявляет их. Лексикостатистика - это дистанционный метод, тогда как сравнительный метод учитывает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению с методом сравнения, но имеет ограничения (обсуждаемые ниже). Его можно проверить, перепроверив деревья, полученные обоими методами.

История

Лексикостатистика была разработана Моррис Сводеш в серии статей 1950-х годов, основанной на более ранних идеях.[1][2][3] Первое известное использование концепции было Дюмон д'Юрвиль в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики.[4][5]

Метод

Создать список слов

Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, I). Затем слова собираются для этих смысловых интервалов для каждого рассматриваемого языка. Первоначально Сводеш сократил больший набор значений до 200. Позже он обнаружил, что необходимо сократить его еще больше, но он мог включить некоторые значения, которых не было в его первоначальном списке, дав его более поздний список из 100 пунктов. В Список Сводеша в Wiktionary дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например то Долгопольский список и Список Лейпциг – Джакарта, а также списки с более конкретным охватом; например, Dyen, Kruskal и Black имеют 200 значений для 84 Индоевропейские языки в цифровом виде.[6]

Определить коньяки

Для принятия решений в области когнитивных функций необходим обученный и опытный лингвист. Однако решения могут потребовать уточнения по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары списков когнитивность формы может быть положительной, отрицательной или неопределенной. Иногда в языке есть несколько слов для одного значения, например маленький и маленький для не большой.

Вычислить лексикостатистические проценты

Этот процент связан с долей значений для конкретной языковой пары, которые являются родственными, то есть относительно общего количества без неопределенности. Это значение вводится в N x N таблица расстояний, где N - количество сравниваемых языков. По завершении эта таблица заполняется наполовину. треугольный форма. Чем выше доля когнитивности, тем ближе языки.

Создать родословную

Создание языкового дерева основывается исключительно на приведенной выше таблице. Могут использоваться различные методы группировки, но Дайен, Крустал и Блэк использовали следующие методы:

  • все списки помещаются в пул
  • два ближайших члена удаляются и образуют ядро, которое помещается в пул
  • этот шаг повторяется
  • при определенных условиях ядро ​​становится группой
  • это повторяется до тех пор, пока пул не будет содержать только одну группу.

Вычисления должны производиться в процентных долях ядра и группы.

Приложения

Ведущим представителем применения лексикостатистики был Исидор Дайен.[7][8][9][10] Он использовал лексикостатистику для классификации Австронезийские языки[11] а также Индоевропейский ед.[6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992).[6] Также были проведены исследования Индейцы и Африканские языки.

Пама-Нюнган

Вопрос о внутреннем ветвлении внутри Пама-Нюнган языковая семья была давней проблемой в австралийской лингвистике, и по общему мнению, внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно было реконструировать, либо эти подгруппы на самом деле вообще не были генетически связаны.[12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты своего применения вычислительных филогенетических методов на 194 объектах. документирует представляющие все основные подгруппы и изоляты Пама-Нюнган.[13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее предлагались и принимались многими другими австралийцами, а также дала некоторое представление о более проблемных отраслях, таких как Паман (что осложняется отсутствием данных) и Нгумпин-Япа (где генетическая картина затушевывается очень высокими показателями заимствования между языками). Их набор данных является крупнейшим в своем роде для охотник-собиратель языковая семья и вторая по величине после Австронезийский (Greenhill et al. 2008 г. ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применялись к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что были трудности с поиском эквивалентов значимых элементов, в то время как многие сочли необходимым изменить списки Сводеша.[14] Гудщинский (1956) сомневался, можно ли получить универсальный список.[15]

Такие факторы, как заимствование, традиции и табу может исказить результаты, как и другие методы. Иногда лексикостатистика использовалась с лексическое сходство используется, а не познание, чтобы найти сходства. Тогда это эквивалентно массовое сравнение.

Выбор смысловых интервалов субъективен, как и выбор синонимы.

Улучшенные методы

Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.

Смотрите также

использованная литература

  1. ^ Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования». Международный журнал американской лингвистики. 21: 121–137.
  2. ^ Сводеш, Моррис (1952). «Лексикостатистическое датирование доисторических этнических контактов». Труды Американского философского общества. 96: 452–463.
  3. ^ Сводеш, Моррис (1950). «Салишные внутренние отношения». Международный журнал американской лингвистики. 16: 157–167.
  4. ^ Хаймс, Делл (1960). «Лексикостатистика на сегодняшний день». Современная антропология. 1 (1): 3–44.
  5. ^ Эмблтон, Шейла (1986). Статистика в исторической лингвистике. Бохум.
  6. ^ а б c Дайен, Исидор; Крускал, Джозеф; Черный, Пол (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества. 82 (5).
  7. ^ Дайен, Исидор (1962). «Лексикостатистически детерминированные отношения языковой группы». Международный журнал американской лингвистики. 28 (3).
  8. ^ Дайен, Исидор (1963). «Лексикостатистически детерминированные заимствования и табу». Язык. 39: 60–66.
  9. ^ Дайен, Исидор (редактор) (1973). Лексикостатистика в генетической лингвистике. Гаага: Мутон.CS1 maint: дополнительный текст: список авторов (ссылка на сайт)
  10. ^ Дайен, Исидор (1975). Лингвистические подгруппы и лексикостатистика. Гаага: Мутон.
  11. ^ Дайен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики. 19.
  12. ^ Диксон, Роберт М.В. (2002). Австралийские языки: их природа и развитие. Издательство Кембриджского университета. С. 48, 53. Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную территорию, ведущую к простоте взаимодействия и общения, изрядную долю взаимных экзогамных браков, безудержное многоязычие и открытое отношение к заимствованиям ... Австралийские языки имеют базовое единообразие, которое является естественным результатом того, что длительный период распространения. Хотя никакого оправдания «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято - как разновидность веры. … Ясно, что «пама-ньюнган» не может поддерживаться как генетическая группа. Это не полезная типологическая группировка.
  13. ^ Бауэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутреннее устройство Пама-Нюнган». Язык. 88 (4): 817–845.
  14. ^ Хойер, Гарри (1956). «Лексикостатистика: критика». Язык. 32: 49–60.
  15. ^ Гудщинский, Сара (1956). «Азбуки лексикостатистики (глоттохронологии)». слово. 12 (2): 175–210.

дальнейшее чтение

  • Добсон, Аннетт (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216-221.
  • Добсон, Аннет и Блэк, Пол (1979). Многомерное масштабирование некоторых лексикостатистических данных. Ученый-математик 1979/4, 55-61.
  • МакМахон, Эйприл и МакМахон, Роберт (2005). Классификация языков по номерам. Издательство Оксфордского университета.
  • Санкофф, Дэвид (1970). «О темпах смены словесных отношений». Язык 46.564-569.
  • Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттов». Indogermanische Forschungen 74.1-10.[1]
  • Виттманн, Анри (1973). «Лексикостатистическая классификация креольских языков, основанных на французском». Лексикостатистика в генетической лингвистике: Труды Йельской конференции, 3–4 апреля 1971 г., реж. Исидор Дайен, 89–99. Ла Хэй: Мутон.[2]

внешние ссылки