Статистический анализ - Statistical parsing - Wikipedia
Статистический анализ это группа разбор методы внутри обработка естественного языка. Общее у методов то, что они связывают грамматика правила с вероятностью. Грамматические правила традиционно рассматриваются в компьютерная лингвистика как определение действительных предложений на языке. В рамках этого мышления идея связать каждое правило с вероятностью затем обеспечивает относительную частоту любого данного грамматического правила и, путем дедукции, вероятность полного синтаксического анализа предложения. (Вероятность, связанная с правилом грамматики, может быть индуцирована, но применение этого правила грамматики в дереве синтаксического анализа и вычисление вероятности дерева синтаксического анализа на основе правил его компонентов является формой дедукции.) Используя эту концепцию, статистические данные синтаксические анализаторы используют процедуру поиска в пространстве всех синтаксических разборов кандидатов и вычисления вероятности каждого кандидата, чтобы получить наиболее вероятный синтаксический анализ предложения. В Алгоритм Витерби - один из популярных методов поиска наиболее вероятного синтаксического анализа.
«Поиск» в данном контексте - это применение алгоритмы поиска в искусственный интеллект.
В качестве примера подумайте о предложении «Банка выдерживает критику». Читатель мгновенно увидит, что существует объект, называемый «банка», и что этот объект выполняет действие «может» (т.е. может); и то, что объект может делать, - это «удерживать»; и то, что объект может удерживать, - это «вода». Используя более лингвистическую терминологию, «может» - это именная фраза, состоящая из определителя, за которым следует существительное, а «может держать воду» - это глагольная фраза, которая сама состоит из глагола, за которым следует глагольная фраза. Но разве это единственное толкование предложения? Конечно " Банка может "- это совершенно допустимая существительная фраза, относящаяся к типу танца, и" сдерживать воду "также является допустимой глагольной фразой, хотя принудительное значение объединенного предложения неочевидно. Это отсутствие значения не рассматривается как проблема большинства лингвистов (обсуждение этого вопроса см. Бесцветные зеленые идеи яростно спят ), но с прагматической точки зрения желательно получить первую интерпретацию, а не вторую, и статистические анализаторы достигают этого, ранжируя интерпретации на основе их вероятности.
(В этом примере различные предположения о грамматика были сделаны, такие как простое происхождение слева направо, а не с помощью головы, использование в нем словосочетаний-существительных, а не модных в настоящее время определителей-фраз, и отсутствие проверки типов, предотвращающей комбинирование конкретного существительного с абстрактным глаголом фраза. Ни одно из этих предположений не влияет на тезис аргумента, и сопоставимый аргумент может быть сделан с использованием любого другого грамматического формализма.)
Существует ряд методов, которые часто используются в алгоритмах статистического анализа. Хотя немногие алгоритмы будут использовать все это, они дают хороший обзор общей области. Большинство алгоритмов статистического анализа основаны на модифицированной форме анализ диаграммы. Модификации необходимы для поддержки чрезвычайно большого количества грамматических правил и, следовательно, пространства поиска, и, по сути, включают применение классических искусственный интеллект алгоритмы к традиционно исчерпывающему поиску. Некоторые примеры оптимизации относятся только к поиску вероятного подмножества поискового пространства (поиск в стеке ), для оптимизации вероятности поиска (Алгоритм Баума-Велча ) и для отбрасывания синтаксического анализа, который слишком похож, чтобы обрабатывать его отдельно (Алгоритм Витерби ).
Известные люди в статистическом анализе
- Евгений Чарняк Автор Статистические методы анализа естественного языка среди многих других вкладов
- Фред Елинек Применил и разработал многочисленные методы из теории информации для создания поля
- Дэвид Магерман Основной вклад в превращение теоретической области в практическую за счет управления данными
- Джеймс Карран Применяя MaxEnt алгоритм, представление слов и другие вклады
- Майкл Коллинз (компьютерный лингвист) Первый высокопроизводительный статистический парсер
- Джошуа Гудман Гиперграфы, и другие обобщения между различными методами