Семантическая лексика - Semantic lexicon

Визуальное представление семантического лексикона

А семантическая лексика цифровой толковый словарь из слова с надписью семантический классы, чтобы можно было создать ассоциации между словами, которые ранее не встречались.[1] Семантические лексиконы построены на семантические сети, которые представляют семантические отношения между словами. Разница между семантическим лексиконом и семантической сетью состоит в том, что семантический лексикон имеет определения для каждого слова или «глосс».[2]

Структура

Семантические лексики состоят из лексических статей. Эти записи не орфографические, а семантические, что устраняет проблемы омонимии и многозначности. Эти лексические статьи взаимосвязаны с семантические отношения, например гиперонимия, гипонимия, меронимия или тропонимия. Синонимичные записи сгруппированы в том, что в Принстонском WordNet звонки "синсеты "[2] Большинство семантических лексиконов состоит из четырех различных «подсетей»:[2] существительные, глаголы, прилагательные и наречия, хотя некоторые исследователи предприняли шаги по добавлению «искусственного узла», соединяющего подсети.[3]

Существительные

Существительные упорядочены в таксономия, структурированная в иерархию, в которой самое широкое и всеобъемлющее существительное расположено наверху, например «вещь», причем существительные становятся все более и более конкретными по мере того, как они образуют вершину. Самое верхнее существительное в семантическом лексиконе называется уникальный новичок.[4] Наиболее специфические существительные (не имеющие подчиненных) - это конечные узлы.[3]

В семантических лексиконах также различаются типы, в которых тип чего-либо имеет такие характеристики, как Родезийский риджбек тип собаки и случаи, когда что-то является примером сказанного, например Дэйв Грол является примером музыкант. Экземпляры всегда являются конечными узлами, потому что они изолированы и не имеют других слов или онтологические категории принадлежащие им.[2]

Семантические лексиконы также обращаются к меронимия,[5] что является отношением «часть к целому», например, ключи являются частью портативного компьютера. Необходимые атрибуты, которые определяют конкретную запись, также обязательно присутствуют в этой записи гипоним. Итак, если компьютер имеет ключи, а ноутбук это тип компьютер, затем ноутбук должны быть ключи. Однако во многих случаях это различие может стать нечетким. Хорошим примером этого является товар стул. Большинство определили бы стул как имеющий ножки и сиденье (как в части, на которой сидит человек). Однако в бутиках с завышенной ценой есть очень «художественные» и «современные» стулья, у которых вообще нет ножек. У мешков с фасолью также нет ножек, но мало кто станет утверждать, что это не стулья. Подобные вопросы являются основными вопросами, которые стимулируют исследования и работу в области таксономия и онтология.

Глаголы

Синсеты глаголов устроены так же, как и их существительные: более общие и охватывающие глаголы находятся на вершине иерархии, в то время как тропонимы (глаголы, описывающие более конкретный способ действия) сгруппированы ниже. Специфика глагола перемещается по вектор, при этом глаголы становятся все более конкретными в отношении определенного качества.[2] Например. Набор «ходьба / бег / спринт» становится более конкретным с точки зрения скорости, а «неприязнь / ненависть / отвращение» становится более конкретным с точки зрения интенсивности эмоции.

Онтологические группировки и разделения глаголов гораздо более спорны, чем их существительные. Широко признано, что собака это тип животное и что табурет это тип стул, но можно утверждать, что ненавидеть находится в том же эмоциональном плане, что и ненавидеть (что они синонимы, а не начальники / подчиненные). Также можно утверждать, что люблю и обожать являются синонимами, или один из них более конкретен, чем другой. Таким образом, отношения между глаголами не так согласованы, как отношения между существительными.

Другой атрибут отношений синсет глаголов - то, что они также упорядочены по парам глаголов. В этих парах обязательно один глагол влечет за собой другой в том смысле, что резня влечет за собой убийство, и знать влечет за собой полагать.[2] Эти пары глаголов могут быть тропонимами и их вышестоящими, как в первом примере, или они могут относиться к совершенно другим онтологическим категориям, как в случае во втором примере.

Прилагательные

Прилагательные отношения synset очень похожи на отношения synset глаголов. Они не так четко иерархичны, как отношения синсетов существительных, и у них меньше уровней и больше конечных узлов. Однако, как правило, в отношениях синсетов прилагательных имеется меньше конечных узлов на одну онтологическую категорию, чем у глаголов. Прилагательные в семантическом лексиконе также организованы в пары слов, с той разницей, что их пары слов антонимы вместо последствия. Более общие полярные прилагательные, такие как горячей и холодный, или же счастливый и грустный парные. Затем с каждым из этих слов связываются другие семантически похожие прилагательные. Горячей связан с теплый, нагретый, шипящий, и душный, пока холодный связан с прохладно, холодно, замораживание, и острый. Эти семантически похожие прилагательные считаются косвенные антонимы[2] на противоположное полярное прилагательное (т. е. острый является косвенным антонимом горячей). Прилагательные, образованные от глагола или существительного, также напрямую связаны с указанным глаголом или существительным в подсетях. Например, приятным связан с семантически похожими прилагательными приятный, и приятный, а также его глагол происхождения, наслаждаться.

Наречия

В семантическом лексиконе очень мало наречий. Это связано с тем, что большинство наречий взяты непосредственно из своих аналогов прилагательного, как по значению, так и по форме, и изменяются только морфологически (т.е. счастливо происходит от счастливый, и к счастью происходит от счастливчик, который получен из удача). Единственные наречия, которые специально учитываются, - это наречия без этих связей, например В самом деле, по большей части, и едва ли.[2]

Проблемы, с которыми сталкиваются семантические лексиконы

Эффекты принстона WordNet Проект выходит далеко за рамки английского языка, хотя большинство исследований в этой области вращается вокруг английского языка. Создание семантического лексикона для других языков оказалось очень полезным для Обработка естественного языка Приложения. Одним из основных направлений исследований семантических лексиконов является объединение лексиконов разных языков для помощи в машинный перевод. Наиболее распространенный подход - попытаться создать общую онтологию, которая служит своего рода «посредником» между семантическими лексиконами двух разных языков.[6] Это чрезвычайно сложная и еще не решенная проблема в области машинного перевода. Одна проблема возникает из-за того, что никакие два языка не являются дословным переводом друг друга. То есть каждый язык имеет какие-то структурные или синтаксические отличия от других. Кроме того, в языках часто есть слова, которые нелегко перевести на другие языки, и уж точно не с точным пословным соответствием. Были сделаны предложения по созданию набора структур для сетей словаря. Исследования показали, что в каждом известном человеческом языке есть какая-то концепция, напоминающая синонимия, гипонимия, меронимия, и антонимия. Тем не менее, каждая предложенная до сих пор идея была встречена критикой за использование шаблона, который лучше всего подходит для английского языка и меньше - для других языков.[6]

Еще одно препятствие в этой области состоит в том, что не существует твердых руководящих принципов для структуры и содержания семантической лексики. Каждый лексиконный проект на разных языках имеет немного (или не очень) разный подход к своей Wordnet. Нет даже согласованного определения того, что такое «слово». Ортографически, они определяются как строка букв с пробелами с обеих сторон, но семантически это становится очень обсуждаемой темой. Например, хотя нетрудно определить собака или же стержень как слова, а как насчет сторожевая собака или же молниеотвод? Последние два примера будут считаться орфографически отдельными словами, хотя семантически они составляют одно понятие: один - это тип собаки, а другой - тип стержня. В дополнение к этой путанице, сети слов идиосинкразический в том смысле, что они не маркируют товары последовательно. Они являются избыточными, поскольку им часто присваивается несколько слов для каждого значения (синсеты). Они также являются открытыми, поскольку часто сосредотачиваются на терминология и предметная лексика.[6]

Другие имена

  • Wordnet
  • вычислительная лексика

Список семантических лексиконов

Смотрите также

Рекомендации

  1. ^ Тенг, Инь-Ленг (2009). Справочник по исследованиям электронных библиотек: дизайн, развитие и влияние. Мичиганский университет: Справочник по информатике. ISBN  9781599048796.
  2. ^ а б c d е ж грамм час «О WordNet».
  3. ^ а б Лемницер, Л. "Обогащение GermaNet: пример лексического усвоения". Seminar für Sprachwissenschaft, Universitat Tubingen.
  4. ^ Бойд-Грабер, Дж. (2006). «Добавление плотных, взвешенных соединений к WordNet». Материалы Третьей Международной конференции Wordnet.
  5. ^ Хинрикс, Э. (декабрь 2012 г.). «Использование отношений части-целого для автоматического вывода сложных международных отношений в GermaNet». Международный журнал по семантической сети и информационным системам. 3.
  6. ^ а б c Феллбаум, К. (май 2012 г.). «Проблемы для многоязычного Wordnet». Языковые ресурсы и оценка. 46: 313–326.