Вызов схемы Винограда - Winograd Schema Challenge

В Вызов схемы Винограда (WSC) - тест машинного интеллекта, предложенный Гектор Левеск, ученый-компьютерщик из Университет Торонто. Разработан, чтобы улучшить Тест Тьюринга, это тест с множественным выбором, в котором используются вопросы очень конкретной структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Виноград, профессор информатики в Стэндфордский Университет.^[1]

На первый взгляд, вопросы схемы Винограда просто требуют решения анафора: машина должна идентифицировать предшествующий неоднозначного местоимение в заявлении. Это делает его задачей обработка естественного языка, но Левеск утверждает, что для схем Винограда задача требует использования знаний и здравый смысл.^[2]

Nuance Communications в июле 2014 года объявила, что будет спонсировать ежегодное соревнование WSC с призом в 25 000 долларов за лучшую систему, которая могла бы соответствовать человеческим возможностям.^[3] Однако приз больше не предлагается.

Фон

Конкурс Winograd Schema Challenge был предложен в духе Тест Тьюринга. Предложено Алан Тьюринг в 1950 году тест Тьюринга играет центральную роль в философии искусственный интеллект. Тьюринг предположил, что вместо того, чтобы обсуждать, что такое интеллект, наука об ИИ должна быть связана с демонстрацией разумного поведения, которое можно проверить. Но точная природа предложенного Тьюринга теста подверглась тщательному изучению, особенно после того, как чат-бот ИИ по имени Юджин утверждал, что прошел его в 2014 году. Программа Winograd Schema Challenge была предложена отчасти для решения проблем, которые выявились из-за природы программы, которые хорошо показали себя на тесте.^[4]

Первоначальное предложение Тьюринга было тем, что он назвал имитационная игра, который включает в себя свободный, неограниченный диалог на английском языке между людьми-судьями и компьютерными программами по текстовому каналу (например, телетайпу). Как правило, машина проходит проверку, если следователи не могут отличить ее от человека за пятиминутный разговор.^[5]

Юджин Густман

7 июня 2014 г. компьютерная программа под названием Юджин Густман был объявлен первым ИИ, прошедшим тест Тьюринга в конкурсе, проведенном Университет Ридинга в Англии. В конкурсе Евгению удалось убедить 33% судей в том, что они разговаривают с 13-летним украинским мальчиком.^[6] Предполагаемая победа мыслительной машины вызвала споры о Тест Тьюринга. Критики утверждали, что Юджин прошел испытание, просто обманув судью и воспользовавшись своей предполагаемой идентичностью. Например, он может легко пропустить некоторые ключевые вопросы, шутя и меняя тему. Однако судья простит его ошибки, потому что Юджин идентифицировал себя как подросток, который говорил на английском как на втором языке.^[7]

Слабые стороны теста Тьюринга

Работа Юджина Густмана продемонстрировала некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем:^[2] резюмируется следующим образом:^[8]

Обман: машина вынуждена создавать ложную личность, которая не является частью интеллекта.
Разговор: много взаимодействий можно квалифицировать как «законный разговор» - шутки, умные замечания, вопросы по порядку ведения - без разумного обоснования.
Оценка: люди делают ошибки, и судьи часто не соглашаются с результатами.

Схемы Винограда

Ключевым фактором в WSC является особый формат вопросов, которые основаны на схемах Винограда. Вопросы этой формы могут быть адаптированы таким образом, чтобы требовать знания и здравого смысла в различных областях. Они также должны быть тщательно написаны, чтобы не выдать свои ответы ограничения выбора или статистическая информация о словах в предложении.

Источник

Первый процитированный пример схемы Винограда (и причина их тезки) связан с Терри Виноград:^[9]

Члены городского совета отказали демонстрантам в разрешении, поскольку они [опасались / выступали за] насилие.

Выбор «опасающийся» и «защищаемый» превращает схему в два ее экземпляра:

Депутаты городского совета отказали демонстрантам в разрешении, опасаясь насилия.

Депутаты городского совета отказали демонстрантам в разрешении, поскольку они выступали за насилие.

Вопрос в том, относится ли местоимение «они» к членам городского совета или демонстрантам, и переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для человека-читателя, но его сложно воспроизвести на машинах. Levesque^[2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему должен быть связан с нашим пониманием типичных отношений между членами совета и демонстрантами и их поведения.

Поскольку первоначальное предложение Winograd Schema Challenge, Эрнест Дэвис, профессор Нью-Йоркский университет, составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны появиться в конкурсе схем Винограда.^[10]

Формальное описание

Вопрос Winograd Schema Challenge состоит из трех частей:

Предложение или краткое изложение, содержащее следующее:
- Два существительные фразы того же самого семантический класс (мужчина, женщина, неодушевленный объект или группа предметов или людей),
- Неоднозначный местоимение которые могут относиться к любой из приведенных выше словосочетаний, и
- Специальное слово и альтернативное слово, такое, что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения изменяется.
Вопрос, задающий идентичность неоднозначного местоимения, и
Два варианта ответа, соответствующие рассматриваемым существительным фразам.

Машине будет предложена задача в стандартизированной форме, которая включает варианты ответов, что сделает ее двоичное решение проблема.

Преимущества

Конкурс Winograd Schema Challenge имеет следующие предполагаемые преимущества:

Для их решения требуются знания и здравый смысл.
Могут быть разработаны схемы Винограда различной сложности, включая все, от простых причинно-следственных связей до сложных повествований о событиях.
Они могут быть созданы для проверки способности к рассуждению в определенных областях (например, социальное / психологическое или пространственное мышление).
Нет нужды в людях-судьях.^[4]

Ловушки

Одна из трудностей с Winograd Schema Challenge - это разработка вопросов. Они должны быть тщательно адаптированы, чтобы гарантировать, что для их решения требуется здравый смысл. Например, Левеск^[4] дает следующий пример так называемой схемы Винограда, которая «слишком проста»:

Женщины перестали принимать таблетки, потому что они были [беременными / канцерогенными]. Какие люди были [беременными / канцерогенными]?

Ответ на этот вопрос можно определить на основании ограничения выбора: в любой ситуации от таблеток не забеременеть, у женщин; женщины не могут быть канцерогенными, но таблетки могут. Таким образом, этот ответ может быть получен без использования рассуждений или какого-либо понимания смысла предложений - все, что необходимо, - это данные об ограничениях выбора беременная и канцерогенный.

Мероприятия

В 2016 и 2018 годах Nuance Communications спонсировала конкурс, предложив главный приз в размере 25000 долларов США тому, кто набрал больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC.^[11]). Однако конкурс 2018 был отменен.^[12] и приз больше не предлагается.^[13]

Двенадцатый Международный симпозиум по логическим формализациям здравого смысла состоялся 23–25 марта 2015 г. AAAI Весенняя серия симпозиумов в Стэнфордском университете с особым вниманием к программе Winograd Schema Challenge. В оргкомитет вошли Леора Моргенштерн (Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллада) и Роберт Слоун (Иллинойский университет в Чикаго ).^[14]

Конкурс Winograd Schema Challenge 2016 был проведен 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. Первый раунд конкурса заключался в решении PDP - задач по устранению неоднозначности местоимений, адаптированных из литературных источников, а не построенных в виде пар предложений.^[15] Наивысший результат был получен на 58% правильными по Quan Liu и др. Из Университета науки и технологий, Китай.^[16] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не прошел во второй раунд. В оргкомитет в 2016 году входили Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис.

70% точность по 70 задачам, выбранным вручную из 273^[11] в исходном наборе данных Winograd Schema был получен в 2017 году с помощью модели нейронной ассоциации, разработанной для получения здравого смысла.^[17] В июне 2018 года была достигнута точность 63,7% для полного набора данных с использованием ансамбля языковых моделей рекуррентных нейронных сетей.^[18], отмечая первое использование глубоких нейронных сетей, которые учатся у независимых корпусов для получения знаний здравого смысла. В 2019 году оценка 90,1% была достигнута на исходном наборе данных схемы Винограда путем точной настройки БЕРТ языковая модель с соответствующими данными обучения, подобными WSC, чтобы избежать необходимости изучать здравый смысл.^[11] Общая языковая модель GPT-3 достигла 88,3% без специальной корректировки в 2020 году.^[19] Более сложный и состязательный набор данных Winogrande из 44 000 проблем был разработан в 2019 году. Состояние дел в этом более крупном наборе данных по состоянию на август 2020 года остается на уровне 84,6%, о котором сообщается для точной настройки. БЕРТ.^[19]

Версия Winograd Schema Challenge является частью набора тестов GLUE (General Language Understanding Evaluation) для автоматизированного понимания естественного языка.^[20]

внешняя ссылка

Веб-сайт конкурса, спонсируемого Nuance Communications

[ieee_web-1] Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня». IEEE Spectrum. Получено 29 октября 2014.

[Levesque14-2] а ^б ^c Левеск, Х. Дж. (2014). «О нашем лучшем поведении». Искусственный интеллект. 212: 27–35. Дои:10.1016 / j.artint.2014.03.007.

[nuance-3] «Nuance объявляет конкурс Winograd Schemas Challenge для продвижения инноваций в области искусственного интеллекта». Деловой провод. 28 июля 2014 г.. Получено 9 ноября 2014.

[Hector-4] а ^б ^c Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Вызов схемы Винограда. Труды тринадцатой Международной конференции по принципам представления знаний и аргументации. Получено 29 октября 2014.

[Turing_paper-5] Тьюринг, Алан (Октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF). Разум. LIX (236): 433–460. Дои:10.1093 / разум / LIX.236.433. Получено 28 октября 2014.

[IEEE_journal-6] Акерман, Эван (октябрь 2014 г.). «Лучший тест, чем Тьюринг». IEEE Spectrum. 51 (10): 20–1. Дои:10.1109 / mspec.2014.6905475.

[live_science-7] Льюис, Таня (11 августа 2014 г.). «Умные машины нуждаются в обновленном IQ-тесте, - говорят эксперты». Живая наука. Получено 28 октября 2014.

[Michael15-8] Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к когерентности дискурса. Цифровой репозиторий UT. п. 6. HDL:2152/29979.

[UNL-9] Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF). Когнитивная психология. 3 (1): 1–191. Дои:10.1016/0010-0285(72)90002-3. Получено 4 ноября 2014.

[collection-10] Дэвис, Эрнест. "Сборник схем Винограда". cs.nyu.edu. NYU. Получено 30 октября 2014.

[Sakaguchi-11] а ^б ^c Сакагути, Кейсуке; Ронан Ле Бра; Бхагаватула, Чандра; Чой, Йеджин (2019). "WinoGrande: состязательный вызов схемы Винограда в масштабе". arXiv:1907.10641 [cs.CL ].

[12] Богуславский, И.М .; Фролова, Т.И .; Иомдин, Л.Л .; Лазурский, А.В .; Рыгаев, И.П .; Тимошенко, С.П. (2019). «Основанный на знаниях подход к вызову схемы Винограда» (PDF). Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям. Москва.

[CR-13] "Вызов схемы Винограда". CommonsenseReasoning.org. Получено 24 января 2020.

[AIII-14] "Весенний симпозиум AAAI 2015". Ассоциация развития искусственного интеллекта. Получено 1 января 2015.

[15] Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). "Первый вызов схемы Винограда на IJCAI-16". Журнал AI.

[16] Лю, Цюань; Цзян, Хуэй; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). "Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в вызове схемы Винограда". arXiv:1611.04146 [cs.AI ].

[17] Лю, Цюань; Цзян, Хуэй; Евдокимов Андрей; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Причинно-следственная модель приобретения знаний и нейронных ассоциаций для решения набора проблем схемы Винограда». Труды двадцать шестого Международная совместная конференция по искусственному интеллекту: 2344–2350. Дои:10.24963 / ijcai.2017 / 326.

[18] Trinh, Trieu H .; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого смысла». arXiv: 1806.02847 [cs].

[Brown_et_al_2020-19] а ^б Браун, Том Б .; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Ziegler, Daniel M .; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; и другие. (2020). «Языковые модели - малоизученные». arXiv:2005.14165 [cs.CL ].

[20] «КЛЕЙ Benchmark». GlueBenchmark.com. Получено 30 июля 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]