Вызов схемы Винограда - Winograd Schema Challenge

В Вызов схемы Винограда (WSC) - тест машинного интеллекта, предложенный Гектор Левеск, ученый-компьютерщик из Университет Торонто. Разработан, чтобы улучшить Тест Тьюринга, это тест с множественным выбором, в котором используются вопросы очень конкретной структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Виноград, профессор информатики в Стэндфордский Университет.[1]

На первый взгляд, вопросы схемы Винограда просто требуют решения анафора: машина должна идентифицировать предшествующий неоднозначного местоимение в заявлении. Это делает его задачей обработка естественного языка, но Левеск утверждает, что для схем Винограда задача требует использования знаний и здравый смысл.[2]

Nuance Communications в июле 2014 года объявила, что будет спонсировать ежегодное соревнование WSC с призом в 25 000 долларов за лучшую систему, которая могла бы соответствовать человеческим возможностям.[3] Однако приз больше не предлагается.

Фон

Конкурс Winograd Schema Challenge был предложен в духе Тест Тьюринга. Предложено Алан Тьюринг в 1950 году тест Тьюринга играет центральную роль в философии искусственный интеллект. Тьюринг предположил, что вместо того, чтобы обсуждать, что такое интеллект, наука об ИИ должна быть связана с демонстрацией разумного поведения, которое можно проверить. Но точная природа предложенного Тьюринга теста подверглась тщательному изучению, особенно после того, как чат-бот ИИ по имени Юджин утверждал, что прошел его в 2014 году. Программа Winograd Schema Challenge была предложена отчасти для решения проблем, которые выявились из-за природы программы, которые хорошо показали себя на тесте.[4]

Первоначальное предложение Тьюринга было тем, что он назвал имитационная игра, который включает в себя свободный, неограниченный диалог на английском языке между людьми-судьями и компьютерными программами по текстовому каналу (например, телетайпу). Как правило, машина проходит проверку, если следователи не могут отличить ее от человека за пятиминутный разговор.[5]

Юджин Густман

7 июня 2014 г. компьютерная программа под названием Юджин Густман был объявлен первым ИИ, прошедшим тест Тьюринга в конкурсе, проведенном Университет Ридинга в Англии. В конкурсе Евгению удалось убедить 33% судей в том, что они разговаривают с 13-летним украинским мальчиком.[6] Предполагаемая победа мыслительной машины вызвала споры о Тест Тьюринга. Критики утверждали, что Юджин прошел испытание, просто обманув судью и воспользовавшись своей предполагаемой идентичностью. Например, он может легко пропустить некоторые ключевые вопросы, шутя и меняя тему. Однако судья простит его ошибки, потому что Юджин идентифицировал себя как подросток, который говорил на английском как на втором языке.[7]

Слабые стороны теста Тьюринга

Работа Юджина Густмана продемонстрировала некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем:[2] резюмируется следующим образом:[8]

  • Обман: машина вынуждена создавать ложную личность, которая не является частью интеллекта.
  • Разговор: много взаимодействий можно квалифицировать как «законный разговор» - шутки, умные замечания, вопросы по порядку ведения - без разумного обоснования.
  • Оценка: люди делают ошибки, и судьи часто не соглашаются с результатами.

Схемы Винограда

Ключевым фактором в WSC является особый формат вопросов, которые основаны на схемах Винограда. Вопросы этой формы могут быть адаптированы таким образом, чтобы требовать знания и здравого смысла в различных областях. Они также должны быть тщательно написаны, чтобы не выдать свои ответы ограничения выбора или статистическая информация о словах в предложении.

Источник

Первый процитированный пример схемы Винограда (и причина их тезки) связан с Терри Виноград:[9]

Члены городского совета отказали демонстрантам в разрешении, поскольку они [опасались / выступали за] насилие.

Выбор «опасающийся» и «защищаемый» превращает схему в два ее экземпляра:

Депутаты городского совета отказали демонстрантам в разрешении, опасаясь насилия.

Депутаты городского совета отказали демонстрантам в разрешении, поскольку они выступали за насилие.

Вопрос в том, относится ли местоимение «они» к членам городского совета или демонстрантам, и переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для человека-читателя, но его сложно воспроизвести на машинах. Levesque[2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему должен быть связан с нашим пониманием типичных отношений между членами совета и демонстрантами и их поведения.

Поскольку первоначальное предложение Winograd Schema Challenge, Эрнест Дэвис, профессор Нью-Йоркский университет, составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны появиться в конкурсе схем Винограда.[10]

Формальное описание

Вопрос Winograd Schema Challenge состоит из трех частей:

  1. Предложение или краткое изложение, содержащее следующее:
    • Два существительные фразы того же самого семантический класс (мужчина, женщина, неодушевленный объект или группа предметов или людей),
    • Неоднозначный местоимение которые могут относиться к любой из приведенных выше словосочетаний, и
    • Специальное слово и альтернативное слово, такое, что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения изменяется.
  2. Вопрос, задающий идентичность неоднозначного местоимения, и
  3. Два варианта ответа, соответствующие рассматриваемым существительным фразам.

Машине будет предложена задача в стандартизированной форме, которая включает варианты ответов, что сделает ее двоичное решение проблема.

Преимущества

Конкурс Winograd Schema Challenge имеет следующие предполагаемые преимущества:

  • Для их решения требуются знания и здравый смысл.
  • Могут быть разработаны схемы Винограда различной сложности, включая все, от простых причинно-следственных связей до сложных повествований о событиях.
  • Они могут быть созданы для проверки способности к рассуждению в определенных областях (например, социальное / психологическое или пространственное мышление).
  • Нет нужды в людях-судьях.[4]

Ловушки

Одна из трудностей с Winograd Schema Challenge - это разработка вопросов. Они должны быть тщательно адаптированы, чтобы гарантировать, что для их решения требуется здравый смысл. Например, Левеск[4] дает следующий пример так называемой схемы Винограда, которая «слишком проста»:

Женщины перестали принимать таблетки, потому что они были [беременными / канцерогенными]. Какие люди были [беременными / канцерогенными]?

Ответ на этот вопрос можно определить на основании ограничения выбора: в любой ситуации от таблеток не забеременеть, у женщин; женщины не могут быть канцерогенными, но таблетки могут. Таким образом, этот ответ может быть получен без использования рассуждений или какого-либо понимания смысла предложений - все, что необходимо, - это данные об ограничениях выбора беременная и канцерогенный.

Мероприятия

В 2016 и 2018 годах Nuance Communications спонсировала конкурс, предложив главный приз в размере 25000 долларов США тому, кто набрал больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC.[11]). Однако конкурс 2018 был отменен.[12] и приз больше не предлагается.[13]

Двенадцатый Международный симпозиум по логическим формализациям здравого смысла состоялся 23–25 марта 2015 г. AAAI Весенняя серия симпозиумов в Стэнфордском университете с особым вниманием к программе Winograd Schema Challenge. В оргкомитет вошли Леора Моргенштерн (Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллада) и Роберт Слоун (Иллинойский университет в Чикаго ).[14]

Конкурс Winograd Schema Challenge 2016 был проведен 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. Первый раунд конкурса заключался в решении PDP - задач по устранению неоднозначности местоимений, адаптированных из литературных источников, а не построенных в виде пар предложений.[15] Наивысший результат был получен на 58% правильными по Quan Liu и др. Из Университета науки и технологий, Китай.[16] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не прошел во второй раунд. В оргкомитет в 2016 году входили Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис.

70% точность по 70 задачам, выбранным вручную из 273[11] в исходном наборе данных Winograd Schema был получен в 2017 году с помощью модели нейронной ассоциации, разработанной для получения здравого смысла.[17] В июне 2018 года была достигнута точность 63,7% для полного набора данных с использованием ансамбля языковых моделей рекуррентных нейронных сетей.[18], отмечая первое использование глубоких нейронных сетей, которые учатся у независимых корпусов для получения знаний здравого смысла. В 2019 году оценка 90,1% была достигнута на исходном наборе данных схемы Винограда путем точной настройки БЕРТ языковая модель с соответствующими данными обучения, подобными WSC, чтобы избежать необходимости изучать здравый смысл.[11] Общая языковая модель GPT-3 достигла 88,3% без специальной корректировки в 2020 году.[19] Более сложный и состязательный набор данных Winogrande из 44 000 проблем был разработан в 2019 году. Состояние дел в этом более крупном наборе данных по состоянию на август 2020 года остается на уровне 84,6%, о котором сообщается для точной настройки. БЕРТ.[19]

Версия Winograd Schema Challenge является частью набора тестов GLUE (General Language Understanding Evaluation) для автоматизированного понимания естественного языка.[20]

Рекомендации

  1. ^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня». IEEE Spectrum. Получено 29 октября 2014.
  2. ^ а б c Левеск, Х. Дж. (2014). «О нашем лучшем поведении». Искусственный интеллект. 212: 27–35. Дои:10.1016 / j.artint.2014.03.007.
  3. ^ «Nuance объявляет конкурс Winograd Schemas Challenge для продвижения инноваций в области искусственного интеллекта». Деловой провод. 28 июля 2014 г.. Получено 9 ноября 2014.
  4. ^ а б c Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Вызов схемы Винограда. Труды тринадцатой Международной конференции по принципам представления знаний и аргументации. Получено 29 октября 2014.
  5. ^ Тьюринг, Алан (Октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF). Разум. LIX (236): 433–460. Дои:10.1093 / разум / LIX.236.433. Получено 28 октября 2014.
  6. ^ Акерман, Эван (октябрь 2014 г.). «Лучший тест, чем Тьюринг». IEEE Spectrum. 51 (10): 20–1. Дои:10.1109 / mspec.2014.6905475.
  7. ^ Льюис, Таня (11 августа 2014 г.). «Умные машины нуждаются в обновленном IQ-тесте, - говорят эксперты». Живая наука. Получено 28 октября 2014.
  8. ^ Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к когерентности дискурса. Цифровой репозиторий UT. п. 6. HDL:2152/29979.
  9. ^ Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF). Когнитивная психология. 3 (1): 1–191. Дои:10.1016/0010-0285(72)90002-3. Получено 4 ноября 2014.
  10. ^ Дэвис, Эрнест. "Сборник схем Винограда". cs.nyu.edu. NYU. Получено 30 октября 2014.
  11. ^ а б c Сакагути, Кейсуке; Ронан Ле Бра; Бхагаватула, Чандра; Чой, Йеджин (2019). "WinoGrande: состязательный вызов схемы Винограда в масштабе". arXiv:1907.10641 [cs.CL ].
  12. ^ Богуславский, И.М .; Фролова, Т.И .; Иомдин, Л.Л .; Лазурский, А.В .; Рыгаев, И.П .; Тимошенко, С.П. (2019). «Основанный на знаниях подход к вызову схемы Винограда» (PDF). Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям. Москва.
  13. ^ "Вызов схемы Винограда". CommonsenseReasoning.org. Получено 24 января 2020.
  14. ^ "Весенний симпозиум AAAI 2015". Ассоциация развития искусственного интеллекта. Получено 1 января 2015.
  15. ^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). "Первый вызов схемы Винограда на IJCAI-16". Журнал AI.
  16. ^ Лю, Цюань; Цзян, Хуэй; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). "Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в вызове схемы Винограда". arXiv:1611.04146 [cs.AI ].
  17. ^ Лю, Цюань; Цзян, Хуэй; Евдокимов Андрей; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Причинно-следственная модель приобретения знаний и нейронных ассоциаций для решения набора проблем схемы Винограда». Труды двадцать шестого Международная совместная конференция по искусственному интеллекту: 2344–2350. Дои:10.24963 / ijcai.2017 / 326.
  18. ^ Trinh, Trieu H .; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого смысла». arXiv: 1806.02847 [cs].
  19. ^ а б Браун, Том Б .; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Ziegler, Daniel M .; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; и другие. (2020). «Языковые модели - малоизученные». arXiv:2005.14165 [cs.CL ].
  20. ^ «КЛЕЙ Benchmark». GlueBenchmark.com. Получено 30 июля 2019.

внешняя ссылка