Вызов схемы Винограда - Winograd Schema Challenge
В Вызов схемы Винограда (WSC) - тест машинного интеллекта, предложенный Гектор Левеск, ученый-компьютерщик из Университет Торонто. Разработан, чтобы улучшить Тест Тьюринга, это тест с множественным выбором, в котором используются вопросы очень конкретной структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Виноград, профессор информатики в Стэндфордский Университет.[1]
На первый взгляд, вопросы схемы Винограда просто требуют решения анафора: машина должна идентифицировать предшествующий неоднозначного местоимение в заявлении. Это делает его задачей обработка естественного языка, но Левеск утверждает, что для схем Винограда задача требует использования знаний и здравый смысл.[2]
Nuance Communications в июле 2014 года объявила, что будет спонсировать ежегодное соревнование WSC с призом в 25 000 долларов за лучшую систему, которая могла бы соответствовать человеческим возможностям.[3] Однако приз больше не предлагается.
Фон
Конкурс Winograd Schema Challenge был предложен в духе Тест Тьюринга. Предложено Алан Тьюринг в 1950 году тест Тьюринга играет центральную роль в философии искусственный интеллект. Тьюринг предположил, что вместо того, чтобы обсуждать, что такое интеллект, наука об ИИ должна быть связана с демонстрацией разумного поведения, которое можно проверить. Но точная природа предложенного Тьюринга теста подверглась тщательному изучению, особенно после того, как чат-бот ИИ по имени Юджин утверждал, что прошел его в 2014 году. Программа Winograd Schema Challenge была предложена отчасти для решения проблем, которые выявились из-за природы программы, которые хорошо показали себя на тесте.[4]
Первоначальное предложение Тьюринга было тем, что он назвал имитационная игра, который включает в себя свободный, неограниченный диалог на английском языке между людьми-судьями и компьютерными программами по текстовому каналу (например, телетайпу). Как правило, машина проходит проверку, если следователи не могут отличить ее от человека за пятиминутный разговор.[5]
Юджин Густман
7 июня 2014 г. компьютерная программа под названием Юджин Густман был объявлен первым ИИ, прошедшим тест Тьюринга в конкурсе, проведенном Университет Ридинга в Англии. В конкурсе Евгению удалось убедить 33% судей в том, что они разговаривают с 13-летним украинским мальчиком.[6] Предполагаемая победа мыслительной машины вызвала споры о Тест Тьюринга. Критики утверждали, что Юджин прошел испытание, просто обманув судью и воспользовавшись своей предполагаемой идентичностью. Например, он может легко пропустить некоторые ключевые вопросы, шутя и меняя тему. Однако судья простит его ошибки, потому что Юджин идентифицировал себя как подросток, который говорил на английском как на втором языке.[7]
Слабые стороны теста Тьюринга
Работа Юджина Густмана продемонстрировала некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем:[2] резюмируется следующим образом:[8]
- Обман: машина вынуждена создавать ложную личность, которая не является частью интеллекта.
- Разговор: много взаимодействий можно квалифицировать как «законный разговор» - шутки, умные замечания, вопросы по порядку ведения - без разумного обоснования.
- Оценка: люди делают ошибки, и судьи часто не соглашаются с результатами.
Схемы Винограда
Ключевым фактором в WSC является особый формат вопросов, которые основаны на схемах Винограда. Вопросы этой формы могут быть адаптированы таким образом, чтобы требовать знания и здравого смысла в различных областях. Они также должны быть тщательно написаны, чтобы не выдать свои ответы ограничения выбора или статистическая информация о словах в предложении.
Источник
Первый процитированный пример схемы Винограда (и причина их тезки) связан с Терри Виноград:[9]
Выбор «опасающийся» и «защищаемый» превращает схему в два ее экземпляра:
Вопрос в том, относится ли местоимение «они» к членам городского совета или демонстрантам, и переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для человека-читателя, но его сложно воспроизвести на машинах. Levesque[2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему должен быть связан с нашим пониманием типичных отношений между членами совета и демонстрантами и их поведения.
Поскольку первоначальное предложение Winograd Schema Challenge, Эрнест Дэвис, профессор Нью-Йоркский университет, составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны появиться в конкурсе схем Винограда.[10]
Формальное описание
Вопрос Winograd Schema Challenge состоит из трех частей:
- Предложение или краткое изложение, содержащее следующее:
- Два существительные фразы того же самого семантический класс (мужчина, женщина, неодушевленный объект или группа предметов или людей),
- Неоднозначный местоимение которые могут относиться к любой из приведенных выше словосочетаний, и
- Специальное слово и альтернативное слово, такое, что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения изменяется.
- Вопрос, задающий идентичность неоднозначного местоимения, и
- Два варианта ответа, соответствующие рассматриваемым существительным фразам.
Машине будет предложена задача в стандартизированной форме, которая включает варианты ответов, что сделает ее двоичное решение проблема.
Преимущества
Конкурс Winograd Schema Challenge имеет следующие предполагаемые преимущества:
- Для их решения требуются знания и здравый смысл.
- Могут быть разработаны схемы Винограда различной сложности, включая все, от простых причинно-следственных связей до сложных повествований о событиях.
- Они могут быть созданы для проверки способности к рассуждению в определенных областях (например, социальное / психологическое или пространственное мышление).
- Нет нужды в людях-судьях.[4]
Ловушки
Одна из трудностей с Winograd Schema Challenge - это разработка вопросов. Они должны быть тщательно адаптированы, чтобы гарантировать, что для их решения требуется здравый смысл. Например, Левеск[4] дает следующий пример так называемой схемы Винограда, которая «слишком проста»:
Ответ на этот вопрос можно определить на основании ограничения выбора: в любой ситуации от таблеток не забеременеть, у женщин; женщины не могут быть канцерогенными, но таблетки могут. Таким образом, этот ответ может быть получен без использования рассуждений или какого-либо понимания смысла предложений - все, что необходимо, - это данные об ограничениях выбора беременная и канцерогенный.
Мероприятия
В 2016 и 2018 годах Nuance Communications спонсировала конкурс, предложив главный приз в размере 25000 долларов США тому, кто набрал больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC.[11]). Однако конкурс 2018 был отменен.[12] и приз больше не предлагается.[13]
Двенадцатый Международный симпозиум по логическим формализациям здравого смысла состоялся 23–25 марта 2015 г. AAAI Весенняя серия симпозиумов в Стэнфордском университете с особым вниманием к программе Winograd Schema Challenge. В оргкомитет вошли Леора Моргенштерн (Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллада) и Роберт Слоун (Иллинойский университет в Чикаго ).[14]
Конкурс Winograd Schema Challenge 2016 был проведен 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. Первый раунд конкурса заключался в решении PDP - задач по устранению неоднозначности местоимений, адаптированных из литературных источников, а не построенных в виде пар предложений.[15] Наивысший результат был получен на 58% правильными по Quan Liu и др. Из Университета науки и технологий, Китай.[16] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не прошел во второй раунд. В оргкомитет в 2016 году входили Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис.
70% точность по 70 задачам, выбранным вручную из 273[11] в исходном наборе данных Winograd Schema был получен в 2017 году с помощью модели нейронной ассоциации, разработанной для получения здравого смысла.[17] В июне 2018 года была достигнута точность 63,7% для полного набора данных с использованием ансамбля языковых моделей рекуррентных нейронных сетей.[18], отмечая первое использование глубоких нейронных сетей, которые учатся у независимых корпусов для получения знаний здравого смысла. В 2019 году оценка 90,1% была достигнута на исходном наборе данных схемы Винограда путем точной настройки БЕРТ языковая модель с соответствующими данными обучения, подобными WSC, чтобы избежать необходимости изучать здравый смысл.[11] Общая языковая модель GPT-3 достигла 88,3% без специальной корректировки в 2020 году.[19] Более сложный и состязательный набор данных Winogrande из 44 000 проблем был разработан в 2019 году. Состояние дел в этом более крупном наборе данных по состоянию на август 2020 года остается на уровне 84,6%, о котором сообщается для точной настройки. БЕРТ.[19]
Версия Winograd Schema Challenge является частью набора тестов GLUE (General Language Understanding Evaluation) для автоматизированного понимания естественного языка.[20]
Рекомендации
- ^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня». IEEE Spectrum. Получено 29 октября 2014.
- ^ а б c Левеск, Х. Дж. (2014). «О нашем лучшем поведении». Искусственный интеллект. 212: 27–35. Дои:10.1016 / j.artint.2014.03.007.
- ^ «Nuance объявляет конкурс Winograd Schemas Challenge для продвижения инноваций в области искусственного интеллекта». Деловой провод. 28 июля 2014 г.. Получено 9 ноября 2014.
- ^ а б c Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Вызов схемы Винограда. Труды тринадцатой Международной конференции по принципам представления знаний и аргументации. Получено 29 октября 2014.
- ^ Тьюринг, Алан (Октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF). Разум. LIX (236): 433–460. Дои:10.1093 / разум / LIX.236.433. Получено 28 октября 2014.
- ^ Акерман, Эван (октябрь 2014 г.). «Лучший тест, чем Тьюринг». IEEE Spectrum. 51 (10): 20–1. Дои:10.1109 / mspec.2014.6905475.
- ^ Льюис, Таня (11 августа 2014 г.). «Умные машины нуждаются в обновленном IQ-тесте, - говорят эксперты». Живая наука. Получено 28 октября 2014.
- ^ Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к когерентности дискурса. Цифровой репозиторий UT. п. 6. HDL:2152/29979.
- ^ Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF). Когнитивная психология. 3 (1): 1–191. Дои:10.1016/0010-0285(72)90002-3. Получено 4 ноября 2014.
- ^ Дэвис, Эрнест. "Сборник схем Винограда". cs.nyu.edu. NYU. Получено 30 октября 2014.
- ^ а б c Сакагути, Кейсуке; Ронан Ле Бра; Бхагаватула, Чандра; Чой, Йеджин (2019). "WinoGrande: состязательный вызов схемы Винограда в масштабе". arXiv:1907.10641 [cs.CL ].
- ^ Богуславский, И.М .; Фролова, Т.И .; Иомдин, Л.Л .; Лазурский, А.В .; Рыгаев, И.П .; Тимошенко, С.П. (2019). «Основанный на знаниях подход к вызову схемы Винограда» (PDF). Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям. Москва.
- ^ "Вызов схемы Винограда". CommonsenseReasoning.org. Получено 24 января 2020.
- ^ "Весенний симпозиум AAAI 2015". Ассоциация развития искусственного интеллекта. Получено 1 января 2015.
- ^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). "Первый вызов схемы Винограда на IJCAI-16". Журнал AI.
- ^ Лю, Цюань; Цзян, Хуэй; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). "Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в вызове схемы Винограда". arXiv:1611.04146 [cs.AI ].
- ^ Лю, Цюань; Цзян, Хуэй; Евдокимов Андрей; Линь, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Причинно-следственная модель приобретения знаний и нейронных ассоциаций для решения набора проблем схемы Винограда». Труды двадцать шестого Международная совместная конференция по искусственному интеллекту: 2344–2350. Дои:10.24963 / ijcai.2017 / 326.
- ^ Trinh, Trieu H .; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого смысла». arXiv: 1806.02847 [cs].
- ^ а б Браун, Том Б .; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Ziegler, Daniel M .; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; и другие. (2020). «Языковые модели - малоизученные». arXiv:2005.14165 [cs.CL ].
- ^ «КЛЕЙ Benchmark». GlueBenchmark.com. Получено 30 июля 2019.