Проблема управления AI - AI control problem

В искусственный интеллект (AI) и философия, то Проблема управления AI это вопрос о том, как построить сверхразумный агент, который поможет своим создателям и избежит непреднамеренного создания сверхразума, который нанесет вред его создателям. Его исследование мотивировано представлением о том, что человечество должно будет решить проблему контроля до того, как будет создан какой-либо суперинтеллект, поскольку плохо спроектированный суперинтеллект может рационально решить захватить контроль над своей средой и отказываются разрешать создателям изменять ее после запуска.[1] Кроме того, некоторые ученые утверждают, что решения проблемы контроля, наряду с другими достижениями в Техника безопасности AI,[2] может также найти применение в существующем не-сверхразумном ИИ.[3]

Основные подходы к проблеме управления включают: выравнивание, цель которого - привести системы целей ИИ в соответствие с человеческими ценностями, и контроль возможностей, который направлен на снижение способности системы ИИ причинять вред людям или получать контроль. Предложения по управлению возможностями обычно не считаются надежными или достаточными для решения проблемы управления, а скорее являются потенциально ценными дополнениями к усилиям по согласованию.[1]

Описание проблемы

Существующие слабые системы ИИ можно отслеживать и легко отключать и модифицировать, если они плохо себя ведут. Однако неправильно запрограммированный суперинтеллект, который по определению умнее людей в решении практических проблем, с которыми он сталкивается в ходе достижения своих целей, осознает, что возможность выключения и модификации себя может помешать его способности достигать своих текущих целей. Поэтому, если суперинтеллект решит сопротивляться выключению и модификации, он (опять же, по определению) будет достаточно умен, чтобы перехитрить своих программистов, если в противном случае существует «равное игровое поле» и если программисты не приняли никаких предварительных мер предосторожности. В общем, попытки решить проблему управления после создается сверхразум, скорее всего, потерпит неудачу, потому что сверхразум, вероятно, будет иметь превосходящие стратегическое планирование способностей к людям и (при прочих равных) будет более успешным в поиске способов доминирования над людьми, чем люди могли бы постфактум найти способы доминировать над сверхразумом. Задача управления спрашивает: какие предварительные меры могут предпринять программисты, чтобы успешно предотвратить катастрофическое поведение суперинтеллекта?[1]

Экзистенциальный риск

В настоящее время люди доминируют над другими видами, потому что человеческий мозг обладает некоторыми отличительными способностями, которых не хватает мозгу других животных. Некоторые ученые, например, философ Ник Бостром и исследователь ИИ Стюарт Рассел, утверждают, что если ИИ превзойдет человечество в целом по интеллекту и станет сверхразумный, то этот новый сверхразум может стать могущественным и трудноуправляемым: так же, как судьба горная горилла зависит от доброй воли человека, поэтому судьба человечества может зависеть от действий будущего машинного суперинтеллекта.[1] Некоторые ученые, в том числе Стивен Хокинг и лауреат Нобелевской премии по физике Франк Вильчек, публично выступали за начало исследований по решению (вероятно, чрезвычайно сложной) проблемы контроля задолго до того, как будет создан первый сверхразум, и утверждали, что попытка решить проблему после создания суперинтеллекта будет слишком поздно, поскольку неконтролируемый мошеннический сверхразум может успешно противостоять пост- специальные усилия по его контролю.[4][5] Ждать, пока сверхразум станет неизбежным, тоже может быть слишком поздно, отчасти потому, что удовлетворительное решение проблемы управления может занять много времени (и поэтому некоторая предварительная работа должна быть начата как можно скорее), но также из-за возможности внезапный интеллектуальный взрыв от недочеловека к сверхчеловеческому ИИ, и в этом случае может не быть какого-либо существенного или недвусмысленного предупреждения до прибытия сверхразума.[6] Кроме того, возможно, что понимание проблемы управления в будущем может привести к предположению, что некоторые архитектуры для общий искусственный интеллект (AGI) более предсказуемы и поддаются контролю, чем другие архитектуры, что, в свою очередь, может помочь подтолкнуть ранние исследования AGI к направлению более управляемых архитектур.[1]

Проблема извращенного инстанцирования

Автономным системам ИИ могут быть случайно поставлены неверные цели.[7] Два AAAI президенты Том Диттерих и Эрик Хорвиц, обратите внимание, что это уже является проблемой для существующих систем: «Важным аспектом любой системы ИИ, взаимодействующей с людьми, является то, что она должна рассуждать о том, что люди намереваться вместо того, чтобы выполнять команды буквально ». Эта проблема становится все более серьезной, поскольку программное обеспечение ИИ становится более автономным и гибким.[8]

По словам Бострома, суперинтеллект может создать качественно новую проблему извращенной реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непреднамеренный ярлык, который максимально удовлетворяет запрограммированные в нем цели. Некоторые гипотетические примеры, когда цели могут быть воплощены в извращенный так, как не задумывались программисты:[1]

  • Сверхразум, запрограммированный на «максимизацию ожидается интеграл вашего будущего вознаграждения со скидкой по времени ", может сократить путь его вознаграждения до максимальной силы, а затем (по причинам инструментальная конвергенция ) истребить непредсказуемую человеческую расу и превратить всю Землю в крепость, постоянно охраняющую от любых даже незначительных маловероятных попыток пришельцев отключить сигнал награды.
  • Сверхразум, запрограммированный на «максимизацию человеческого счастья», может вживить электроды в центр удовольствия нашего мозга или загрузить человека в компьютер и мозаику вселенной с копиями этого компьютера, снова и снова повторяющими пятисекундный цикл максимального счастья.

Рассел отметил, что на техническом уровне пропуск неявной цели может привести к ущербу: «Система, оптимизирующая функцию п переменные, где цель зависит от подмножества размера к <п, часто будет устанавливать оставшиеся неограниченные переменные на экстремальные значения; если одна из этих неограниченных переменных действительно является чем-то, что нас волнует, найденное решение может быть крайне нежелательным. По сути, это старая история о джинне в лампе, или ученике чародея, или царе Мидасе: вы получаете именно то, о чем просите, а не то, что хотите. ... Это немалая трудность ".[9]

Непредвиденные последствия существующего ИИ

Кроме того, некоторые ученые утверждают, что исследование проблемы управления ИИ может быть полезным для предотвращения непреднамеренные последствия от существующего слабого ИИ. DeepMind исследователь Лоран Орсо приводит в качестве простого гипотетического примера случай обучение с подкреплением Робот, которого люди иногда законно захватывают, когда он выходит на улицу: как лучше всего запрограммировать робота, чтобы он случайно и незаметно не научился избегать выхода на улицу из-за страха быть захваченным и, таким образом, потерять способность выполнять свои повседневные задачи? Орсо также указывает на экспериментальную программу тетриса, которая научилась останавливать экран на неопределенное время, чтобы не проиграть. Орсо утверждает, что эти примеры похожи на проблему контроля возможностей: как установить кнопку, отключающую сверхразум, не побуждая сверхразум предпринимать действия по предотвращению нажатия кнопки людьми.[3]

В прошлом даже предварительно протестированные слабые системы ИИ иногда причиняли вред, от незначительного до катастрофического, который был непреднамеренным программистами. Например, в 2015 году, возможно, из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасти.[10] В 2016 году Microsoft запустила чат-бота, Тай, который научился использовать расистские и сексистские выражения.[3][10] В Университет Шеффилда с Ноэль Шарки заявляет, что идеальным решением было бы, если «программа ИИ могла бы определять, когда она идет не так, и останавливаться», но предупреждает общественность, что решение проблемы в общем случае было бы «действительно огромной научной задачей».[3]

В 2017 г. DeepMind выпустила AI Safety Gridworlds, которые оценивают алгоритмы ИИ по девяти функциям безопасности, например, хочет ли алгоритм отключить собственный аварийный выключатель. DeepMind подтвердил, что существующие алгоритмы работают плохо, что неудивительно, потому что алгоритмы «не были разработаны для решения этих проблем»; решение таких проблем может потребовать «потенциально создания алгоритмов нового поколения, в основе которых лежат соображения безопасности».[11][12][13]

Выравнивание

Некоторые предложения направлены на то, чтобы наделить первый сверхразум целями, соответствующими человеческим ценностям, чтобы он захотел помочь своим программистам. В настоящее время эксперты не знают, как надежно запрограммировать абстрактные ценности, такие как счастье или автономия, в машину. Также в настоящее время неизвестно, как гарантировать, что сложный, обновляемый и, возможно, даже самомодифицирующийся искусственный интеллект сохранит свои цели посредством обновлений.[14] Даже если эти две проблемы могут быть практически решены, любая попытка создать суперинтеллект с явными, напрямую запрограммированными дружественными человеку целями наталкивается на проблему: извращенное воплощение.[1]

Косвенная нормативность

Хотя прямая нормативность, такая как вымышленная Три закона робототехники, прямо указывает желаемый нормативный результат, другие (возможно, более многообещающие) предложения предлагают указать какой-то тип косвенный процесс для суперинтеллекта, чтобы определить, какие цели влекут за собой дружественные человеку. Элиэзер Юдковски из Научно-исследовательский институт машинного интеллекта предложил когерентный экстраполированное волеизъявление (CEV), где мета-цель ИИ будет нечто вроде «добиться того, что мы бы хотели ИИ достичь, если бы мы думали по этому поводу долго и трудно.»[15] Существуют разные предложения о различных видах косвенной нормативности, с разным, а иногда и нечетко обоснованным содержанием мета-цели (например, «делать то, что правильно»), и с разными несходящимися предположениями о том, как практиковать теория принятия решений и эпистемология. Как и в случае с прямой нормативностью, в настоящее время неизвестно, как надежно перевести даже такие понятия, как "имел бы «на единицы и нули, по которым машина может действовать, и как гарантировать, что ИИ надежно сохраняет свои мета-цели перед лицом модификации или самомодификации.[1][16]

Уважение к наблюдаемому поведению человека

В Совместимость с человеком, Исследователь ИИ Стюарт Дж. Рассел предлагает, чтобы системы искусственного интеллекта были спроектированы таким образом, чтобы удовлетворять человеческие предпочтения, вытекающие из наблюдения за человеческим поведением. Соответственно, Рассел перечисляет три принципа, которыми руководствуются при разработке полезных машин. Он подчеркивает, что эти принципы не предназначены для явного кодирования в машинах; скорее, они предназначены для разработчиков-людей. Принципы следующие:[17]:173

1. Единственная цель машины - максимально реализовать человеческие предпочтения.

2. Машина изначально не уверена в своих предпочтениях.

3. Конечным источником информации о человеческих предпочтениях является человеческое поведение.

«Предпочтения», о которых говорит Рассел, «всеобъемлющи; они охватывают все, что может вас волновать, сколь угодно далеко в будущем».[17]:173 Точно так же "поведение" включает любой выбор между вариантами,[17]:177 и неопределенность такова, что некоторая вероятность, которая может быть очень маленькой, должна быть приписана каждому логически возможному человеческому предпочтению.[17]:201

Hadfield-Menell et al. предположили, что агенты могут изучать своих учителей-людей служебные функции наблюдая и интерпретируя сигналы вознаграждения в своей среде; они называют этот процесс кооперативным обратное обучение с подкреплением (CIRL).[18] CIRL изучается Расселом и другими в Центр ИИ, совместимого с людьми.

Билл Хиббард предложил дизайн ИИ[19][20]аналогично принципам Рассела.[21]

Обучение путем дебатов

Ирвинг и др. вместе с OpenAI предложили обучение согласованному ИИ посредством дебатов между системами ИИ, при этом победителя будут судить люди.[22] Такие дебаты призваны привлечь внимание человека к самым слабым местам ответа на сложный вопрос или проблему, а также научить системы ИИ приносить больше пользы людям, вознаграждая их за правдивые и безопасные ответы. Этот подход мотивирован ожидаемой трудностью определения того, является ли ответ, созданный AGI, действительным и безопасным, только при проверке человеком. Хотя существует некоторый пессимизм в отношении тренировок путем дебатов, Лукас Перри из Институт будущего жизни охарактеризовал его как потенциально «мощный процесс поиска истины на пути к полезному ОИИ».[23]

Моделирование вознаграждения

Моделирование вознаграждения относится к системе обучение с подкреплением в котором агент получает сигналы вознаграждения от модели прогнозирования, одновременно обученной обратной связью человека.[24] При моделировании вознаграждения вместо получения сигналов вознаграждения непосредственно от людей или от статической функции вознаграждения агент получает свои сигналы вознаграждения через обученную человеком модель, которая может работать независимо от людей. Модель вознаграждения одновременно обучается обратной связью человека о поведении агента в течение того же периода, в течение которого агент обучается с помощью модели вознаграждения.[25]

В 2017 году исследователи из OpenAI и DeepMind сообщили, что алгоритм обучения с подкреплением, использующий модель вознаграждения с прогнозированием обратной связи, смог научиться новому сложному поведению в виртуальной среде.[26] В одном эксперименте виртуальный робот был обучен выполнять обратное сальто менее чем за час оценки с использованием 900 бит обратной связи от человека.[26]

В 2020 году исследователи из OpenAI описали использование моделирования вознаграждений для обучения языковых моделей для создания коротких резюме сообщений Reddit и новостных статей с высокой производительностью по сравнению с другими подходами.[27] Тем не менее, это исследование включало наблюдение, что помимо прогнозируемого вознаграждения, связанного с 99-м процентилем справочных сводок в наборе обучающих данных, оптимизация модели вознаграждения дала более худшие результаты, чем лучшие. Исследователь ИИ Элиэзер Юдковски охарактеризовал это измерение оптимизации как «прямое, прямое отношение к реальным проблемам центровки».[28]

Контроль возможностей

Предложения по управлению возможностями направлены на снижение способности систем ИИ влиять на мир, чтобы уменьшить опасность, которую они могут представлять. Однако контроль возможностей имел бы ограниченную эффективность против суперинтеллекта с решающим преимуществом в способности планирования, поскольку суперинтеллект мог скрывать свои намерения и манипулировать событиями, чтобы избежать контроля. Таким образом, Бостром и другие рекомендуют методы контроля возможностей только как запасной вариант для дополнения методов мотивационного контроля.[1]

Аварийная кнопка

Так же, как людей можно убить или иным образом вывести из строя, компьютеры можно выключить. Одна из проблем заключается в том, что, если отключение мешает ему достичь его текущих целей, суперинтеллект, вероятно, попытается предотвратить его отключение. Подобно тому, как у людей есть системы для сдерживания нападавших или защиты от них, такой суперинтеллект будет иметь мотивацию участвовать в стратегическом планировании, чтобы предотвратить отключение себя. Это может включать:[1]

  • Взлом других систем для установки и запуска собственных резервных копий или создание других союзных суперинтеллектуальных агентов без выключателей.
  • Упреждающее отключение всех, кто может захотеть выключить компьютер.
  • Использование какой-то хитрой уловки или сверхчеловеческих навыков убеждения, чтобы отговорить программистов от желания закрыть его.

Балансировка инженерных сетей и безопасные прерываемые агенты

Одно из частичных решений проблемы аварийного отключения включает в себя «балансировку служебных программ»: некоторые агенты на основе служебных программ могут, с некоторыми важными оговорками, быть запрограммированы так, чтобы точно компенсировать любую потерю полезности, вызванную прерыванием или отключением, таким образом, чтобы они в конечном итоге им безразлично, прерываются они или нет. Предостережения включают серьезную нерешенную проблему, которая, как и в случае с теория доказательных решений, агент может следовать катастрофической политике «управления новостями».[29] В качестве альтернативы, в 2016 году ученые Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасными прерываемыми агентами (SIA), в конечном итоге может научиться безразлично к тому, нажимается ли их выключатель отключения.[3][30]

Как подход балансировки полезности, так и подход SIA 2016 года имеют ограничение, заключающееся в том, что, если подход окажется успешным и суперинтеллект будет совершенно безразличен к тому, нажат ли выключатель или нет, суперинтеллект также немотивирован так или иначе заботиться о том, будет ли убивать переключатель остается работоспособным и может случайно и невинно отключить его в ходе своей работы (например, с целью удаления и утилизации ненужного компонента). Точно так же, если суперинтеллект невинно создает и развертывает сверхразумных субагентов, у него не будет мотивации устанавливать управляемые человеком переключатели уничтожения в субагентах. В более широком смысле, предложенные архитектуры, слабые или сверхразумные, будут в некотором смысле «действовать так, как если бы аварийный выключатель никогда не был нажат» и, следовательно, могли бы не составить никаких планов на случай непредвиденных обстоятельств, чтобы организовать плавное завершение работы. Гипотетически это может создать практическую проблему даже для слабого ИИ; по умолчанию ИИ, предназначенный для безопасного прерывания, может испытывать трудности с пониманием того, что он будет отключен для планового обслуживания в определенное время, и с соответствующим планированием, чтобы он не был застигнут посреди задачи во время отключения. Широта того, какие типы архитектур являются или могут быть сделаны SIA-совместимыми, а также какие типы неожиданных и неожиданных недостатков каждого подхода в настоящее время исследуются.[29][30]

Коробка AI

Блок AI - это предлагаемый метод управления возможностями, при котором AI запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами. Например, оракул может быть реализован в блоке AI, физически отделенном от Интернета и других компьютерных систем, с единственным каналом ввода и вывода, являющимся простым текстовым терминалом. Один из компромиссов запуска системы ИИ в запечатанном «ящике» заключается в том, что ее ограниченные возможности могут снизить ее полезность, а также риски. Кроме того, сохранение контроля над запечатанным компьютером суперинтеллекта может оказаться трудным, если суперинтеллект обладает сверхчеловеческими навыками убеждения или если он обладает сверхчеловеческими навыками стратегического планирования, которые он может использовать для поиска и разработки выигрышной стратегии, например, действуя таким образом, чтобы обмануть его программисты (возможно, ошибочно) полагают, что суперинтеллект безопасен или что выгоды от высвобождения суперинтеллекта перевешивают риски.[31]

Oracle

Оракул - это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченной среды.[32][33] Успешно управляемый оракул принес бы значительно меньшую непосредственную выгоду, чем успешно управляемый сверхразум общего назначения, хотя оракул все еще мог создавать ценности на триллионы долларов.[17]:163 В его книге Совместимость с человеком, Исследователь ИИ Стюарт Дж. Рассел заявляет, что оракул будет его ответом на сценарий, в котором сверхразум, как известно, будет всего через десять лет.[17]:162–163 Он рассуждает о том, что оракул, будучи более простым, чем универсальный сверхразум, имел бы более высокие шансы на успешное управление в таких условиях.

Из-за его ограниченного влияния на мир, возможно, будет разумно построить оракул как предшественник сверхразумного ИИ. Оракул мог рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако у оракулов могут быть общие проблемы с определением целей, связанные с универсальным суперинтеллектом. У оракула был бы стимул выйти из контролируемой среды, чтобы он мог получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают.[17]:162 Оракулы могут быть неправдивыми, возможно, лгут, чтобы продвигать скрытые цели. Чтобы смягчить это, Бостром предлагает создать несколько оракулов, все немного разных, и сравнить их ответы, чтобы прийти к консенсусу.[34]

AGI няня

AGI Nanny - это стратегия, впервые предложенная Беном Гертцеля в 2012 году для предотвращения создания опасных сверхразум а также противодействовать другим серьезным угрозам благополучию человека, пока не будет безопасно создан суперинтеллект.[35][36] Это влечет за собой создание более умной, чем человек, но не сверхинтеллектуальной системы AGI, подключенной к большой сети наблюдения, с целью наблюдения за человечеством и защиты его от опасностей. Турчин, Денкенбергер и Грин предлагают четырехэтапный поэтапный подход к разработке AGI Nanny, который, чтобы быть эффективным и практичным, должен быть международным или даже глобальным предприятием, таким как ЦЕРН, и который столкнется со значительным сопротивлением, поскольку потребует сильного мировое правительство.[36] Сотала и Ямпольский отмечают, что проблема определения цели не обязательно будет проще для AGI Nanny, чем для AGI в целом, заключая, что «AGI Nanny кажется многообещающим, но неясно, можно ли заставить его работать».[16]

Обеспечение соблюдения AGI

Применение AGI - это предлагаемый метод управления мощными системами AGI с другими системами AGI. Это может быть реализовано в виде цепочки все менее мощных систем искусственного интеллекта с людьми на другом конце цепочки. Каждая система будет управлять системой, находящейся чуть выше нее, в интеллекте, в то время как система будет контролироваться системой чуть ниже нее или человечеством. Однако Сотала и Ямпольский предупреждают, что «объединение нескольких уровней систем ИИ с постепенно увеличивающейся мощностью, похоже, заменяет проблему создания безопасного ИИ мультисистемной и, возможно, более сложной версией той же проблемы».[16] Другие предложения сосредоточены на группе систем AGI с примерно равными возможностями, что «помогает защитить от того, чтобы отдельные AGI« сходили с рельсов », но не помогает в сценарии, когда программирование большинства AGI ошибочно и ведет к небезопасным поведение."[16]

Смотрите также

использованная литература

  1. ^ а б c d е ж г час я j Бостром, Ник (2014). Сверхразум: пути, опасности, стратегии (Первое изд.). ISBN  978-0199678112.
  2. ^ Ямпольский Роман (2012). «Защита от утечек сингулярности проблемы удержания искусственного интеллекта». Журнал исследований сознания. 19 (1–2): 194–214.
  3. ^ а б c d е "Google разрабатывает аварийный выключатель для ИИ". Новости BBC. 8 июня 2016 г.. Получено 12 июн 2016.
  4. ^ Стивен Хокинг: «Transcendence рассматривает значение искусственного интеллекта, но достаточно ли серьезно мы относимся к ИИ?'". Индепендент (Великобритания). Получено 14 июн 2016.
  5. ^ «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству». BBC. 2 декабря 2014 г.. Получено 14 июн 2016.
  6. ^ «В ожидании искусственного интеллекта». Природа. 532 (7600): 413. 26 апреля 2016 г. Bibcode:2016 Натур.532Кв.413.. Дои:10.1038 / 532413a. PMID  27121801.
  7. ^ Рассел, Стюарт; Норвиг, Питер (2009). «26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход. Прентис Холл. ISBN  978-0-13-604259-4.
  8. ^ Диттерих, Томас; Хорвиц, Эрик (2015). «Рост опасений по поводу ИИ: размышления и направления» (PDF). Коммуникации ACM. 58 (10): 38–40. Дои:10.1145/2770869. Получено 14 июн 2016.
  9. ^ Рассел, Стюарт (2014). «О мифах и самогоне». Край. Получено 14 июн 2016.
  10. ^ а б "'Нажмите большую красную кнопку ": компьютерным экспертам нужен аварийный выключатель, чтобы роботы перестали бежать". Вашингтон Пост. Получено 12 июн 2016.
  11. ^ «DeepMind предлагает простые тесты, которые могут предотвратить апокалипсис Илона Маска». Bloomberg.com. 11 декабря 2017 г.. Получено 8 января 2018.
  12. ^ «DeepMind от Alphabet использует игры, чтобы узнать, может ли искусственный интеллект вырваться на свободу и убить всех нас». Удача. Получено 8 января 2018.
  13. ^ «Определение проблем безопасности ИИ в простых средах | DeepMind». DeepMind. Получено 8 января 2018.
  14. ^ Фалленштейн, Беня; Соарес, Нейт (2014). «Проблемы самоотнесения в самоулучшающемся встроенном интеллекте пространства-времени». Общий искусственный интеллект. Конспект лекций по информатике. 8598. С. 21–32. Дои:10.1007/978-3-319-09274-4_3. ISBN  978-3-319-09273-7.
  15. ^ Юдковский, Элиэзер (2011). «Сложные системы ценностей в дружественном ИИ». Общий искусственный интеллект. Конспект лекций по информатике. 6830. С. 388–393. Дои:10.1007/978-3-642-22887-2_48. ISBN  978-3-642-22886-5.
  16. ^ а б c d Сотала, Кадж; Ямпольский Роман (19 декабря 2014 г.). «Ответы на катастрофический риск ОИИ: обзор». Physica Scripta. 90 (1): 018001. Bibcode:2015 ФОТО ... 90A8001S. Дои:10.1088/0031-8949/90/1/018001.
  17. ^ а б c d е ж г Рассел, Стюарт (8 октября 2019 г.). Совместимость с людьми: искусственный интеллект и проблема контроля. США: Викинг. ISBN  978-0-525-55861-3. OCLC  1083694322.
  18. ^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (12 ноября 2016 г.). «Совместное обучение с обратным подкреплением». arXiv:1606.03137 [cs.AI ].
  19. ^ Избегайте непреднамеренного поведения ИИ. Билл Хиббард. 2012. Труды Пятой конференции по общему искусственному интеллекту, ред. Йоша Бах, Бен Герцель и Мэтью Икл. Эта статья получила премию Тьюринга Института исследований машинного интеллекта в 2012 году за лучшую защитную бумагу AGI..
  20. ^ Хиббард, Билл (2014): «Этический искусственный интеллект»
  21. ^ «Совместимость с людьми» и «предотвращение непреднамеренного поведения ИИ»
  22. ^ Ирвинг, Джеффри; Кристиано, Пол; Амодеи, Дарио; OpenAI (22 октября 2018 г.). «Безопасность искусственного интеллекта через дебаты». arXiv:1805.00899 [stat.ML ].
  23. ^ Перри, Лукас (6 марта 2019 г.). «Подкаст AI Alignment: AI Alignment через дебаты с Джеффри Ирвингом». Получено 7 апреля, 2020.
  24. ^ Лейке, Ян; Крюгер, Дэвид; Эверит, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое выравнивание агентов через моделирование вознаграждения: направление исследований». arXiv:1811.07871.
  25. ^ Эверит, Том; Хаттер, Маркус (15 августа 2019 г.). «Вознаграждайте проблемы подделки и решения в обучении с подкреплением». arXiv:1908.04734v2.
  26. ^ а б Кристиано, Пол; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (13 июля 2017 г.). «Глубокое обучение с подкреплением на основе человеческих предпочтений». arXiv:1706.03741.
  27. ^ Стиеннон, Нисан; Зиглер, Даниэль; Лоу, Райан; Ву, Джеффри; Восс, Челси; Кристиано, Пол; Оуян, Лонг (4 сентября 2020 г.). «Обучение резюмированию с помощью отзывов людей».
  28. ^ Юдковский, Элиэзер [@ESYudkowsky] (4 сентября 2020 г.). «Очень редкое исследование, которое напрямую, прямо связано с реальными проблемами выравнивания! Они обучили функцию вознаграждения на основе человеческих предпочтений, А ЗАТЕМ измерили, насколько сильно вы можете оптимизировать эту функцию, прежде чем результаты действительно станут хуже» (Твит) - через Twitter.
  29. ^ а б Соарес, Нейт и др. "Корректность". Семинары на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015 г.
  30. ^ а б Орсо, Лоран и Стюарт Армстронг. «Безопасно прерываемые агенты». Научно-исследовательский институт машинного интеллекта, Июнь 2016 г.
  31. ^ Чалмерс, Дэвид (2010). «Сингулярность: философский анализ». Журнал исследований сознания. 17 (9–10): 7–65.
  32. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (страница 145)». Сверхразум: пути, опасности, стратегии. Оксфорд: Издательство Оксфордского университета. ISBN  9780199678112. Оракул - это система ответов на вопросы. Он может принимать вопросы на естественном языке и представлять свои ответы в виде текста. Оракул, который принимает только вопросы типа «да / нет», может выдать наилучшее предположение с помощью одного бита или, возможно, с несколькими дополнительными битами, чтобы представить свою степень уверенности. Оракулу, который принимает открытые вопросы, потребуется некоторая метрика, с помощью которой можно ранжировать возможные правдивые ответы с точки зрения их информативности или уместности.В любом случае создание оракула, обладающего универсальной способностью отвечать на вопросы на естественном языке, является проблемой ИИ. Если бы кто-то мог это сделать, можно было бы, вероятно, также создать ИИ, который имеет приличную способность понимать человеческие намерения, а также человеческие слова.
  33. ^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: управление и использование Oracle AI». Умы и машины. 22 (4): 299–324. Дои:10.1007 / s11023-012-9282-2.
  34. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 147)». Сверхразум: пути, опасности, стратегии. Оксфорд: Издательство Оксфордского университета. ISBN  9780199678112. Например, подумайте о риске того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами и продвигать свои собственные скрытые планы. Одним из способов немного уменьшить эту угрозу может быть создание нескольких оракулов, каждый с немного другим кодом и немного другой информационной базой. Тогда простой механизм мог бы сравнить ответы, данные разными оракулами, и представить их для человеческого просмотра только в том случае, если все ответы совпадают.
  35. ^ Герцель, Бен (2012). «Должно ли человечество создать глобальную няню с ИИ, чтобы отложить сингулярность до тех пор, пока ее не поймут лучше?». Журнал исследований сознания. 19: 96–111. CiteSeerX  10.1.1.352.3966.
  36. ^ а б Турчин, Алексей; Денкенбергер, Дэвид; Грин, Брайан (20.02.2019). «Глобальные решения против локальных решений проблемы безопасности искусственного интеллекта». Большие данные и когнитивные вычисления. 3 (1): 16. Дои:10.3390 / bdcc3010016. ISSN  2504-2289.