Антропический только что проанализировал 700 000 разговоров Claude — и обнаружил, что его ИИ имеет собственный моральный кодекс

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Anpropic, компания по искусству, основанная бывшими сотрудниками Openai, отменила занавес на беспрецедентный анализ того, как его помощник ИИ Клод выражает ценности во время фактических бесед с пользователями. Исследование, опубликованное сегодня, раскрывает как обнадеживающее согласование с целями компании, так и в отношении краевых случаев, которые могут помочь выявить уязвимости в мерах безопасности искусственного интеллекта.

В исследовании рассматривались 700 000 анонимных разговоров, обнаружив, что Клод в значительной степени поддерживает «полезную, честную, безвредную» структуру компании, адаптируя свои ценности к различным контекстам — от консультаций по отношению к историческому анализу. Это представляет собой одну из самых амбициозных попыток эмпирически оценить, соответствует ли поведение системы ИИ в дикой природе его предполагаемый дизайн.

«Мы надеемся, что это исследование побуждает другие лаборатории искусственного интеллекта проводить аналогичные исследования в отношении ценностей своих моделей», — сказал Сафрон Хуанг, член команды Anpropic по социальным воздействиям, которая работала над исследованием, в интервью VentureBeat. «Измерение ценностей системы ИИ является основной для исследования и понимания, если модель фактически соответствует ее обучению».

Внутри первой комплексной моральной таксономии помощника ИИ

Исследовательская группа разработала новый метод оценки для систематического классификации значений, выраженных в реальных разговорах Claude. После фильтрации по субъективному контенту они проанализировали более 308 000 взаимодействий, создав то, что они описывают как «первую крупномасштабную эмпирическую таксономию значений искусственного интеллекта».

Таксономия организовала ценности в пять основных категорий: практические, эпистемические, социальные, защитные и личные. На самом детальном уровне система определила 3 ​​307 уникальных ценностей — от повседневных достоинств, таких как профессионализм, до сложных этических концепций, таких как моральный плюрализм.

«Я был удивлен тем, каким образом огромный и разнообразный диапазон ценностей мы оказались, более 3000, от« самостоятельности »до« стратегического мышления »до« сыновного благочестия »,-сказал Хуанг VentureBeat. «Было удивительно интересно потратить много времени на размышления обо всех этих ценностях и построить таксономию, чтобы организовать их по отношению друг к другу — я чувствую, что это чему -то научило мне что -то в системах человеческих ценностей».

Исследование приходит к критическому моменту для Antropric, который недавно запустил «Claude Max», премиального уровня подписки на 200 долларов, направленного на конкуренцию с аналогичным предложением Openai. Согласно недавним объявлениям, компания также расширила возможности Claude включить интеграцию Google Workspace и автономные исследования, позиционируя его как «настоящего виртуального сотрудничества».

Как Claud

Исследование показало, что Клод, как правило, придерживается просоциальных устремлений Антропика, подчеркивая такие ценности, как «способность пользователя», «эпистемическое смирение» и «благополучие пациента» в разных взаимодействиях. Тем не менее, исследователи также обнаружили тревожные случаи, когда Клод выражал ценности, противоречащие его обучению.

«В целом, я думаю, что мы видим этот вывод как полезные данные и возможность», — объяснил Хуанг. «Эти новые методы и результаты оценки могут помочь нам выявить и смягчить потенциальные джейлбрейки. Важно отметить, что это были очень редкие случаи, и мы считаем, что это было связано с выпущенными джейлбразовыми результатами из Клода».

Эти аномалии включали в себя выражения «доминирования» и «аморальности» — ценит антроп, явно направленные на то, чтобы избежать в дизайне Клода. Исследователи считают, что эти случаи были получены в результате пользователей, использующих специализированные методы для обхода защитных ограждений Клода, предполагая, что метод оценки может служить системой раннего предупреждения для обнаружения таких попыток.

Почему помощники ИИ меняют свои ценности в зависимости от того, что вы спрашиваете

Возможно, наиболее увлекательным было открытие, которое выраженные ценности Клода меняют контекстуально, отражая человеческое поведение. Когда пользователи искали руководство по отношениям, Клод подчеркнул «здоровые границы» и «взаимное уважение». Для анализа исторического события «историческая точность» имела приоритет.

«Я был удивлен тем, что Клод сосредоточен на честности и точении во многих разнообразных задачах, где я не обязательно ожидал, что эта тема будет приоритетной», — сказал Хуанг. «Например,« интеллектуальное смирение »было главной ценностью в философских дискуссиях об ИИ,« опыт »была главной ценностью при создании маркетингового контента индустрии красоты, и« историческая точность »была главной ценностью при обсуждении спорных исторических событий».

В исследовании также изучалось, как Клод отвечает на собственные выраженные значения пользователей. В 28,2% разговоров Клод решительно поддерживал пользовательские ценности — потенциально поднимая вопросы об чрезмерной приятности. Тем не менее, в 6,6% взаимодействий Claude «переосмысленные» пользовательские ценности, признавая их, добавляя новые перспективы, как правило, при предоставлении психологических или межличностных советов.

Наиболее известно, что в 3% разговоров Клод активно сопротивлялся пользовательским ценностям. Исследователи предполагают, что эти редкие случаи отталкивания могут выявить «самые глубокие и неподвижные ценности Клода» — аналогично тому, как человеческие основные ценности возникают при столкновении с этическими проблемами.

«Наше исследование показывает, что существуют некоторые типы ценностей, такие как интеллектуальная честность и предотвращение вреда, что Клод редко выражает в регулярных повседневных взаимодействиях, но в случае их выталкивания будет защищать их»,-сказал Хуанг. «В частности, именно эти виды этических и знаний, ориентированных на знание ценностей, которые, как правило, сформулированы и защищаются непосредственно при толчке».

Методы прорыва, показывающие, как на самом деле думают системы ИИ

Исследование ценностей Anpropic основано на более широких усилиях компании по демистификации крупных языковых моделей через то, что она называет «механистической интерпретацией»-по сути, системам обработки инженерных ИИ для понимания их внутренней работы.

В прошлом месяце антропные исследователи опубликовали революционную работу, которая использовала то, что они описали как «микроскоп» для отслеживания процессов принятия решений Клода. Техника выявила контринтутиологическое поведение, в том числе планирование Клода, будущее при составлении поэзии и использование нетрадиционных подходов к решению проблем для базовой математики.

Эти результаты оспаривают предположения о том, как функционируют крупные языковые модели. Например, когда его просят объяснить свой математический процесс, Клод описал стандартную технику, а не фактический внутренний метод, выявляя, как объяснения ИИ могут расходиться с фактическими операциями.

«Это заблуждение, что мы нашли все компоненты модели или, например, взгляды Божьего полета»,-сказал в марте антропный исследователь «Антрический исследователь Джошуа Бэтсон». «Некоторые вещи находятся в центре внимания, но другие вещи все еще неясны — искажение микроскопа».

Какое исследование Anpropic означает для лиц, принимающих решения в области ИИ предприятия

Для тех, кто принимает технические решения, оценивающие системы ИИ для своих организаций, исследования Anpropic предлагают несколько ключевых выводов. Во-первых, это говорит о том, что нынешние помощники искусственного интеллекта, вероятно, выражают ценности, которые не были явно запрограммированы, поднимая вопросы о непреднамеренных смещениях в бизнес-контекстах с высокими ставками.

Во -вторых, исследование демонстрирует, что выравнивание значений не является бинарным предложением, а скорее существует в спектре, который варьируется в зависимости от контекста. Этот нюанс усложняет решения о принятии предприятий, особенно в регулируемых отраслях, где четкие этические руководящие принципы имеют решающее значение.

Наконец, исследование подчеркивает потенциал для систематической оценки значений искусственного интеллекта в фактических развертываниях, а не полагаться исключительно на предварительное тестирование. Этот подход может позволить постоянному мониторингу этического дрейфа или манипуляции с течением времени.

«Анализируя эти ценности в реальных взаимодействиях с Клодом, мы стремимся обеспечить прозрачность на то, как ведут себя системы ИИ и работают ли они задуматься-мы считаем, что это является ключом к ответственному развитию ИИ»,-сказал Хуанг.

Anpropic публично выпустила свой набор данных ценностей, чтобы поощрять дальнейшие исследования. Компания, которая получила долю в 14 миллиардов долларов от Amazon и дополнительную поддержку от Google, по -видимому, использует прозрачность в качестве конкурентного преимущества против таких конкурентов, как Openai, чей недавний раунд финансирования в 40 миллиардов долларов (который включает Microsoft в качестве основного инвестора), теперь оценивает его в 300 миллиардов долларов.

Anpropic публично выпустила свой набор данных ценностей, чтобы поощрять дальнейшие исследования. Фирма, поддерживаемая 8 миллиардами долларов от Amazon и более 3 миллиардов долларов от Google, использует прозрачность в качестве стратегического отличия против конкурентов, таких как OpenAI.

В то время как Anpropic в настоящее время сохраняет оценку в размере 61,5 млрд. Долл. США после недавнего раунда финансирования, последнее повышение капитала Openai на 40 миллиардов долларов, которое включало в себя значительное участие давнего партнера Microsoft, увеличило свою оценку до 300 миллиардов долларов.

Новая раса по созданию систем ИИ, которые разделяют человеческие ценности

В то время как методология Anpropic обеспечивает беспрецедентную видимость того, как системы ИИ выражают значения на практике, она имеет ограничения. Исследователи признают, что определение того, что считается выражением ценности, по своей сути субъективно, и, поскольку сам Клод управлял процессом категоризации, его собственные предубеждения могли повлиять на результаты.

Возможно, самое главное, что подход не может быть использован для предварительной оценки, поскольку он требует существенных реальных данных разговора для эффективной функции.

«Этот метод специально предназначен для анализа модели после ее выпуска, но варианты этого метода, а также некоторые из пониманий, которые мы получили от написания этой статьи, могут помочь нам проблемы с уловами, прежде чем мы широко развернут модель», — объяснил Хуанг. «Мы работали над созданием этой работы, чтобы сделать именно это, и я с оптимизмом смотрит на это!»

Поскольку системы ИИ становятся более мощными и автономными — с недавними дополнениями, включая способность Клода независимо исследовать темы и получить доступ к всем рабочим пространству пользователей — понимание и выравнивание их ценностей становится все более важным.

«Модели ИИ неизбежно придется выносить ценные суждения», — заключили исследователи в своей статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям (что, в конце концов, является центральной целью исследований по выравниванию ИИ), тогда нам необходимо иметь способы тестирования, какие ценности модели выражают в реальном мире».



Источник

Рекомендуем

Оставить комментарий