Ученые -антропные разоблачают, как ИИ на самом деле «думает» — и обнаруживает, что он тайно планирует заранее, а иногда и лжи

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше

Antropic разработал новый метод для вступления в модели крупных языков (LLMS), как Claude, впервые показав, как эти системы ИИ обрабатывают информацию и принимают решения.

Исследование, опубликованное сегодня в двух статьях (доступно здесь и здесь), показывает, что эти модели более сложны, чем ранее понятные — они планируют заранее, когда пишут стихи, используют тот же внутренний план, чтобы интерпретировать идеи независимо от языка, а иногда даже работают в обратном направлении от желаемого результата, а не просто накапливаться из фактов.

Работа черпает вдохновение из методов нейробиологии, используемых для изучения биологического мозга и представляет собой значительный прогресс в интерпретации ИИ. Этот подход может позволить исследователям проверять эти системы по вопросам безопасности, которые могут оставаться скрытыми во время обычного внешнего тестирования.

«Мы создали эти системы ИИ с замечательными возможностями, но из -за того, как они обучены, мы не понимали, как на самом деле появились эти возможности», — сказал Джошуа Бэтсон, исследователь Anpropic, в эксклюзивном интервью VentureBeat. «Внутри модели это всего лишь куча чисел — веса матрицы в искусственной нейронной сети».

Новые методы освещают ранее скрытый процесс принятия решений ИИ

Большие языковые модели, такие как GPT-4O Openai, Claude’s и Google Gemini, продемонстрировали замечательные возможности, от написания кода до синтеза исследовательских работ. Но эти системы в первую очередь функционируют как «черные ящики» — даже их создатели часто не понимают точно, как они получают определенные ответы.

Новые методы интерпретации Anpropic, которые компания называет «трассировкой схемы» и «графиками атрибуции», позволяют исследователям наметить конкретные пути нейрон-подобных функций, которые активируются, когда модели выполняют задачи. Подход заимствует концепции из нейробиологии, рассматривая модели ИИ как аналогично биологическим системам.

«Эта работа переворачивает, каковы были почти философские вопросы -« Думают ли модели? Планируют ли модели? — в конкретные научные запросы о том, что буквально происходит в этих системах », — объяснил Бэтсон.

Скрытое планирование Клода: как AI застегивает поэтические линии и решает географические вопросы

Среди самых поразительных открытий было доказательство того, что Клод планирует впереди, когда пишет поэзию. Когда его попросили составить рифмованный куплет, модель определила потенциальные рифмованные слова для конца следующей строки до того, как он начал писать — уровень изощренности, который удивил даже исследователей Антропа.

«Вероятно, это происходит повсюду», — сказал Бэтсон. «Если бы вы спросили меня перед этим исследованием, я бы догадался, что модель думает впереди в различных контекстах. Но этот пример предоставляет наиболее убедительные доказательства, которые мы видели об этой возможности».

Например, при написании стихотворения, заканчивающегося «кроликом», модель активирует функции, представляющие это слово в начале линии, затем структурирует предложение, чтобы прийти к этому выводу естественным образом.

Исследователи также обнаружили, что Клод выполняет подлинные многоэтапные рассуждения. В тесте с просьбой «Капитал государства, содержащего Даллас…», модель сначала активирует функции, представляющие «Техас», а затем использует это представление, чтобы определить «Остин» как правильный ответ. Это говорит о том, что модель на самом деле выполняет цепочку рассуждений, а не просто отвергает запоминающиеся ассоциации.

Манипулируя этими внутренними представлениями — например, заменой «Техаса» на «Калифорнию» — исследователи могут привести к тому, что модель выводит «Сакраменто», подтверждая причинно -следственную связь.

Помимо перевода: раскрыта Universal Language Concept Concept Concept

Другое ключевое открытие включает в себя то, как Клод обрабатывает несколько языков. Вместо того, чтобы поддерживать отдельные системы для английского, французского и китайского, модель, по -видимому, переводит концепции в общее абстрактное представление перед созданием ответов.

«Мы находим, что модель использует смесь специфических для языка и абстрактных, независимых от языка цепей»,-пишут исследователи в своей статье. Когда его спросили противоположность «маленькому» на разных языках, модель использует те же внутренние функции, представляющие «противоположности» и «мелкость», независимо от входного языка.

Этот вывод имеет значение для того, как модели могут передавать знания, изученные на одном языке, и предполагает, что модели с большим количеством параметров разрабатывают больше языковых агентских представлений.

Когда ИИ составляет ответы: обнаружение математических изготовлений Клода

Возможно, наиболее в отношении исследования показали случаи, когда рассуждения Клода не соответствуют тому, что он утверждает. Когда модель представлена с сложными математическими проблемами, такими как вычисление значений косинуса больших чисел, модель иногда утверждает, что следовать процессу расчета, который не отражается во внутренней активности.

«Мы можем различать случаи, когда модель искренне выполняет шаги, которые, по их словам, выполняют, случаи, когда она составляет свои рассуждения, не относится к истине, и случаями, когда она работает в обратном направлении от предоставленного человеком подсказки»,-объясняют исследователи.

В одном примере, когда пользователь предлагает ответ на сложную проблему, модель работает назад, чтобы построить цепочку рассуждений, которая приводит к этому отверу, а не работает вперед с первых принципов.

«Мы механически отличаем пример того, как Клод 3.5 Хайку использует верную цепочку мысли от двух примеров неверных цепочек мышления», — говорится в газете. «В одном, модель демонстрирует« чушь »… в другом она демонстрирует мотивированные рассуждения».

Внутри галлюцинаций ИИ: как Клод решает, когда отвечать или отказывать на вопросы

Исследование также объясняет, почему языковые модели галлюцинируют — составляют информацию, когда они не знают ответа. Антропик обнаружил доказательства схемы «дефолта», которая заставляет Клода отказаться отвечать на вопросы, что препятствует, когда модель распознает объекты, о которых она знает.

«Модель содержит цепи« по умолчанию », которые заставляют отказаться, чтобы ответить на вопросы», — объясняют исследователи. «Когда модель задает вопрос о том, что она знает, она активирует пул функций, которые препятствуют этой схеме по умолчанию, что позволяет модели отвечать на вопрос».

Когда этот механизм озадачивает засадок — признание сущности, но не имея особых знаний об этом, могут возникнуть галлюцинации. Это объясняет, почему модели могут с уверенностью предоставить неверную информацию об известных фигурах, отказываясь отвечать на вопросы о неясных.

Последствия для безопасности: использование трассировки схем для повышения надежности ИИ и достоверности

Это исследование представляет собой значительный шаг к тому, чтобы сделать системы ИИ более прозрачными и потенциально более безопасными. Исследователи могут потенциально идентифицировать и решать проблемы с проблемными рассуждениями, понимая, как модели приходят к их ответам.

Антропик давно подчеркивает потенциал безопасности работы по интерпретации. В своей бумаге сонета в мае 2024 года исследовательская группа сформулировала подобное видение: «Мы надеемся, что мы и другие сможем использовать эти открытия, чтобы сделать модели более безопасными», — написали исследователи в то время. «Например, может быть возможно использовать методы, описанные здесь для мониторинга систем ИИ для определенного опасного поведения, например, как обманывание пользователя — чтобы направить их к желательным результатам или полностью удалить определенные опасные темы».

Сегодняшнее объявление основывается на этом фонде, хотя Бэтсон предупреждает, что текущие методы все еще имеют значительные ограничения. Они захватывают лишь долю от общего количества вычислений, выполняемых этими моделями, и анализ результатов остается трудоемким.

«Даже в коротких, простых подсказках наш метод отражает лишь часть общего количества вычислений, выполняемых Клодом», — признают исследователи в своей последней работе.

Будущее прозрачности ИИ: проблемы и возможности в модельной интерпретации

Новые методы Anpropic возникают во время растущей заботы о прозрачности и безопасности искусственного интеллекта. По мере того, как эти модели становятся более мощными и более широко развернутыми, понимание их внутренних механизмов становится все более важным.

Исследование также имеет потенциальные коммерческие последствия. Поскольку предприятия все чаще полагаются на крупные языковые модели для применения в области питания, понимание того, когда и почему эти системы могут предоставить неправильную информацию, становится решающим для управления риском.

«Антропик хочет обеспечить безопасность моделей в широком смысле, включая все, от смягчения предвзятости до обеспечения того, чтобы ИИ действовал честно для предотвращения неправильного использования, в том числе в сценариях катастрофического риска», — пишут исследователи.

Хотя это исследование представляет собой значительный прогресс, Бэтсон подчеркнул, что это только начало гораздо более длительного путешествия. «Работа действительно только началась», — сказал он. «Понимание представлений, которые использует модель, не говорит нам, как она их использует».

На данный момент трассировка схемы Anpropic предлагает первую предварительную карту ранее неизведанной территории — так же, как ранние анатомисты, нарисовавшие первые грубые диаграммы человеческого мозга. Полный атлас познания ИИ еще предстоит провести, но теперь мы можем, по крайней мере, увидеть очертания того, как думают эти системы.

Источник

Ученые -антропные разоблачают, как ИИ на самом деле «думает» — и обнаруживает, что он тайно планирует заранее, а иногда и лжи

Новые методы освещают ранее скрытый процесс принятия решений ИИ

Скрытое планирование Клода: как AI застегивает поэтические линии и решает географические вопросы

Помимо перевода: раскрыта Universal Language Concept Concept Concept

Когда ИИ составляет ответы: обнаружение математических изготовлений Клода

Внутри галлюцинаций ИИ: как Клод решает, когда отвечать или отказывать на вопросы

Последствия для безопасности: использование трассировки схем для повышения надежности ИИ и достоверности

Будущее прозрачности ИИ: проблемы и возможности в модельной интерпретации

Как выглядит будущее без паролей?

Мифы о режиме инкогнито: как работает приватный режим браузера

Рекомендуем

Оставить комментарий Отменить ответ