Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
Уэллс Фарго тихо Обеспечил то, о чем мечтают большинство предприятий: создание крупномасштабной, готовой к производству генеративной системы ИИ, которая на самом деле работает. Только в 2024 году ассистент банка, основанный на AI, Фарго, справился с 245,4 миллионами Взаимодействие — более чем удвоение своих первоначальных прогнозов — и это делало это, даже не разоблачая конфиденциальные данные клиента на языковую модель.
Fargo помогает клиентам с повседневными банковскими потребностями с помощью голоса или текста, обработки запросов, таких как помощь в оплате счетов, передача средств, предоставление сведений о транзакции и ответа на вопросы о деятельности по учетной записи. Помощник оказался липким инструментом для пользователей, усредняя многочисленные взаимодействия на сеанс.
Система работает через конвейер конфиденциальности. Клиент взаимодействует через приложение, где речь транскрибируется локально с помощью модели речи к тексту. Этот текст затем очищается и токенизируется внутренними системами Wells Fargo, включая небольшую языковую модель (SLM) для обнаружения личной информации (PII). Только тогда — это звонок в модель Google Flash 2.0, чтобы извлечь намерения пользователя и соответствующие объекты. Никакие конфиденциальные данные никогда не достигают модели.
«Слои оркестровки разговаривает с моделью», — сказал Wells Fargo Cio Chintan Mehta в интервью VentureBeat. «Мы фильтры впереди и сзади».
Он объяснил, что единственное, что делает модель, — это определить намерение и сущность на основе фразы, которую представляет пользователь, например, определение того, что запрос включает в себя сберегательную учетную запись. «Все вычисления и декокирование, все на нашем конце», — сказал Мехта. «Наши API… никто из них не проходит через LLM. Все они просто сидят ортогональными».
Внутренняя статистика Уэллса Фарго показывает драматическую рампу: с 21,3 млн. Взаимодействий в 2023 году до более чем 245 миллионов в 2024 году, причем с момента запуска более 336 миллионов кумулятивных взаимодействий. Принятие испанского языка также увеличилось, что составило более 80% использования с момента его развертывания в сентябре 2023 года.
Эта архитектура отражает более широкий стратегический сдвиг. Мехта сказала, что подход банка основан на создании «сложных систем», где слои оркестровки определяют, какую модель использовать на основе задачи. Gemini Flash 2.0 Powers Fargo, но более мелкие модели, такие как Llama, используются в других местах внутри, и модели OpenaI могут быть нажаты по мере необходимости.
«Мы поли-модель и поли-клуб»,-сказал он, отметив, что, хотя банк сильно опирается на то, что в то время как банк в значительной степени опирается как на Google, так и на Microsoft для облачных сервисов, у банка также есть свои центры обработки данных.
Мехта говорит, что модель-агенцизм теперь необходим, когда дельта производительности между лучшими моделями крошечная. Он добавил, что некоторые модели все еще преуспевают в определенных областях — Claude Sonnet 3.7 и Operai’s O3 Mini High для кодирования, O3 Openai для глубоких исследований и т. Д. — но, по его мнению, более важный вопрос заключается в том, как они организованы в трубопроводы.
Размер окна контекста остается одной областью, где он видит значимое разделение. Mehta похвалила емкость Gemini 2.5 Pro 1m Token как четкое преимущество для таких задач, как поиск, дополненное поколение (RAG), где предварительные неструктурированные данные могут добавить задержку. «Близнецы абсолютно убили его, когда дело доходит до этого», — сказал он. По его словам, для многих вариантов использования накладные данные о предварительной обработке, прежде чем развернуть модель, часто перевешивает выгоду.
Дизайн Фарго показывает, как крупные контекстные модели могут обеспечить быструю, совместимую, большую автоматизацию-даже без вмешательства человека. И это резкий контраст с конкурентами. Например, в Citi глава аналитики Промити Датта заявила в прошлом году, что риски крупных языковых моделей (LLMS), обращенных внешними языками (LLM), все еще были слишком высокими. В разговоре, организованном VentureBeat, она описала систему, в которой агенты помощи не говорят напрямую с клиентами из -за опасений по поводу галлюцинаций и чувствительности к данным.
Wells Fargo решает эти проблемы с помощью своего дизайна оркестровки. Вместо того, чтобы полагаться на человека в цикле, он использует многоуровневые гарантии и внутреннюю логику, чтобы не допустить LLMS из любого чувствительного к данным пути.
Агентские движения и многоагентный дизайн
Уэллс Фарго также движется к более автономным системам. Мехта описала недавний проект по переписи 15 лет архивированных кредитных документов. Банк использовал сеть взаимодействующих агентов, некоторые из которых построены на рамках с открытым исходным кодом, таким как Langgraph. Каждый агент играл определенную роль в процессе, который включал в себя извлечение документов из архива, извлечение их содержимого, сопоставление данных с системами записи, а затем продолжение трубопровода для выполнения расчетов — все задачи, которые традиционно требуют человеческих аналитиков. Человек рассматривает окончательный результат, но большая часть работы работала автономно.
Банк также оценивает модели рассуждений для внутреннего использования, где Мехта сказала, что дифференциация все еще существует. В то время как большинство моделей теперь хорошо справляются с повседневными задачами, рассуждения остаются в случае с краем, когда некоторые модели явно делают это лучше, чем другие, и они делают это по -разному.
Почему задержка (и ценообразование) имеет значение
В Wayfair технический директор Фиона Тан сказала, что Gemini 2.5 Pro показал сильные перспективы, особенно в области скорости. «В некоторых случаях Gemini 2.5 вернулась быстрее, чем Клод или Openai», — сказала она, ссылаясь на недавние эксперименты ее команды.
Тан сказал, что более низкая задержка открывает дверь для приложений клиентов в реальном времени. В настоящее время Wayfair использует LLMS для в основном внутренних приложений, включая мерчендайзинг и планирование капитала, но более быстрый вывод может позволить им распространять LLM на продукты, ориентированные на клиента, такие как их инструмент для вопросов и ответов на страницах детализации продукта.
Тан также отметил улучшения в производительности кодирования Gemini. «Теперь это кажется довольно сравнимым с Клодом 3.7», — сказала она. Команда начала оценивать модель с помощью таких продуктов, как Cursor и Code Assist, где разработчики могут выбрать.
С тех пор Google выпустил агрессивные цены для Gemini 2,5 Pro: 1,24 долл. США за миллион входных токенов и 10 долл. США за токены. Тан сказал, что ценообразование, плюс гибкость SKU для рассуждений, делает Близнецов сильным вариантом в будущем.
Более широкий сигнал для Google Cloud в следующий
Истории Уэллса Фарго и Уэйфэра попадают в подходящий момент для Google, который проводит ежегодную конференцию Google Cloud Next на этой неделе в Лас -Вегасе. В то время как Openai и Anpropic доминировали в дискурсе AI в последние месяцы, развертывание предприятий может тихо вернуться к пользу Google.
На конференции Google, как ожидается, выделит волну агентских инициатив ИИ, включая новые возможности и инструменты, чтобы сделать автономные агенты более полезными в корпоративных рабочих процессах. Уже на прошлогоднем Cloud Next Event, генеральный директор Томас Куриан, прогнозируемые агенты, будут разработаны, чтобы помочь пользователям «достигать определенных целей» и «соединиться с другими агентами» для выполнения задач — темы, которые повторяют многие из принципов оркестровки и автономии.
Мехта Уэллса Фарго подчеркнула, что настоящим узким местом для принятия искусственного интеллекта не будет производительности модели или наличия графического процессора. «Я думаю, что это мощно. У меня нет сомнений в этом», — сказал он, о обещании генеративного ИИ вернуть ценность для предприятий. Но он предупредил, что цикл ажиотажа может быть впереди практической ценности. «Мы должны быть очень вдумчивы, чтобы не попасть в блестящие предметы».
Его большее беспокойство? Власть. «Ограничение не будет фишками», — сказала Мехта. «Это будет генерация электроэнергии и распространение. Это настоящее узкое место».
Источник
