Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше
Patronus AI объявил сегодня о запуске того, что он называет первой в отрасли мультимодальной крупной языковой модели как сустава (MLLM-AS-A-a-Judge), инструмента, предназначенного для оценки систем ИИ, которые интерпретируют изображения и создают текст.
Новая технология оценки направлена на то, чтобы помочь разработчикам обнаружить и смягчить галлюцинации и надежность в мультимодальных приложениях искусственного интеллекта. Гигант электронной коммерции Etsy уже внедрил технологию для проверки точности заголовка для изображений продуктов на рынке ручной работы и винтажных товаров.
«Супер взволнован, чтобы объявить, что Etsy является одним из наших судовых клиентов», — сказал Ананд Каннаппан, соучредитель Patronus AI, в эксклюзивном интервью VentureBeat. «У них есть сотни миллионов предметов на своем онлайн-рынке для ручной работы и винтажных продуктов, которые люди создают во всем мире. Одной из вещей, которую их команда искусственного интеллекта хотела иметь возможность использовать генеративное ИИ, была способность автоматически генерировать изображения и убедиться, что, поскольку они масштабируются по всей своей глобальной пользовательской базе, которые создаются подготовившись, что устроенные правильные».
Почему Google Близнецы способствуют новому судье ИИ, а не Openai
Patronus построил свой первый MLLM-AS-a-Judge, называемый Dude-Image, на модели Google Gemini после обширных исследований, сравнивающих его с такими альтернативами, как GPT-4V Openai.
«Мы, как правило, видели, что существует более слабые предпочтения в отношении эгоцентричности с GPT-4V, тогда как мы видели, что Близнецы были менее предвзятыми в этих способах и имели больший справедливый подход к возможности судить различные виды пар входного выпуска»,-объяснил Каннаппан. «Это было замечено в едином распределении по оценке по разным источникам, на которые они смотрели».
Исследование компании дало еще одно удивительное понимание мультимодальной оценки. В отличие от текстовых оценок, где многоэтапные рассуждения часто повышают производительность, Каннапп отметил, что «обычно не увеличивает производительность судьи MLLM» для оценки на основе изображений.
Судья-Image предоставляет оценщикам готовых к использованию, которые оценивают подписи изображений по нескольким критериям, включая обнаружение галлюцинации заголовка, распознавание первичных и неприемных объектов, точность местоположения объекта, а также обнаружение и анализ текста.
Помимо розничной торговли: как маркетинговые команды и юридические фирмы могут извлечь выгоду из оценки изображений искусственного интеллекта
В то время как Etsy представляет флагманского клиента в электронной коммерции, Patronus видит заявки, выходящие далеко за рамки розничной торговли.
К ним относятся «маркетинговые команды в разных компаниях, которые обычно стремятся масштабильно создавать описания и подписи против новых блоков в дизайне, особенно дизайна маркетинга, а также дизайна продукта», — сказал Каннаппан.
Он также выделил заявки на предприятия, занимающиеся обработкой документов: «Крупные предприятия, такие как компании венчурных услуг и юридические фирмы, обычно могут иметь инженерные команды, которые используют относительно унаследованные технологии, чтобы извлечь различные виды информации из PDF -файлов, чтобы быть в состоянии суммировать контент внутри более крупных документов».
Почему компании должны покупать инструменты оценки искусственного интеллекта вместо создания своих собственных
По мере того, как ИИ становится все более важным для бизнес-процессов, многие компании сталкиваются с дилеммой сборки и покупки для инструментов оценки. Каннапп утверждает, что аутсорсинг оценки ИИ имеет стратегический и экономический смысл.
«Поскольку мы работали с командами, (мы обнаружили, что) многие люди могут начать с чего -то, чтобы посмотреть, смогут ли они что -то развить что -то внутри, а затем понимают, что это, один, а не основной для их ценной опоры или продукта, который они разрабатывают. И во -вторых, это очень сложная проблема, как с точки зрения ИИ, но и с точки зрения инфраструктуры», — сказал он.
Это особенно относится к мультимодальным системам, где сбои могут происходить в нескольких точках процесса. «Когда вы имеете дело с тряпичными системами или агентами или даже мультимодальными системами ИИ, мы видим, что сбои происходят во всех частях системы», — отметил Каннапп.
Как Patronus планирует заработать деньги, конкурируя с техническими гигантами
Patronus предлагает несколько уровней ценообразования, начиная с бесплатной опции, которая позволяет пользователям экспериментировать с платформой до определенных громкости. Помимо этого порога, клиенты платят по мере использования оценщика или могут взаимодействовать с командой продаж для предприятий с индивидуальными функциями и индивидуальными ценами.
Несмотря на использование модели Gemini Google в качестве своей основы, компания позиционирует себя как дополнительную, а не конкурентоспособную с такими поставщиками моделей фундамента, как Google, Openai и Anpropic.
«Мы не обязательно рассматриваем технологию, которую мы создаем, или решения, которые мы создаем как конкурентоспособные для основополагающих компаний, а скорее очень взаимодополняющие и дополнительные новые мощные инструменты в инструментарии, которые в конечном итоге помогают людям разработать более высокие системы LLM, в отличие от самих LLM», — сказал Каннаппан.
Оценка аудио, которая будет следующей, когда Patronus расширяет мультимодальный надзор
Сегодняшнее объявление представляет собой один шаг в более широкой стратегии Patronus для оценки ИИ в разных методах. Компания планирует в ближайшее время расширяться за пределы изображений в оценку аудио.
«Мы взволнованы, потому что это следующий этап нашего видения в отношении мультимодала, и в частности, сегодня сосредоточен на изображениях — а затем со временем мы рады тем, что сделаем, особенно с аудио в будущем», — подтвердил Каннапп.
Эта дорожная карта согласуется с тем, что Каннаппан описывает как «исследовательское видение в направлении масштабируемого надзора» — разрабатывая механизмы оценки, которые могут идти в ногу со все более сложными системами ИИ.
«Мы продолжаем разрабатывать новые системы, продукты, рамки, методы, которые в конечном итоге в равной степени способны, как интеллектуальные системы, которые мы намерены, чтобы в долгосрочной перспективе захотеть надзор за людьми как людей», — сказал он.
По мере того, как предприятия участвуют в развертывании систем ИИ, которые могут интерпретировать изображения, извлекать текст из документов и генерировать визуальный контент, рост риск неточностей, галлюцинаций и предубеждений. Патронус делает ставку на то, что даже по мере того, как модели фундамента улучшаются, проблемы оценки сложных мультимодальных систем ИИ останутся, что требует специализированных инструментов, которые могут служить беспристрастными судьями для все более похожей на человеку вывода искусственного интеллекта. В мире коммерческого развертывания ИИ с высокими ставками эти цифровые судьи могут оказаться столь же ценными, как и модели, которые они оценивают.
Источник
