Google Gemini 2.5 Pro — самая умная модель, которую вы не используете, — и 4 причины, по которой это важны для Enterprise AI

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Выпуск Gemini 2.5 Pro во вторник не доминировал в цикле новостей. Он приземлился на той же неделе, когда обновление генерации изображений Openai осветила социальные сети с помощью Studio-Gubly-вдохновленных аватарами и мгновенными рендерами. Тем не менее, в то время как гул отправился в Openai, Google, возможно, тихо сбросил самую готовую к предприятиям модель рассуждения на сегодняшний день.

Gemini 2.5 Pro отмечает значительный скачок вперед для Google в основополагающей модельной гонке — не только в критериях, но и в удобстве использования. Основываясь на ранних экспериментах, эталонных данных и практических реакциях разработчиков, это модель, которая стоит серьезное внимание со стороны лиц, принимающих предприятия, особенно тех, кто исторически дефолт на Openai или Claude для рассуждений по производству.

Вот четыре основных вывода для предприятий, оценивающих Gemini 2.5 Pro.

1. Прозрачные, структурированные рассуждения-новый бар для ясности цепочки мыслей

То, что отличает Gemini 2.5 Pro, не только его интеллект — это то, как ясно, что этот интеллект показывает свою работу. Пошаговый подход Google к обучению приводит к структурированной цепочке мышления (COT), которая не похожа на бродягу или догадки, как то, что мы видели из таких моделей, как DeepSeek. Эти детские кроватки не усекаются на мелкие резюме, такие как модели Openai. Новая модель Близнецов представляет идеи в пронумерованных шагах, с суб-галлетами и внутренней логикой, которые удивительно согласованны и прозрачны.

С практической точки зрения, это прорыв для доверия и управляемости. Пользователи предприятия, оценивающие вывод для критических задач — например, просмотр последствий политики, логика кодирования или суммирование сложных исследований — теперь могут увидеть, как модель достигла ответа. Это означает, что они могут проверять, исправить или перенаправить его более уверенно. Это важная эволюция из «черного ящика», которое все еще мучает многие крупные языковые модели (LLMS).

Для более глубокого прохождения того, как это работает в действии, посмотрите на разбивку видео, где мы тестируем Gemini 2.5 Pro Live. В одном примере, который мы обсуждаем: когда спросили об ограничениях крупных языковых моделей, Gemini 2.5 Pro показал замечательное осознание. Он читал общие слабости и классифицировал их в таких областях, как «физическая интуиция», «Синтез новой концепции», «Планирование на дальние расстояния» и «этические нюансы», обеспечивая структуру, которая помогает пользователям понять, что знает модель, и как она приближается к проблеме.

Технические команды предприятия могут использовать эту возможность:

  • Отладка сложных цепочек рассуждений в критических приложениях
  • Лучше понять ограничения модели в конкретных областях
  • Предоставьте более прозрачное принятие решений заинтересованными сторонами заинтересованным сторонам
  • Улучшить их собственное критическое мышление, изучив подход модели

Одно ограничение, которое стоит отметить, заключается в том, что, хотя эти структурированные рассуждения доступны в приложении Gemini и Google AI Studio, оно еще не доступно через API — недостаток для разработчиков, стремящихся интегрировать эту возможность в корпоративные приложения.

2. Настоящий претендент на современный-не только на бумаге

В настоящее время модель находится на вершине лидеров лидеров чатбота с заметным отрывом-на 35 очков ELO впереди следующей лучшей модели, которая, в частности, является обновлением OpenAI 4O, которое упало на следующий день после того, как Gemini 2.5 Pro упал. И хотя контрольное превосходство часто является мимолетной короной (по мере того, как новые модели падают еженедельно), Gemini 2.5 Pro чувствует себя действительно иначе.

Верхняя часть лидеров LM Arena, как публикация.

Он превосходит задачи, которые вознаграждают глубокие рассуждения: кодирование, нюансированное решение проблем, синтез в документах и ​​даже абстрактное планирование. Во внутреннем тестировании он особенно хорошо выполняется на ранее трудных критериях, таких как «Последний экзамен человечества», фаворит для обнаружения слабых мест LLM в абстрактных и нюансированных областях. (Вы можете увидеть объявление Google здесь, наряду со всей контрольной информацией.)

Команды предприятия могут не заботиться о том, какая модель выигрывает, какая таблица академических лидеров. Но им все равно, что это может подумать — и показать вам, как это думает. Тест на атмосферу имеет значение, и на этот момент настала очередь Google почувствовать, что они прошли его.

Как отметил уважаемый инженер ИИ Натан Ламберт, «Google снова имеет лучшие модели, так как они должны были начать весь этот цветущий AI. Стратегическая ошибка была исправлена». Пользователи предприятия должны просматривать это не только как Google догоняет конкурентов, но и потенциально сбежать их в возможности, которые имеют значение для бизнес -приложений.

3. Наконец, игра Google в кодировании сильна

Исторически, Google отставал от Openai и Anpropic в области помощи в кодировании, ориентированной на разработчиков. Gemini 2.5 Pro меняет это — в большом пути.

В практических тестах он показал сильную одноразовую способность к задачам кодирования, включая создание рабочей игры Tetris, которая работала на Первая попытка при экспорте в «Поместитель» — не нужна отладка. Еще более примечательно, что он рассуждал через структуру кода с ясностью, задумчиво маркировки и шаги и выложить свой подход перед написанием одной строки кода.

Модель соперничает сонет Anpropic Claude 3.7, который считался лидером в области генерации кода, и главной причиной успеха антропного в предприятии. Но Gemini 2.5 предлагает критическое преимущество: массовое контекстное окно токена на 1 миллион. Claude 3.7 Sonnet только сейчас доходит до 500 000 жетонов.

Это масштабное контекстное окно открывает новые возможности для рассуждения во всех кодовых базах, чтения документации внедряет и работает в нескольких взаимозависимых файлах. Опыт разработчика программного обеспечения Саймона Уиллисона иллюстрирует это преимущество. При использовании Gemini 2.5 Pro для реализации новой функции в своей кодовой базе модель определила необходимые изменения в 18 различных файлах и завершила весь проект примерно за 45 минут, в среднем меньше трех минут на измененный файл. Это серьезный инструмент для предприятий, экспериментирующих с агентскими рамками или средами разработки, а также A-A-A-Actist.

4. Мультимодальная интеграция с агентом, подобным поведению

В то время как некоторые модели, такие как последнее 4O Openai, могут показывать больше ослепления с ярким поколением изображений, Gemini 2.5 Pro чувствует, что он тихо переосмысливает, как выглядит заземленное мультимодальное мышление.

В одном примере практическое тестирование Бена Диксона для VentureBeat продемонстрировало способность модели извлекать ключевую информацию из технической статьи об алгоритмах поиска и создавать соответствующую блок-схему SVG, а затем улучшит эту блок-схему, когда отображается версия с визуальными ошибками. Этот уровень мультимодальных рассуждений позволяет новые рабочие процессы, которые ранее не были возможны с моделями только для текста.

В другом примере разработчик Сэм Виттевин загрузил простой скриншот карты Лас -Вегаса и спросил, какие события Google происходят поблизости 9 апреля (см. Минут 16:35 этого видео). Модель определила местоположение, выступила с намерениями пользователя, поиск в Интернете (с включенным заземлением) и вернула точные подробности о Google Cloud, включая даты, местоположение и цитаты. Все это было сделано без индивидуальной фреймворки, только основной модели и интегрированного поиска.

Модель на самом деле приводит к причине из -за этого мультимодального ввода помимо того, что он просто смотрит на него. Он намекает на то, как может выглядеть рабочие процессы Enterprise через шесть месяцев: загрузка документов, диаграмм и информационных панелей, а также модель делает значимый синтез, планирование или действие на основе содержания.

Бонус: это просто … полезно

Несмотря на то, что он не отдельный вынос, стоит отметить: это первый выпуск Близнецов, который вытащил Google из LLM «задону» для многих из нас. Предыдущие версии никогда не вступали в ежедневное использование, так как такие модели, как Openai или Claude, устанавливают повестку дня. Gemini 2.5 Pro чувствует себя по -другому. Качество рассуждений, утилита с длинным контекстом и практические штрихи UX-например, Export Export и Export и студийный доступ-делают ее моделью, которую трудно игнорировать.

Тем не менее, это первые дни. Модель еще не в Google Cloud Vertex Ai, хотя Google сказал, что скоро будет. Некоторые вопросы задержки остаются, особенно с более глубоким процессом рассуждений (с таким большим количеством токенов мысли, что это значит для первого токена?), И цены не были раскрыты.

Еще одно предостережение от моих наблюдений о его способности письма: Openai и Claude по -прежнему чувствуют, что у них есть преимущество в создании красиво читаемой прозы. Близнецы. 2.5 чувствует себя очень структурированным, и ему не хватает разговорной гладкости, которую предлагают другие. Я заметил, что OpenAI, в частности, в последнее время сосредоточился на этом.

Тем не менее, для предприятий, балансирующих производительность, прозрачность и масштаб, Gemini 2.5 Pro, возможно, только что сделал Google серьезным соперником.

Как сказал мне вчера Zoom CTO Xuedong Huang, Google остается твердо в миксе, касающихся LLMS в производстве. Gemini 2.5 Pro только что дал нам повод полагать, что завтра это может быть более верным, чем вчера.

Посмотрите полное видео о последствиях предприятия здесь:



Источник

Рекомендуем

Оставить комментарий