Google I/O 2024: 9 главных анонсов конференции, включая Gemini, Поиск и Project Astra

Google проводит насыщенный год с точки зрения искусственного интеллекта (ИИ). Компания уже переименовала свой ИИ-чатбот из Bard в Gemini и выпустла несколько новых моделей ИИ. На ежегодной конференции разработчиков Google I/O 2024 компания сделала несколько дополнительных объявлений о ИИ и о том, как он будет интегрирован в различные приложения и сервисы компании.

Как и ожидалось, ИИ был в центре внимания на Google I/O 2024, технология была внедрена практически во все продукты Google, от Поиска, который оставался почти неизменным на протяжении десятилетий, до Android 15 и, конечно же, Gemini. Мы собрали обзор всех основных объявлений, сделанных на мероприятии.

Gemini

Компания Google представила новую большую языковую модель (LLM) — Gemini 1.5 Flash. Привлекательность этой модели заключается в том, что она является самой быстрой моделью Gemini, доступной через API, и более экономичной альтернативой Gemini 1.5 Pro, при этом сохранилась высокая эффективность. Gemini 1.5 Flash доступна в открытом предварительном просмотре в Google AI Studio и Vertex AI с 14 мая.

Как использовать Gemini 1.5 Pro бесплатно на сайте Google AI Studio

Хотя Gemini 1.5 Pro была запущена только в феврале, она была улучшена для обеспечения более качественных ответов во многих областях, включая перевод, рассуждение, программирование и многое другое. Google сообщает, что последняя версия показала существенные улучшения по нескольким бенчмаркам, включая MMMU, MathVista, ChartQA, DocVQA, InfographicVQA и другие.

Модель Gemini 1.5 Pro с контекстным окном в 1 миллион знаков будет доступна для потребителей в рамках Gemini Advanced. Это значимый параметр, так как позволит потребителям получать помощь ИИ по крупным объемам работы, например, по PDF-файлам, содержащим 1500 страниц.

Google представляет предварительный просмотр окна в два миллиона контекстов в Gemini 1.5 Pro и Gemini 1.5 Flash для разработчиков через список ожидания в Google AI Studio.

Gemini Nano, еще одна модель Google, разработанная для работы на смартфонах, была расширена за счет добавления изображений к тексту. Google сообщает, что начиная с Pixel, приложения, использующие Gemini Nano с мультимодальностью, смогут понимать взгляд, звук и устную речь.

Gemini Gemma, также получает значительное обновление с запуском Gemma 2 в июне. Следующее поколение Gemma было оптимизировано для TPU и GPU и запускается с 27 миллиардами параметров.

Наконец, PaliGemma, первая визуально-языковая модель Google, также добавляется в семейство моделей Gemma.

Поиск Google

Если вы включили использование генеративного ИИ в Поиске (SGE) через Search Labs, то уже знакомы с функцией ИИ-обзора (AI overview), которая показывает выводы ИИ в верхней части результатов поиска, чтобы предоставлять пользователям разговорные, сжатые ответы на их поисковые запросы.

Теперь использование этой функции не будет ограничено Search Labs, поскольку она становится доступной для всех пользователей в США с 14 мая. Функция стала возможной благодаря новой модели Gemini, адаптированной для Google Поиска.

По словам Google, с тех пор как ИИ-обзоры стали доступны через Search Labs, функция была использована миллиарды раз, что привело к тому, что люди стали чаще пользоваться Поиском и остались более удовлетворены своими результатами. Внедрение в Google Поиск предназначено для обеспечения положительного опыта для пользователей и должно появляться только тогда, когда это может улучшить результаты поиска.

Еще одно значительное изменение Поиска — это обновленная страница результатов, которая использует ИИ для создания уникальных заголовков, лучше соответствующих потребностям пользователя в поиске. Организованный ИИ поиск начнет внедряться для запросов на английском языке в США, связанных с вдохновением, начиная от ресторанов и рецептов и заканчивая кино, музыкой, книгами, отелями, покупками и многим другим.

Google также внедряет новые функции Поиска, которые сначала будут запущены в Search Labs. Например, в Search Labs пользователи скоро смогут настроить свой ИИ-обзор, чтобы он лучше соответствовал их предпочтениям, с возможностями дальнейшего детализирования информации или упрощения языка.

Пользователи смогут использовать видео для поиска, поднимая визуальный поиск на новый уровень. Эта функция скоро станет доступна в Search Labs на английском языке. Наконец, уже с 14 мая Поиск может планировать приемы пищи и поездки вместе с вами в Search Labs ( пока доступно на английском языке в США).

Veo (генератор текста в видео)

Google не является новичком в моделях ИИ для преобразования текста в видео, в январе компания опубликовала статью о своей модели Lumiere. Теперь компания представляет свою наиболее продвинутую модель на сегодняшний день, Veo, которая может генерировать видео высокого качества с разрешением 1080p и продолжительностью более минуты.

Сообщается, что модель лучше понимает естественный язык и создает видео, которое более точно отражает видение пользователя. Она также понимает кинематографические термины, такие как «таймлапс», для создания видео в различных стилях и предоставления пользователям большего контроля над конечным продуктом.

Согласно Google, модель базируется на многолетней работе по созданию генеративного видео, включая Lumiere и другие известные модели, такие как Imagen-Video, VideoPoet и др. Модель пока не доступна всем пользователям, но уже тестируется среди избранных создателей контента в рамках частного предварительного просмотра в VideoFX. Все желающие могут записаться в лист ожидания.

Этот генератор видео является ответом Google на модель преобразования текста в изображение от Open AI, под названием Sora, которая также пока не доступна широкой публике и находится в частном предварительном просмотре для отдельных команд и избранного числа творческих личностей.

Imagen 3 (генератор текста в изображения)

Google представил свою новейшую модель генератора текста в изображения — Imagen 3. По словам Google, эта модель производит изображения наивысшего качества, с большим количеством деталей и меньшим количеством артефактов, что способствует созданию более реалистичных изображений.

Как и Veo, Imagen 3 получила улучшенные возможности понимания естественного языка, чтобы точнее понимать пользовательские запросы и намерения за ними. Эта модель может справиться с одной из наиболее значительных проблем генераторов изображений ИИ — текстом, при этом Google утверждает, что Imagen 3 лучше всех справляется с его отображением.

Imagen 3 пока не доступен широкой публике, доступ к модели осуществляется в рамках частного предварительного просмотра в Image FX для избранных креаторов. Модель скоро будет доступна в Vertex AI, и все желающие могут записаться в лист ожидания.

Обновления SynthID

В эпоху генеративного ИИ компании концентрируются на мультимодальности моделей ИИ. Чтобы соответствующим образом адаптировать свои инструменты маркировки ИИ, Google теперь расширяет свою технологию SynthID, которая ставит водяные знаки на изображения, созданные ИИ, добавляя две новые модальности — текст и видео. Кроме того, новая модель перевода текста и видео Google, Veo, будет включать водяные знаки SynthID на всех видео, созданных платформой.

Спросить у Фото

Если вы когда-либо тратили кучу времени прокручивая ленту в поисках нужной вам фотографии, Google представила решение вашей проблемы на базе ИИ. Используя Gemini, пользователи могут использовать разговорные запросы в Google Фото, чтобы найти нужное изображение.

В примере, приведенном Google, пользователь хочет увидеть прогресс своей дочери, которая занимается плаванием, с течением времени, поэтому он задает этот вопрос в Google Фото, и сервис автоматически собирает для него лучшие моменты. Эта функция называется Спросить у Фото, и Google сообщает, что начнет ее внедрение позже этим летом.

Обновления Gemini Advanced (включая Gemini Live)

В феврале 2024 года Google запустил премиум-подписку на свой чат-бот, Gemini Advanced, которая предоставляла пользователям дополнительные привилегии, такие как доступ к последним моделям ИИ от Google и возможность вести более длительные разговоры. Теперь Google еще больше расширяет предложения для своих подписчиков.

Первое изменение — доступ к Gemini 1.5 Pro, который предоставляет пользователям доступ к значительно большему контекстному окну в один миллион токенов, что, по словам Google, является самым большим окном среди всех широко доступных потребительских чат-ботов на рынке. Такое контекстное окно можно использовать для загрузки более объемных материалов, таких как документы до 1500 страниц или 100 электронных писем. Скоро он сможет обрабатывать час видео и кодовые базы до 30 000 строк.

Одной из самых впечатляющих функций всего запуска является Gemini Live от Google, новый мобильный опыт, в котором пользователи могут вести полноценные разговоры с Gemini, выбирая из различных естественно звучащих голосов и прерывая его посреди разговора.

Уже в этом году пользователи также смогут использовать свою камеру вместе с Gemini Live, давая Gemini контекст для этих разговоров. Gemini использует возможности понимания видео из Project Astra от Google DeepMind, который призван изменить будущее помощников ИИ. Например, на демонстрации Astra пользователь указал на окно и спросил у Gemini, в каком районе они, вероятно, находятся, основываясь на увиденном.

Gemini Live по сути является ответом Google на новый режим Voice Mode в ChatGPT от OpenAI, который компания анонсировала на своем мероприятии Spring Updates накануне. С помощью Voice Mode пользователи также могут вести полноценные разговоры с ChatGPT, прерывая его посередине предложения, изменяя тон чат-бота и используя камеру пользователя как контекст.

Беря пример с OpenAI, Google вводит Gems для Gemini, которые достигают той же цели, что и кастомные чат-боты GPTs у ChatGPT. С помощью Gems пользователи могут создавать индивидуальные версии Gemini для различных целей. Все, что нужно пользователю, — это сообщить инструкции о том, какую задачу он хочет, чтобы чат-бот выполнил, и Gemini создаст Gem, который подходит для этой цели.

В ближайшие месяцы Gemini Advanced получит новый опыт планирования, который поможет пользователям получать детализированные планы, учитывающие их собственные предпочтения, выходя за рамки простого создания маршрута.

Например, Gemini Advanced сможет создать маршрут, соответствующий многоэтапному запросу: «Мы с семьей едем в Майами на майские праздники. Моему сыну нравится искусство, а мужу очень хочется свежих морепродуктов. Можешь извлечь информацию о моем рейсе и отеле из Gmail и помочь мне спланировать выходные?»

Наконец, скоро пользователи смогут подключать к Gemini больше расширений, включая Google Календарь, Google Задачи и Keep, что позволит Gemini выполнять задачи в каждом из этих приложений, например, сделать фотографию рецепта и добавить его в ваш Google Keep в виде списка покупок.

ИИ-улучшения на Android

Несколько ИИ-улучшений касаются мобильной платформы Google. Функция поиска по выделению «Circle to Search», которая позволяет пользователям выполнять поиск в Google, обводя изображения, видео и текст на экране своего телефона, теперь может «помогать студентам с домашним заданием» (он помогает решать обведенные уравнения и математические задачи). Google заявляет, что функция будет работать с темами от математики до физики и в конечном итоге сможет обрабатывать сложные задачи, такие как символьные формулы, диаграммы и многое другое.

Gemini также заменит Google Ассистент, став стандартным ИИ-помощником на Android-телефонах и доступным при долгом нажатии на кнопку питания. В конечном итоге Gemini будет интегрирован в различные сервисы и приложения, обеспечивая мультимодальную поддержку по запросу. Мультимодальные возможности Gemini Nano также будут использоваться через функцию Android TalkBack, предоставляя более подробные ответы пользователям с нарушениями зрения или слабовидящим.

Наконец, если вы случайно примете спам-звонок, Gemini Nano может прослушать его и обнаружить подозрительные модели разговора, после чего уведомит вас о необходимости либо «Отклонить и продолжить», либо «Завершить звонок». Функция будет доступна для подключения уже в 2024 году.

Обновления Gemini для Google Workspace

Google Workspace также получает свое ИИ-обновление. Во-первых, боковая панель Gemini в Gmail, Docs, Drive, Slides и Sheets будет обновлена до версии Gemini 1.5 Pro.

Это важное изменение, потому что Gemini 1.5 Pro предоставляет пользователям более широкий контекст и более продвинутое рассуждение, что теперь можно использовать в боковой панели самых популярных приложений Google Workspace.

Теперь этот опыт доступен для пользователей Workspace Labs и Gemini для Workspace Alpha. Пользователи дополнения Gemini для Workspace и пользователи Google One AI Premium Plan на ПК получат обновление в следующем месяце.

Gmail для мобильных устройств получит три новые полезные функции: краткое изложение, Q&A Gmail и «Контекстный умный ответ» (Contextual Smart Reply). Функция краткого изложения делает резюме электронной переписки, используя Gemini. Она станет доступной пользователям с мая.

Функция Q&A Gmail позволяет пользователям общаться с Gemini о контексте их электронных писем в мобильном приложении Gmail. Например, в демонстрации пользователь попросил Gemini сравнить предложения по ремонту крыши по цене и доступности. Затем Gemini извлекла информацию из нескольких почтовых ящиков и отобразила пользователю сводку сравнения.

«Контекстный умный ответ» — это более умная функция автоответа, которая составляет ответ, используя контексты электронной переписки и чата Gemini. Обе функции, Q&A Gmail и Contextual Smart Reply, будут внедрены для пользователей Labs в июле.

Наконец, функция помощника написания (Help Me Write) в Gmail и Docs получит поддержку испанского и португальского языков, которая появится на настольных компьютерах в ближайшие недели.

Когда проводится Google I/O?

Ежегодная конференция разработчиков от Google проходит 14 и 15 мая в амфитеатре компании в Маунтин-Вью, Калифорния.

Как посмотреть Google I/O

Google транслирует мероприятие на своем главном веб-сайте и YouTube. Вы можете бесплатно зарегистрироваться на мероприятие на целевой странице Google I/O, чтобы воспользоваться такими возможностями, как получение обновлений по электронной почте и просмотр сеансов по запросу.

Обновления программ, что нового

• Deezer: более половины суточных загрузок музыки сгенерировано ИИ
• В бета-версии iOS 27 нашли упоминания iPhone с двумя аккумуляторами
• Redmi Kids Watch Pro: Xiaomi выпустила детские часы с двумя камерами
• Релиз VirtualBox 7.2.14: поддержка ядра Linux 7.2, исправление буфера обмена в Windows и ошибки Secure Boot DBX в Windows 11
• OnePlus заменит OxygenOS на ColorOS 17: список устройств
• NVIDIA GeForce Game Ready 610.82 Hotfix для Windows 11 и Windows 10

Автор: Comss.one По материалам ZDNet