Google anuncia modelo de geração de vídeos Veo e parceria com ator Donald Glover

No evento anual Google I/O, que decorre em Mountain View, Califórnia, a Google revelou os seus próximos avanços em IA.

Publicado a:

14 Maio 2024, 22:44

Um dos mais recentes projetos do estúdio Gilga, do ator e cantor Donald Glover (conhecido pelo nome de estúdio Childish Gambino), foi feito com a ajuda de um novo modelo de Inteligência Artificial generativa. Chama-se Veo e é a nova adição da Google ao seu crescente portfólio de modelos de geração de conteúdos, conseguindo gerar vídeos em alta resolução – 1080p – com mais de um minuto de duração. É uma das grandes novidades que acabam de ser anunciadas no evento anual da empresa na sua sede em Mountain View, Califórnia, com a presença do Dinheiro Vivo nas bancadas.

“Consegue capturar todos os detalhes das instruções dadas”, explicou em palco o investigador da Google DeepMind Doug Eck. Isso inclui instruções de linguagem cinemática como “time-lapse” ou imagens aéreas.

“Estamos a explorar funcionalidades como roteiros e cenas mais longas”, adiantou Eck, referindo que a geração de vídeo é “um desafio completamente diferente” da geração de imagens a partir de texto. A Google, disse, está a combinar o melhor de várias técnicas para melhorar a consistência, qualidade e resolução dos vídeos.

O Veo consegue compreender melhor o que está no vídeo e simular a física do nosso mundo. “Esta aprendizagem irá alimentar avanços na nossa pesquisa IA e permitir-nos desenvolver produtos ainda mais úteis que ajudam as pessoas a interagir e comunicar de novas formas”, adiantou a Google, numa explicação mais detalhada da novidade que será partilhada no seu blogue.

A empresa vai começar por disponibilizar o Veo a um grupo de criadores através do VideoFX e haverá uma lista de espera. No futuro, algumas das funcionalidades do Veo estarão disponíveis no YouTube Shorts e outros produtos.

Outra novidade anunciada hoje foi a introdução do Imagen 3, a nova iteração do modelo de geração de imagem a partir de texto. “É o nosso modelo de geração de imagens mais capaz até agora”, garantiu Doug Eck. “Apresenta detalhes mais ricos e menos artefactos visuais que distorcem as imagens.” A empresa prometeu “um nível incrível de detalhes” e “imagens fotorrealistas”, que estará disponível em breve aos clientes do Vertex AI.

O evento anual para programadores foi, como era de esperar, focado na Inteligência Artificial e nos esforços que a Google tem feito para saltar para a linha da frente, em competição com a Microsoft, OpenAI, Meta e outras grandes empresas que querem dominar aquela que será a grande plataforma tecnológica do futuro.

Mais Gemini e Project Astra

O CEO Sundar Pichai quis deixar bem claro que a Google não é uma seguidora na IA e que está a investir nestas tecnologias há mais de uma década.

“Vemos tantas oportunidades à nossa frente”, afirmou o executivo. “A era Gemini vai ajudar a impulsionar essas oportunidades”.

A família de modelos Gemini, que em dezembro recebeu três “tamanhos” (Ultra, Pro e Nano) é atualizada a partir de hoje, com a chegada do 1.5 Flash – um modelo leve que promete mais rapidez e eficiência. Segundo Demis Hassabis, cofundador da DeepMind, trata-se de um modelo que foi “otimizado para as tarefas em que a baixa latência e a eficiência são mais importantes.” A novidade foi motivada pelo feedback dos utilizadores, indicou, para tarefas de elevado volume e frequência, mais eficiente em temos de custos e com uma janela de contexto mais alargada.

Hassabis também levantou o véu sobre o Project Astra, que descreveu como a sua visão para o futuro da interação com assistentes IA.

“Queremos construir um agente IA universal que é útil no quotidiano”, disse o executivo, notando que a Google está a trabalhar nisto há algum tempo e que conseguiu desenvolver agentes que processam a informação mais rapidamente, algo critico para uma interação natural humano-máquina.

No vídeo de demonstração, o assistente IA conseguiu fazer coisas notáveis como recordar onde a utilizadora tinha deixado os seus óculos e reconhecer o bairro onde se localiza o escritório apenas com um vislumbre numa janela.

“É incrível ver até onde a IA já chegou”, salientou Hassabis, que recordou como foi um dos fundadores da DeepMind em 2010 com o objetivo de desenvolver a AGI - Inteligência Artificial Geral, algo que entusiasma uns e assusta outros. Hassabis salientou que se isto for feito de forma responsável, irá beneficiar a Humanidade em múltiplas áreas.

Pesquisa em esteróides

Uma das áreas em que a Google está mais empenhada em mostrar os avanços em IA é no seu motor de busca. Liz Reid, que lidera esta área na empresa, passou pelo palco para apresentar a próxima fronteira: “a Google vai fazer a pesquisa por si.”

A integração de Gemini na Pesquisa permitirá “expandir de forma dramática o que é possível com o Google Search”, garantiu a executiva.

Reid demonstrou como será possível reduzir a segundos pesquisas que podiam durar vários minutos ou até horas, graças à introdução do raciocínio em várias etapas e o AI Overviews, ou Resumos de IA na versão portuguesa.“Isto é a Pesquisa na era Gemini”, disse Reid no palco em Mountain View.

Será possível planear coisas como viagens com apenas algumas instruções, e isto será expandido a outras áreas – desde filmes e concertos a hotéis, compras e mais. “O Google faz o trabalho por si.”

E no futuro? Será possível pesquisar usando um vídeo. Rose Yao demonstrou como ao usar o seu smartphone Pixel para filmar um gira-discos que tinha a agulha estragada. “Porque é que isto não funciona?”, perguntou Yao num vídeo. A resposta, em nanossegundos, mostrou que o sistema percebeu a questão do vídeo e devolveu uma lista de possíveis problemas e as suas soluções.

“A pesquisa com Gemini vai levar-nos para uma era totalmente diferente”, prometeu Sundar Pichai. “Esta é a nossa era de pesquisa mais entusiasmante de sempre.”

Tecnologia

Google

Google anuncia modelo de geração de vídeos Veo e parceria com ator Donald Glover

Artigos Relacionados