A inteligência artificial generativa é capaz de gerar vídeos em alta resolução (1080p) a partir de pedidos feitos em texto
A criadora do ChatGPT, OpenAI, anunciou nesta quinta-feira (15) o lançamento de um modelo de inteligência artificial generativa capaz de gerar vídeos em alta resolução (1080p) de até um minuto a partir de pedidos feitos em texto.
A plataforma chamada de Sora cria, de acordo com a OpenAI, cenas complexas com múltiplos personagens e diferentes movimentos. Modelos da concorrência trabalham com durações entre quatro e dez segundos.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
A nova plataforma, por razões de segurança, ainda tem seu acesso restrito a avaliadores de riscos e a um número limitado de artistas visuais e produtores de vídeos. A empresa não divulgou projeção de lançamento
Para evitar uso nocivo de vídeos falsos conhecidos como deepfakes, já usados para influenciar eleições e aplicar golpes financeiros, a OpenAI afirma que pretende adicionar um selo criptografado aos materiais gerados por Sora.
Além disso, a empresa pretende replicar o filtro de abusos já ativo no ChatGPT na nova plataforma geradora de vídeos. A empresa ainda afirma que desenvolveu um segundo classificador de imagens que avaliará a segurança de cada imagem.
O modelo, entretanto, falha em manter a coerência de efeitos físicos, como direção da luz e do vento, e em reproduzir relações de causa e efeito. Instruções espaciais, de direita e esquerda, por exemplo, também recebem respostas erradas.
Em um caso, os pesquisadores responsáveis pelo desenvolvimento da nova IA generativa mostram um vídeo de um homem correndo em uma esteira ao contrário.
O modelo, entretanto, falha em manter a coerência de efeitos físicos, como direção da luz e do vento, e em reproduzir relações de causa e efeito. Instruções espaciais, de direita e esquerda, por exemplo, também recebem respostas erradas.
Em um caso, os pesquisadores responsáveis pelo desenvolvimento da nova IA generativa mostram um vídeo de um homem correndo em uma esteira ao contrário.
A Sora, segundo a OpenAI é um passo crucial para aumentar a compreensão de modelos de inteligência artificial sobre o planeta.
O objetivo máximo da OpenAI é construir um modelo de inteligência artificial geral, capaz de reproduzir todas as capacidades humanas. No fim do mês passado, o Google lançou um modelo de inteligência artificial gerador de vídeos chamado de Lumiére.
O material de apresentação mostra uma sequência de imagens surreais em qualidade surpreendente na comparação com aquelas geradas pelos outros modelos então disponíveis no mercado.
A IA do Google também ainda está sem data para chegar ao público. De acordo com o artigo publicado por engenheiros do Google, as imagens geradas pela nova tecnologia mantém coerência ao longo do tempo, diferente de outras plataformas disponíveis do mercado, como a Runway, já testada pela Folha, por até cinco segundos (80 quadros a uma frequência de 16 quadros por segundo).
No caso do Google, a estratégia foi treinar a rede neural a partir de um vetor temporal, além da composição e cores do quadro. Assim, o fator tempo entra na conta.
Fonte: Folhapress