A inteligência artificial generativa é capaz de gerar vídeos em alta resolução (1080p) a partir de pedidos feitos em texto

A criadora do ChatGPT, OpenAI, anunciou nesta quinta-feira (15) o lançamento de um modelo de inteligência artificial generativa capaz de gerar vídeos em alta resolução (1080p) de até um minuto a partir de pedidos feitos em texto.

A plataforma chamada de Sora cria, de acordo com a OpenAI, cenas complexas com múltiplos personagens e diferentes movimentos. Modelos da concorrência trabalham com durações entre quatro e dez segundos.

A nova plataforma, por razões de segurança, ainda tem seu acesso restrito a avaliadores de riscos e a um número limitado de artistas visuais e produtores de vídeos. A empresa não divulgou projeção de lançamento

Para evitar uso nocivo de vídeos falsos conhecidos como deepfakes, já usados para influenciar eleições e aplicar golpes financeiros, a OpenAI afirma que pretende adicionar um selo criptografado aos materiais gerados por Sora.

Além disso, a empresa pretende replicar o filtro de abusos já ativo no ChatGPT na nova plataforma geradora de vídeos. A empresa ainda afirma que desenvolveu um segundo classificador de imagens que avaliará a segurança de cada imagem.

O modelo, entretanto, falha em manter a coerência de efeitos físicos, como direção da luz e do vento, e em reproduzir relações de causa e efeito. Instruções espaciais, de direita e esquerda, por exemplo, também recebem respostas erradas.

Em um caso, os pesquisadores responsáveis pelo desenvolvimento da nova IA generativa mostram um vídeo de um homem correndo em uma esteira ao contrário.

O modelo, entretanto, falha em manter a coerência de efeitos físicos, como direção da luz e do vento, e em reproduzir relações de causa e efeito. Instruções espaciais, de direita e esquerda, por exemplo, também recebem respostas erradas.

Em um caso, os pesquisadores responsáveis pelo desenvolvimento da nova IA generativa mostram um vídeo de um homem correndo em uma esteira ao contrário.

A Sora, segundo a OpenAI é um passo crucial para aumentar a compreensão de modelos de inteligência artificial sobre o planeta.

O objetivo máximo da OpenAI é construir um modelo de inteligência artificial geral, capaz de reproduzir todas as capacidades humanas. No fim do mês passado, o Google lançou um modelo de inteligência artificial gerador de vídeos chamado de Lumiére.

O material de apresentação mostra uma sequência de imagens surreais em qualidade surpreendente na comparação com aquelas geradas pelos outros modelos então disponíveis no mercado.

A IA do Google também ainda está sem data para chegar ao público. De acordo com o artigo publicado por engenheiros do Google, as imagens geradas pela nova tecnologia mantém coerência ao longo do tempo, diferente de outras plataformas disponíveis do mercado, como a Runway, já testada pela Folha, por até cinco segundos (80 quadros a uma frequência de 16 quadros por segundo).

No caso do Google, a estratégia foi treinar a rede neural a partir de um vetor temporal, além da composição e cores do quadro. Assim, o fator tempo entra na conta.

Fonte: Folhapress