fevereiro 23, 2024

OpenAI revela ferramenta que cria vídeos curtos a partir de instruções em texto

A OpenAI é uma organização sem fins lucrativos que pesquisa e desenvolve inteligência artificial avançada como o ChatGPT. A empresa introduziu agora uma ferramenta capaz de transformar textos em vídeos curtos.

Inteligência Artificial: o que é, como funciona e exemplos

Chamada de Sora, a ferramenta, opera como um modelo de inteligência artificial que constrói cenas realistas e criativas com base em instruções textuais. Em termos práticos, ao descrever algo, da mesma forma que você faria para gerar uma imagem, Sora produz um vídeo correspondente.

A Sora demonstra alta precisão em suas diversas tarefas, desde a geração de textos realistas e informativos até a tradução de idiomas e a resposta a perguntas complexas. A ferramenta se baseia em um enorme conjunto de dados de texto e código, o que garante a confiabilidade e a veracidade das informações geradas.

Os primeiros resultados são impactantes, apresentando realismo visual, textura e até movimentos de câmera. No entanto, a OpenAI reconhece que a ferramenta possui algumas imperfeições, destacando alguns dos defeitos em seu site:

“O modelo atual tem fraquezas, como certa dificuldade em simular a física com precisão em cenas complexas, e talvez não consiga entender a relação entre causa e efeito. Por exemplo, se a cena traz alguém mordendo um biscoito, o biscoito pode não aparecer mordido logo em seguida.
O modelo também pode confundir detalhes espaciais das instruções, como misturar esquerda e direita, ou se complicar para seguir descrições precisas de eventos que se desenrolam, como seguir uma trajetória de câmera.”

Ferramenta pode estimular informações falsas

A ferramenta, contudo, pode potencialmente incentivar a disseminação de informações falsas. Decerto, o professor Ricardo Matsumura de Araujo, coordenador do Hub de Inovação em Inteligência Artificial (H2IA) na Universidade Federal de Pelotas (UFPel), aponta que a concepção do projeto não é inédita. Ademais, a transformação de texto em vídeo já é realizada por outras plataformas, como PikaLabs, Runway e InVideo.

Segundo Araujo, as primeiras tentativas se limitavam a gerar quadros estáticos sequenciais para simular a ideia de um filme. Contudo, essa consistência era breve e apresentava problemas. Os vídeos gerados pelo Sora, por sua vez, mantêm uma consistência entre si e permitem conteúdo de até um minuto, representando um avanço notável em comparação com as soluções existentes.

Atualmente, o Sora não está disponível para o público em geral. Inicialmente, a utilização do Sora será concedida exclusivamente aos membros da Red Team, um grupo de especialistas que colaboram ativamente com a OpenAI. Além disso, permanece incerto se, no futuro, a ferramenta estará acessível para não assinantes ou se será exclusiva para assinantes de algum plano da OpenAI.