OpenAI apresenta Sora: Modelo de IA que transforma textos em vídeos realistas

Conheça a Sora, modelo de IA que pode criar cenas realistas e imaginativas a partir de instruções de texto.

Filipe Reis

fevereiro 16, 2024
| Dicas de IA

Ouvir este artigo 8 min • Áudio Imersivo

Veja Também:

SynthID: A ferramenta do Google para desmascarar imagens e vídeos de IA

Como criar imagens de IA sem erros segundo o Google

Manus apresenta sua versão 1.6 Max

Nesse artigo:

Disponível ainda apenas para os “Red Teamers”, nova IA da OpenIA promete gerar vídeos impressionantes de até 60 segundos baseados em prompts de comando

A OpenAI, empresa por trás do ChatGPT, introduziu um novo modelo de IA capaz de criar vídeos realistas através de inteligência artificial, a partir de textos. De acordo com a empresa, o Sora tem a habilidade de produzir vídeos de até 60 segundos baseados em descrições curtas. Inicialmente, apenas artistas visuais foram autorizados a utilizar essa ferramenta, explorando suas potencialidades para enriquecer suas criações.

Recentemente, Sam Altman (CEO da OpenAI) mencionou que em breve a inteligência artificial poderia viabilizar startups de bilhões de dólares sendo administradas por apenas uma pessoa. No entanto, após o anúncio feito ontem, é possível imaginar que essa startup de uma pessoa poderia se tornar um estúdio de cinema.

Mas afinal, como Sora funciona?

Segundo a própria OpenAI, “Sora entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico”. Ela consegue gerar o vídeo, realizar movimentações de câmera complexos e ainda utilizar vários personagens na cena.

O Sora emprega uma abordagem conhecida como “difusão”, que gera imagens a partir de pontos aleatórios. No início do processo, o vídeo apresenta uma aparência parecida com ruído estático, que nos lembra das antigas TVs fora de sintonia. Gradualmente, esse visual se transforma em algo impressionante.

[code_snippet id=10 format]

Essa técnica guarda semelhança com aquela utilizada por ferramentas capazes de criar imagens a partir de descrições fornecidas pelos usuários, como o DALL-E, também desenvolvido pela OpenAI e servindo como base para o desenvolvimento do Sora.

“[O Sora] usa a técnica de recaptação do (robô) DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado”, declara a OpenAI.

E como toda IA que gera conteúdo, basta o usuário fazer uso de “prompts” para que Sora gere os vídeos.

Sem previsão para o Brasil

A nova ferramenta, infelizmente, ainda não está liberada para o público em geral e, a OpenAI, ainda não informou uma data para que isso ocorra. Por enquanto, apenas o seu “Red teamers”, ou seja, “especialistas em áreas como desinformação, conteúdo de ódio e preconceito”, tiveram acesso à ferramenta com o intuito de testá-la e “refiná-la” para que a ferramenta não crie vídeos com desinformação ou elementos preconceituosos já que, como toda IA generativa, Sora se alimenta de vídeos e imagens pré-existentes na Internet.

[code_snippet id=8 format]

Primeiros resultados

Já que não é possível testar essa nova IA por enquanto, nos resta visualizar os resultados de prompts já testados! Vamos a eles:
– Obs: os prompts foram traduzidos para português para melhor entendimento.

Prompt: Uma ninhada de filhotes de golden retriever brincando na neve. Suas cabeças saltam da neve, cobertas.

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in. pic.twitter.com/G1qhJRV9tg
— Eduardo Borges (@duborges) February 15, 2024

Prompt: Close extremo do olho piscando de uma mulher de 24 anos, em pé em Marrakech durante a hora mágica, filmagem cinematográfica em 70mm, profundidade de campo, cores vivas, cinematográfico.

Prompt: Dica: uma sessão instrutiva de culinária para nhoque caseiro, apresentada por uma avó influenciadora de mídia social, ambientada em uma cozinha rústica toscana com iluminação cinematográfica.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

Prompt: Dois golden retrievers fazendo podcast no topo de uma montanha.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

Prompt: Passeio por uma galeria de arte com muitas obras de arte belíssimas em diferentes estilos.

Prompt: Um meio pato meio dragão voa através de um lindo pôr do sol com um hamster vestido com equipamento de aventura nas costas.

https://t.co/WJQCMEH9QG pic.twitter.com/Qa51e18Vph
— Sam Altman (@sama) February 15, 2024

Prompt: Uma mulher estilosa caminha por uma rua de Tóquio cheia de neon brilhante e sinalização animada da cidade. Ela veste uma jaqueta de couro preta, um vestido longo vermelho e botas pretas, e carrega uma bolsa preta. Usa óculos de sol e batom vermelho. Caminha com confiança e descontração. A rua está úmida e reflexiva, criando um efeito de espelho das luzes coloridas. Muitos pedestres circulam.

Prompt: A câmera encara diretamente edifícios coloridos em Burano, Itália. Um adorável dálmata olha através de uma janela de um prédio no térreo. Muitas pessoas caminham e andam de bicicleta pelas ruas do canal em frente aos edifícios.

All of these UNBELIEVABLE videos were created using Sora, the new AI model from OpenAI

Watch each one and see how it makes you feel…

I don't think it's crazy for me to say this going to shift Hollywood, social apps and media forever

Video #1
Prompt: The camera directly faces… pic.twitter.com/NJfphtGbWb
— GREG ISENBERG (@gregisenberg) February 15, 2024

Nem tudo são flores

Com nada é 100% perfeito para as IA’s generativas, com Sora, essa afirmação também está correta. Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida”, explica.

“Concorrentes” do Sora

Essa nova IA, vem com o desafio de “brigar pelo seu lugar ao sol” com outras IA’s que possuem o mesmo propósito, como é o caso da ferramenta Pika Art que gera imagens de 3 segundos a partir de prompts ou da Videogen.

Concluindo…

A chegada do Sora, o novo modelo de inteligência artificial da OpenAI, abre portas para um mundo de possibilidades criativas. Ao transformar textos em vídeos realistas, o Sora demonstra o potencial da IA para revolucionar não apenas o campo do entretenimento, mas também diversos outros setores. Com sua capacidade de compreender e reproduzir elementos do mundo físico, o Sora promete trazer novas dimensões à produção audiovisual.

Embora ainda não disponível ao público em geral, os resultados iniciais impressionantes sugerem um futuro promissor para essa tecnologia. Contudo, como acontece com qualquer avanço tecnológico, existem desafios a serem enfrentados. A complexidade de reproduzir física realista e entender lógicas de causa e efeito são obstáculos que o Sora precisa superar.

Mesmo com esses desafios, a perspectiva de uma IA capaz de criar vídeos realistas a partir de simples descrições é empolgante. À medida que o Sora continua a ser refinado e desenvolvido, podemos esperar um impacto significativo não apenas na indústria cinematográfica, mas em todo o cenário criativo e tecnológico. O futuro da produção de conteúdo visual parece mais vibrante do que nunca, graças ao poder da inteligência artificial e ao potencial do Sora.

E você, também ficou impressionado(a) com os primeiros resultados de Sora? Comente abaixo o que achou.

Se você gostou desse artigo, talvez goste desses outros também:

Boneco Lego: Crie e anime o seu agora! – Nosso guia mostrará como utilizar o Criador de Imagens do Bing para dar vida a um boneco Lego e, em seguida, transformá-lo em uma animação cativante.
Personagens 3D estilo Pixar e bonecos Funko: Aprenda como criar! – Crie desenhos 3D estilo Pixar e bonecos Funko no Bing. Posicione sobre logos do Instagram/YouTube e adicione seu rosto!
Ideogram: Produza imagens com textos – Descubra o Ideogram, uma ferramenta IA que transforma texto em imagens visuais, incluindo a capacidade única de gerar imagens contendo textos.
Criador de Imagens do Microsoft Bing: Tudo o que você precisa saber – Como gerar imagens com IA a partir de descrições em texto. O Criador de Imagens do Microsoft Bing (Bing Create Image, em inglês).

Compartilhe esse post

Filipe Reis

Com graduação, pós, essas coisas... Gosto de tecnologia desde sempre e adoro aprender coisas novas e passar esse conhecimento para frente! Também gosto de rock e filmes de ficção (daqueles que você assiste 5 min, dorme e assiste os 5 min finais e entende o filme inteiro)!

OpenAI apresenta Sora: Modelo de IA que transforma textos em vídeos realistas

Filipe Reis

Aqui você encontra:

Veja Também:

Nesse artigo:

Disponível ainda apenas para os “Red Teamers”, nova IA da OpenIA promete gerar vídeos impressionantes de até 60 segundos baseados em prompts de comando

Mas afinal, como Sora funciona?

Sem previsão para o Brasil

Primeiros resultados

Nem tudo são flores

“Concorrentes” do Sora

Concluindo…

Compartilhe esse post

Filipe Reis

GTA 6: Rockstar confirma detalhes vazados

Seu Kindle vai perder um recurso graças à Microsoft

Promoção Apple: Ganhe AirPods e caneta de graça!