Aviso: Hollywood pierde sus mentes por un nuevo y avanzado llamado Sora que puede crear videos realistas de calidad de cine de películas de algunas líneas cortas de texto en minutos.
Ese escenario se desarrolló la semana pasada cuando OpenAI, la compañía de tecnología con sede en San Francisco detrás de la aplicación Generation Generation ChatGPT y la herramienta de generación de imágenes Dall-E, provocaron su último proyecto, el modelo de IA de texto a video Sora. (El nombre es una palabra japonesa que significa cielo que eligieron los creadores porque "evoca la idea del potencial creativo ilimitado". O tal vez son "" fanáticos).
After seeing what Sora could do, Tyler Perry was the biggest name to sound the alarm. He told he put an $800 million planned expansion of his Atlanta studio space on hold. "Los trabajos se perderán", dijo.
are striking. Woolly mammoths march toward you in cascading snow. People walk through a snowy, bustling Tokyo street as the camera swoops over the buildings. “A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” That last one is a specific prompt written by OpenAI to create .
Los cineastas y desarrolladores de la comunidad de IA ven a Sora como un gran salto hacia adelante y un paso significativo para la IA generativa, una herramienta ya capaz de cosas que una vez se consideran posibilidades distantes.
Aviso: "Un mundo de papel de arrecife de coral de un arrecife de coral magnífico, lleno de coloridas criaturas de peces y marinas".
- OpenAi (@openai)
“It was 18 months ahead of where I thought we were. I was totally mind-blown,” said Edward Saatchi, an AI producer with Fable Studios. Para él, la exageración y la emoción de ver a las personas crear breves clips o imágenes en IA generativa estaban "muriendo" y la gente estaba pensando "más de manera realista sobre cuán pronto veríamos una película de IA en los cines". Sora, on the other hand, feels like a game changer.
“It was getting a bit much. ‘Check out the latest 30 clips!’,” he said. “And they were okay, but they weren’t at that level of polish.”
While there were rumblings of OpenAI working on a video tool, the launch came as a shock. Even people on other teams at OpenAI didn’t know it was coming. Solo hemos visto lo que OpenAi creó con Sora, pero la compañía de tecnología dijo que la herramienta está en manos de algunos artistas visuales, diseñadores y cineastas, así como a "equipo rojo" que buscan formas de usar mal. The public has yet to see those results or try the tool in the wild.
El cineasta Paul Trillo, conocido por su aclamado AI Short "gracias por no responder" y que consulta con varias compañías de IA sobre el desarrollo de sus herramientas, dice que está impresionado por la calidad del video y sus capacidades. Pero hasta que se convierta en una aplicación de código abierto que brinda a los creadores una personalización y control total, no está seguro de si es capaz de interrumpir la industria o es simplemente una "gran demostración de productos de tecnología".
"Hay un largo camino por recorrer de clips aislados a hacer una herramienta que funcione en forma de una historia que no le quita al público cuando los miran", dijo. "Creo que va a ser increíble para las personas que todavía están en cine y quieren jugar y probar sus ideas, pero no tienen muchos recursos". Pero soy un poco escéptico desde un punto de vista profesional porque se trata de control y cuánto se puede ejecutar nuestra verdadera intención y visión ".
Sora es un paso adelante de los modelos de la competencia en Startup Runway o gigantes tecnológicos como Meta y Google. Las resoluciones más altas de Sora enmascaran la estética de píxeles de muchos videos generativos, mejorando detalles como textura de la piel, cabello, reflejos, agua, hojas y más. Sora también permite videos de hasta 60 segundos; Anteriormente, el límite era de 3-8 segundos.
Saatchi said it’s the biggest sign yet that AI movies will go beyond two-minute shorts to approximate a short film or TV episode.
"Estábamos al límite de los tipos de historias que se podía contar con 3-8 segundos de tiros", dijo Saatchi. “Estábamos en una rutina como comunidad. Esto abre la capacidad de contar historias mucho más complejas ".
Sora también tiene una fuerte comprensión de cómo las cosas se mueven en el mundo. Otras herramientas generativas de video de IA permiten a las indicaciones para agregar movimientos o instrucciones de dirección que simulen los movimientos de la cámara. Pero Saatchi dijo que Sora tiene distintos caracteres de fondo, movimientos realistas y temas capaces de interactuar y reaccionar. Los videos lanzados por OpenAI incluyen olas que se estrellan contra los acantilados, los animales de bebé jugando o los reflejos en la ventana de un tren en movimiento.
Presentamos a Sora, nuestro modelo de texto a video.
Sora puede crear videos de hasta 60 segundos con escenas altamente detalladas, un movimiento de cámara complejo y múltiples personajes con emociones vibrantes.
Aviso: "Hermoso, nevado ...
- OpenAi (@openai)
Trillo también dijo que ha impresionado lo que llamó la "coherencia temporal" de Sora. El video de IA no comprende lo que sucede en una toma de principio a fin; A partir de un solo marco generado, extrapola (o, adivina) el movimiento. El resultado de las secuencias fallas, al igual que las "piernas de gumby". Sí, hay un video de Sora en el que las piernas de una mujer intercambian colocaciones a mitad de racha, pero cuando se trata de caminar, otras modelos caminaron para que Sora pudiera correr.
La pista se acercó a la coherencia temporal, pero Trillo dijo que es más una "ilusión". En lugar de un generador típico de texto a video, OpenAi llama a Sora un "modelo mundial" que funciona en el espacio-tiempo. Si el video generativo "alguna vez se tomará en serio, debe tener este nivel de coherencia y control", dijo. "[Sora]No parece que esté adivinando. Parece que hay un camino determinado ".
Otra cosa que Trillo describió como un gran avance (y un poco "inquietante") es la capacidad de Sora para desglosar un aviso en el tiempo. En, el clip termina con la criatura que se encuentra con un hongo con hadas bailando en la parte superior. Sora entiende la secuencia de eventos de un aviso complicado en el que se supone que deben suceder varias cosas, lo que lo convierte en "un paso más cerca de ser una herramienta de narración utilizable".
"Simplemente no hizo eso antes", dijo. "Se aproxima a lo que cree que lo estás pidiendo".
Otros activos de SORA incluyen bucle de video sin problemas que proviene de su capacidad para comprender el movimiento y la "flexibilidad de muestreo" que le permite ver el mismo aviso desde perspectivas alternativas, marcos o diferentes relaciones de aspecto.
There’s also video-to-video editing that allows the user to connect videos. Operai ofreció una demostración en la que mostraba un dron volando a través del Coliseo y una mariposa flotando a través de un arrecife de coral, luego fusionó los dos videos sin problemas.
While most people stared at the subjects of Sora’s videos, Trillo was transfixed by their backgrounds. AI often has a problem with “occluding,” in which a foreground object passes a background object that changes or disappears. Operai dijo que Sora todavía tiene algunas imperfecciones a este respecto, pero Trillo notó videos de Sora en los que una persona pasó frente al texto en una pared y el texto permaneció consistente. Dijo que eso indica que Sora no es solo un modelo basado en difusión, sino un híbrido de entornos de animación 3-D más tradicionales y efectos especiales.
Aviso: “Una mujer elegante camina por una calle de Tokio llena de caluroso neón brillante y señalización animada de la ciudad. Lleva una chaqueta de cuero negra, un vestido rojo largo y botas negras, y lleva un bolso negro. Ella usa gafas de sol y lápiz labial rojo. Ella camina con confianza y casualmente ...
- OpenAi (@openai)
Entonces, ¿Hollywood debería estar más asustado hoy por ser reemplazado por una máquina que hace unas semanas, y mucho menos hace seis meses?
"Esta es la primera vez que sentí que el terreno era un poco desigual o el terreno comenzaba a dar, de la misma manera que los ilustradores se sentían hace unos años", dijo Trillo. “It is unsettling, but it’s hard not to be excited about it at the same time.”
Sora still has obvious shortcomings. For one, there’s no dialogue. La boca de una persona, dijo Saatchi, es algo que AI todavía no puede hacer bien; Hacer que eso suceda será clave. Y aunque Sora puede crear una increíble foto de 60 segundos, eso no se traduce en crear una película coherente.
"Se ve muy bien en una publicación de blog, pero veremos cómo funciona si desea hacer 10 tomas de la misma persona en el mismo lugar", dijo Trillo.
Sora también se ve demasiado perfecta; Trillo dice que puede carecer de la calidad impredecible, alucinante o imaginativa de otras herramientas de IA. Y dado que Operai está extremadamente preocupado por el mal uso de la herramienta, hay parámetros estrictos que impiden aplicaciones en torno al sexo y la violencia. (Los cineastas que intentaron decirle a AI que es ketchup, no sangre, se han decepcionado).
“We got a new Hayes Code,” Saatchi said. "Tal vez puedas hacer una película teatral muy dramática, pero eso es lo peor para la IA".
Cualquier herramienta de IA también será tan buena como su interfaz. Si Sora está limitada en su personalización, o si la funcionalidad es torpe, no será adoptado por cineastas o creadores en el hogar. Aún así, Trillo dijo que estos son "obstáculos temporales", y que podría ser el imitador Sora que alcanza la adopción a gran escala.
"Tal vez dentro de dos años hay un modelo de código abierto que tiene mucho control y ofrece a los cineastas el nivel de detalle que necesitan", dijo Trillo. “The easier, faster tool always wins.”
Incluso si Hollywood quisiera usar AI generativo hoy, el contenido creado por AI no puede tener derechos de autor. Edward Klaris, abogado y socio gerente de Klaris Law, dijo que los estudios tienen que preocuparse de que cualquier cosa que creen puedan protegerse y que la oficina de derechos de autor no vea como la máquina generada.
"Los estudios tendrán que tener mucho cuidado de no integrar la IA generativa en su proceso", dijo. "Básicamente están produciendo trabajos de dominio público, por lo que existe un riesgo real de incorporar la IA generativa en el flujo de trabajo".
Si bien el cine puede no estar listo para la interrupción, el marketing ciertamente podría estarlo; Los clips de 60 segundos de Sora son perfectos para los anuncios. Trillo dijo que la industria de las imágenes de Stock también debería estar preocupada. Shutterstock recientemente formó A y gran parte del modelo de Sora probablemente esté entrenado en su biblioteca. Trillo imagina un futuro cercano en el que Shutterstock permitiría que un servicio cree un video generado por IA en lugar de usar imágenes de stock existentes.
Trillo cree que si bien Sora podría permitir que algunas personas se abran camino en la industria, los artistas que tendrán éxito son aquellos con un conjunto de habilidades y visión tradicionales. “My overly optimistic view is people will still get paid the same amount, but won’t have to kill themselves to do it,” he said.
Saatchi, who was part of the research team that developed the believes that we’re inching closer to a world of automated showrunners. El contenido generado sin aportes reales de las personas podría competir fácilmente por los globos oculares con el cine y la televisión.
“Is cinema a collaborative medium? Fully automated content would lose that,” Saatchi said.
Aún así, ofreció una advertencia: hace un año, los defensores de la IA estaban listos para declarar que todo había cambiado. Es difícil imaginar un papel que no se verá afectado por la IA, pero hasta ahora "nada cambió".
"Cada tres años, Silicon Valley le dice a Hollywood que los desglosarán totalmente y cambiarán todo y han terminado, y Hollywood sobrevive y prospera", dijo Saatchi. "No quiero que la gente se preocupe demasiado sin la perspectiva del valle siempre está tratando de ser grosero con Hollywood".