Google no para de desarrollar modelos de inteligencia artificial. Recientemente, anunció uno enfocado a videojuegos y luego otro pensando para mejorar la información médica en usuarios y profesionales. Ahora se conoció un proyecto que permite transformar una imagen en un video.
VLOGGER es el nombre de este desarrollo, que genera que una fotografía pueda hablar, es decir, la imagen estática de una persona se puede convertir en un video en el que mueva su boca, la cabeza, el rostro y las manos, incluso hablando en diferentes idiomas.
¿Qué es VLOGGER y cómo funciona?
VLOGGER es el último proyecto de IA desarrollado por Google, diseñado para convertir fotos estáticas en vídeos dinámicos con audio. Esta tecnología utiliza algoritmos avanzados de aprendizaje automático para analizar las imágenes y generar fotogramas de vídeo con detalles de movimiento, agregando sonido para crear una experiencia más inmersiva.
Según los detalles revelados por un equipo de investigadores de Google, este sistema se basa en modelos de difusión, una técnica de IA que ha demostrado ser altamente eficaz en la generación de imágenes realistas a partir de descripciones de texto.
Esta técnica permite que VLOGGER reproduzca de manera convincente a personas gesticulando y hablando en vídeo, dando vida a las fotografías estáticas.
Este proyecto ha estado en desarrollo desde hace tiempo y gracias a lo logrado con Bard y Gemini, la empresa ha permitido alcanzar las mejoras necesarias para la implementación de esta tecnología, que puede ser usada en múltiples áreas.
Además, cuenta con la particularidad de no necesitar un entrenamiento específico para generar el contenido de cada fotografía, sino que la creación se da gracias a su base de conocimiento, que surgió tras analizar 2.200 horas de video y 800.000 identidades diversas, géneros, edades y razas, de un conjunto de datos llamado MENTOR.
Funciones principales de VLOGGER
VLOGGER ofrece una serie de funciones que lo convierten en una herramienta que puede cambiar la manera en la que de editar videos y se crea contenido digital en la actualidad. Aquí algunas de ellas:
- Conversión de fotos en vídeos: VLOGGER es capaz de tomar una fotografía estática y convertirla en un vídeo dinámico con audio, utilizando su tecnología de IA para agregar detalles de movimiento y sonido.
- Traducción de vídeos: además de convertir fotos en vídeos, VLOGGER también tiene la capacidad de traducir vídeos a otros idiomas. Esto significa que se puede subir un vídeo en un idioma determinado y agregar un audio en otro idioma, y la IA ajustará los movimientos de boca de las personas en el vídeo para que coincidan con el nuevo idioma.
- Edición de vídeos avanzada: también ofrece funciones avanzadas de edición de vídeo, como cambiar las expresiones faciales y los movimientos del hablante en el vídeo final. Esto puede convertirse en una herramienta que abra muchas opciones de creatividad y le permita a los creadores de contenido personalizar diferentes videos de una misma imagen.
A pesar de todo este desarrollo, hay preocupaciones sobre el posible mal uso de esta tecnología. La capacidad de VLOGGER para generar vídeos realistas a partir de imágenes estáticas plantea preocupaciones sobre la creación de deepfakes, vídeos falsos creados con fines maliciosos, como la desinformación y el fraude. Algo que se puede ver potenciado al no tener la necesidad de contar con entrenamiento previo para generar el contenido.
Aunque VLOGGER aún está en desarrollo y no está disponible para el público en general, tiene un gran potencial. Google y otros desarrolladores asociados están trabajando para perfeccionar esta tecnología de inteligencia artificial y llevarla al mercado lo antes posible. Esperando que su lanzamiento se haga con la mayor responsabilidad para evitar aumentar los casos de estafa y engaño en la web.