Todo lo que sucede al interior de Google se trata de Inteligencia Artificial . Este martes, durante su conferencia de desarrolladores, Google I/O , la empresa mostró algunas de sus novedades más importantes que llegarán en el ámbito de la IA para sus diferentes verticales, desde búsqueda hasta asistentes digitales impulsados por Gemini.
Google imita a Her con su prototipo de IA multimodal En la carrera por la IA, Google y OpenAI son dos de las empresas más avanzadas. Así lo demuestran sus productos y aunque se rumora que la empresa de Sam Altman lanzará un modelo multimodal que podrá reconocer objetos en imágenes, videos y audios para dar una respuesta contextualizada, Google se adelantó y confirmó esta función a partir del Project Astra. Durante su presentación en el evento de desarrolladores, Google I/O, Demis Hassabis, director ejecutivo de Google DeepMind, presentó el prototipo de esta nueva herramienta que es capaz de detectar imágenes de objetos en la vida real a partir de la cámara del dispositivo y lo cual representa un avance importante para la IA generativa, hasta el punto de asemejarse al asistente de la película de Spike Jonze, Her.
“Para ser realmente útil, un agente tiene que entender y responder al mundo complejo y dinámico como lo hacen las personas, y asimilar y recordar lo que ve y oye para comprender el contexto y actuar. También debe ser proactivo, didáctico y personal, para que los usuarios puedan hablar con él de forma natural y sin retrasos ni demoras”, comentó Hassabis. Si bien esta tecnología aún no estará disponible, algunas de sus funciones sí lo estarán en Gemini a finales de este año. Además de que el experto dijo que podría usarse tanto en teléfonos como en gafas inteligentes
Veo, la nueva herramienta de Google para generar videos con IA OpenAI anunció Sora, su creador de videos, hace algunos meses. Sin embargo, Google no se quiere quedar atrás y es por ello que presentó Veo, su modelo de generación de video a partir de texto, capaz de generar productos de alta calidad con resolución de 1080p con duraciones superiores a un minuto. El modelo puede imitar estilos cinematográficos y visuales, además de entender conceptos, como “timelapse” o “tomas aéreas de un paisaje”, lo que proporciona un mayor nivel de control creativo.
De acuerdo con la empresa, el cineasta Donald Glover y su estudio creativo, Gilga, ya han utilizado la tecnología para un proyecto cinematográfico. Veo está disponible a partir de hoy para creadores seleccionados como una vista previa privada dentro de VideoFX, y los usuarios pueden inscribirse a la lista de espera. Por otra parte, Google prometió más funciones de Veo a en YouTube Shorts y otros productos en el futuro.
Google da vida a un nuevo asistente: Gemini Live El asistente de IA de Google, Gemini, recibirá una nueva versión, Gemini 1.5 Pro, con la cual los suscriptores tendrán una ventana de contexto de 1 millón de tokens, que es la más grande para un chatbot de consumo actualmente, según comentó Sissie Hsiao, gerente general de las experiencias de Gemini y Google Assistant. Con esta capacidad aumentada, Gemini Advanced puede puede dar sentido a varios documentos grandes, de hasta 1.500 páginas en total, o resumir 100 correos electrónicos. Asimismo, la empresa dijo que ahora se podrán cargar archivos desde Drive o el dispositivo donde se esté usando el chatbot. A partir de ello, los usuarios podrán obtener rápidas respuestas y perspectivas sobre documentos densos. Google también anticipó que “pronto” Gemini Advanced actuará como un analista de datos capaz de generar gráficos personalizados sobre la marcha a partir de archivos de datos cargados como hojas de cálculo. Otro de los grandes anuncios que hizo la empresa durante Google I/O fue el nuevo producto Gemini Live, una experiencia móvil que utiliza tecnología de voz para hablar con Gemini de forma intuitiva y natural, pues incluso se le puede interrumpir en medio de una respuesta para aclarar el contexto de la conversación. Esta función estará disponible en los próximos meses.
Búsqueda, el producto insignia de Google se simplifica con IA Liz Reid, directora de Búsqueda en Google, dio a conocer el nuevo modelo Gemini personalizado para los productos de búsqueda con el cual las respuestas estarán agrupadas en resúmenes de varios sitios web en un único resultado, gracias a la función AI Overviews. Si bien puede parecer una forma de desincentivar la lectura de artículos, Reid señaló que en las fases de prueba se ha detectado que la gente da más clics en los artículos que aparecen como fuentes en los resúmenes respecto al listado tradicional para la consulta. La ejecutiva detalló que las capacidades de razonamiento de Gemini ayudarán con preguntas cada vez más complejas en vez de dividir una cuestión en varias búsquedas. La empresa ejemplifica con el caso de un estudio de yoga popular entre los lugareños, que esté bien situado y además ofrezca un descuento a los nuevos socios. Estas capacidades llegarán pronto a las descripciones generales de IA en Search Labs, para consultas en inglés en Estados Unidos, así como las funciones de planificación desde Search y la posibilidad de hacer preguntas con vídeo, por ejemplo, grabar el mal funcionamiento de un producto para saber qué está mal con él rápidamente.