Avatar

Stiven Cartagena

7 marzo, 2023

Microsoft trabaja en la competencia para ChatGPT, se trata de Kosmos-1, la nueva IA que puede interpretar imágenes y resolver acertijos

Con el objetivo de hacerle frente a ChatGPT, Microsoft se puso a trabajar en el desarrollo de su propia inteligencia artificial generativa con un nuevo modelo multimodal.


Después de que ChatGPT fuera un éxito y de que Microsoft invirtiera una gran cantidad de dinero en OpenAI, la compañía dejó en claro que su futuro está fuertemente vinculado con la inteligencia artificial. Kosmos-1 es el modelo más reciente de IA desarrollado por Microsoft, y tiene la capacidad de analizar imágenes y resolver acertijos. Según la empresa, este modelo multimodal es un paso importante en el camino hacia la creación de una inteligencia artificial generalizada.

Un reciente informe de ArsTechnica deja en evidencia las intenciones de Microsoft por trabajar en la competencia directa a ChatGPT. Bajo el nombre de «El lenguaje», Kosmos-1 se basará en analizar la percepción con los modelos de idiomas, el estudio muestra los resultados de un nuevo modelo de lenguaje extenso multimodal (MLLM). De acuerdo con los investigadores, la IA puede percibir modalidades generales, aprender en contexto y seguir instrucciones.

En la práctica, ,la nueva IA se desempeña de manera impresionante en tareas de comprensión y percepción de lenguaje, reconocimiento de imágenes y texto visual, e incluso es capaz de responder una prueba de coeficiente intelectual. El modelo de IA puede analizar imágenes y responder preguntas sobre ellas, reconoce el texto dentro de ellas y puede subtitularlas.

¿Cuál es la diferencia entre Kosmos-1 y ChatGPT?

La principal diferencia es que Kosmos-1 considera modos de entrada como texto, imágenes, audio y video. Si bien los modelos LLM, como ChatGPT, han servido como una interfaz de propósito general en varias tareas de lenguaje natural, tienen una desventaja.

La interfaz basada en LLM se puede adaptar a una tarea, siempre que podamos transformar a texto la entrada y la salida. A pesar de las aplicaciones exitosas en el procesamiento del lenguaje natural, todavía se está luchando por usar los LLM de forma nativa para datos multimodales, como imágenes y audio.

Según los investigadores, la IA admite de forma nativa tareas de lenguaje, percepción-lenguaje y visión. «Kosmos-1 es un modelo de lenguaje multimodal (MML) que puede percibir modalidades generales, seguir instrucciones, aprender en contexto y generar resultados», aseguran.

La IA se entrenó utilizando extractos de The Pile, un conjunto de datos de código abierto de 825 GB destinado a modelos extensos. De igual modo, Microsoft utilizó Common Crawl, un gigantesco repositorio de datos de la web. Tras una fase de entrenamiento y ensayos, los ingenieros realizaron una serie de evaluaciones y los resultados son prometedores.

Interpretar imágenes y resolver pruebas de inteligencia

La IA de Kosmos-1 pudo responder preguntas sobre algunas imágenes, como el tipo de peinado de una deportista, la razón por la que lloraba un niño o por qué era graciosa una foto. De igual modo realizó operaciones matemáticas simples y reconocimiento de texto y números, como la fecha de estreno en el cartel de una película. En algunos casos, la IA ofrece más contexto y responde de manera precisa a preguntas de seguimiento.

El rendimiento de Kosmos-1 en la prueba de las matrices progresivas de Raven es quizás lo más interesante de su evaluación. Esta prueba se utiliza para medir la inteligencia humana y el razonamiento abstracto, y consiste en completar una secuencia de formas abstractas. En este test, el modelo de IA respondió correctamente una pregunta el 22 por ciento de las veces, lo que supera la probabilidad aleatoria del 17 por ciento.

Los resultados sugieren que Kosmos-1 tiene la capacidad de reconocer patrones abstractos en un contexto no verbal, lo que es un logro significativo en la realización de pruebas de disparo cero en el test de Raven por parte de una IA. Aunque la evaluación todavía está lejos del desempeño de un adulto promedio, esto demuestra que los lenguajes multimodales son cruciales para el desarrollo de una IA que supere a los humanos.

Es importante mencionar que Kosmos-1 no tiene ninguna relación con ChatGPT y que Microsoft está dando sus primeros pasos hacia la IA general. Los ingenieros que desarrollaron este modelo tienen planes de hacerlo accesible a otros desarrolladores mediante la página de GitHub.

Artículo escrito por: Stiven Cartagena

Relacionados