Inteligencia artificial multimodal

Ejemplo de mensaje que demuestra la capacidad de entrada visual de GPT-4

La inteligencia artificial multimodal, también conocida como IA multimodal, es un tipo de inteligencia artificial que puede procesar e integrar datos de diferentes modalidades, como texto, imágenes, audio y video, para obtener una comprensión más completa y contextualizada de una situación.^[1] La inteligencia artificial multimodal se inspira en la forma en que los humanos usan varios sentidos para percibir e interactuar con el mundo, y ofrece una forma más natural e intuitiva de comunicarse con la tecnología.

Los sistemas tradicionales de inteligencia artificial a menudo denominados sistemas unimodales, se limitan a procesar datos de una sola modalidad. Por ejemplo, una IA basada en texto sólo puede entender y responder al lenguaje escrito, mientras que una IA de reconocimiento de imágenes se centra únicamente en datos visuales. Estos sistemas unimodales, aunque eficaces en sus ámbitos específicos, carecen de la capacidad de integrar información procedente de múltiples fuentes, lo que puede limitar su comprensión y aplicación.^[2]

↑ Jay (18 de noviembre de 2023). «Comprender la IA multimodal». HashDork. Consultado el 5 de febrero de 2024.
↑ Elias, Greggory (1 de diciembre de 2023). «Qué es la IA Multimodal + Casos de uso de la IA Multimodal - Skim AI». Desnatado AI. Consultado el 5 de febrero de 2024.

[:0-1] Jay (18 de noviembre de 2023). «Comprender la IA multimodal». HashDork. Consultado el 5 de febrero de 2024.

[2] Elias, Greggory (1 de diciembre de 2023). «Qué es la IA Multimodal + Casos de uso de la IA Multimodal - Skim AI». Desnatado AI. Consultado el 5 de febrero de 2024.

[1]

[2]