Los transformadores generativos preentrenados (GPT) son un tipo de modelo de lenguaje grande (LLM)[1][2][3] y un marco prominente para la inteligencia artificial generativa.[4][5] El primer GPT fue presentado en 2018 por OpenAI.[6] Los modelos GPT son redes neuronales artificiales que se basan en la arquitectura del transformador, preentrenados en grandes conjuntos de datos de texto sin etiquetar, y capaces de generar contenido novedoso similar al humano.[2][3] A partir de 2023, la mayoría de los LLM tienen estas características[7] y a veces se hace referencia a ellos como GPT.[8]
OpenAI ha lanzado modelos básicos GPT muy influyentes que han sido numerados secuencialmente para conformar su serie "GPT-n".[9] Cada uno de ellos era significativamente más capaz que el anterior, debido a su mayor tamaño (número de parámetros entrenables) y entrenamiento. El más reciente, el GPT-4, salió al mercado en marzo de 2023. Estos modelos han sido la base de sus sistemas GPT para tareas más específicas, incluidos los modelos perfeccionados para el seguimiento de instrucciones, que a su vez impulsan el servicio de chatbot ChatGPT.[1]
El término "GPT" también se utiliza en los nombres y descripciones de los modelos desarrollados por otros. Por ejemplo, otros modelos de base GPT incluyen una serie de modelos creados por EleutherAI[10] y, recientemente, siete modelos creados por Cerebras.[11] Asimismo, empresas de distintos sectores han desarrollado GPT específicas para tareas en sus respectivos campos, como "EinsteinGPT" de Salesforce (para CRM)[12] y "BloombergGPT" de Bloomberg (para finanzas).[13]