GPT-2 | |||||
---|---|---|---|---|---|
![]() | |||||
Información general | |||||
Tipo de programa | LLM | ||||
Lanzamiento inicial | 14 de febrero de 2019 | ||||
Lanzamientos | |||||
| |||||
Enlaces | |||||
Generative Pre-trained Transformer 2 (GPT-2) es un gran modelo de lenguaje desarrollado por OpenAI y el segundo en su serie fundamental de modelos GPT. GPT-2 fue pre-entrenado en un conjunto de datos de 8 millones de páginas web.[1] Fue lanzado parcialmente en febrero de 2019, seguido por el lanzamiento completo del modelo de 1500 millones de parámetros el 5 de noviembre de 2019.[2][3][4][5][6]
GPT-2 fue creado como una "escala directa" de GPT-1[7] con un aumento de diez veces tanto en el número de sus parámetros como en el tamaño de su conjunto de datos de entrenamiento.[8] Es un aprendiz general y su capacidad para realizar varias tareas fue una consecuencia de su habilidad general para predecir con precisión el siguiente ítem en una secuencia,[9][10] lo que le permitió traducir textos, responder preguntas sobre un tema a partir de un texto, resumir pasajes de un texto más extenso,[10] y generar texto a un nivel a veces indistinguible del humano,[11] sin embargo, podía volverse repetitivo o sin sentido al generar pasajes largos.[12] Fue superado por los modelos GPT-3 y GPT-4, que ya no son de código abierto.
GPT-2, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, tiene una arquitectura de transformador pre-entrenado generativo, implementando una red neuronal profunda, específicamente un modelo de transformador, que utiliza atención en lugar de arquitecturas anteriores basadas en recurrencia y convolución.[13] Los mecanismos de atención permiten que el modelo se enfoque selectivamente en segmentos del texto de entrada que predice que son los más relevantes.[14][15] Este modelo permite una gran paralelización, y supera los benchmarks anteriores para modelos basados en RNN/CNN/LSTM.[16][17]
<ref>
no válida; no se ha definido el contenido de las referencias llamadas openai
<ref>
no válida; no se ha definido el contenido de las referencias llamadas gpt2paper
<ref>
no válida; no se ha definido el contenido de las referencias llamadas badpaper
<ref>
no válida; no se ha definido el contenido de las referencias llamadas tds2
<ref>
no válida; no se ha definido el contenido de las referencias llamadas guardian
<ref>
no válida; no se ha definido el contenido de las referencias llamadas gpt1paper
<ref>
no válida; no se ha definido el contenido de las referencias llamadas jointly
<ref>
no válida; no se ha definido el contenido de las referencias llamadas effective
<ref>
no válida; no se ha definido el contenido de las referencias llamadas attention
<ref>
no válida; no se ha definido el contenido de las referencias llamadas attentionRNNs