Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen Aufmerksamkeitsmechanismus integriert, der erstmals im Artikel Attention Is All You Need aus dem Jahr 2017 vorgestellt wurde. Dabei wird Text in numerische Darstellungen, die als Token bezeichnet werden, und anschließend durch Worteinbettung in Vektoren umgewandelt.
Dies kann z. B. dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels maschinellem Lernen anhand einer (großen) Menge von Beispieltexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte.
Transformer sind hierbei effizienter als Long-short-term-memory-Architekturen (LSTM) und bilden die Grundarchitektur des generativen vortrainierten Transformers (GPT) sowie anderer vortrainierter Machine-Learning-Modelle.
Lineare Transformer sind eine Form von „fast weight programmers“, welche 1991 vorgeschlagen wurden.[1]