Transformer (Maschinelles Lernen)

Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen Aufmerksamkeitsmechanismus integriert, der erstmals im Artikel Attention Is All You Need aus dem Jahr 2017 vorgestellt wurde. Dabei wird Text in numerische Darstellungen, die als Token bezeichnet werden, und anschließend durch Worteinbettung in Vektoren umgewandelt.

Dies kann z. B. dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels maschinellem Lernen anhand einer (großen) Menge von Beispieltexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte.

Transformer sind hierbei effizienter als Long-short-term-memory-Architekturen (LSTM) und bilden die Grundarchitektur des generativen vortrainierten Transformers (GPT) sowie anderer vortrainierter Machine-Learning-Modelle.

Lineare Transformer sind eine Form von „fast weight programmers“, welche 1991 vorgeschlagen wurden.^[1]

↑ Schmidhuber, Jürgen, and A. I. Blog. "Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5)." https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html

[1] Schmidhuber, Jürgen, and A. I. Blog. "Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5)." https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html

[1]