AI-Alignment

Innerhalb der Forschung zur Künstlichen Intelligenz (KI) zielt die AI-Alignmentforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als aligned (deutsch: ausgerichtet), wenn es die beabsichtigten Ziele fördert. Ein misaligned (deutsch: fehlausgerichtetes) KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die beabsichtigten.^[1]

Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die Erlangung menschlicher Zustimmung. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein eines korrekten Alignments belohnen.^[1]^[2]

Wenn ein KI-System misaligned (deutsch: fehlausgerichtet) ist, kann dies zu schwerwiegenden Fehlern führen oder Schaden anrichten. Die KI kann Schlupflöcher finden, die es ihr ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking).^[1]^[3]^[4] KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen.^[1]^[5]^[6] Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet, aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.^[7]^[8]

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen,^[1]^[9]^[10] Robotern,^[11] autonomen Fahrzeugen^[12] und Empfehlungsalgorithmen für soziale Medien zu beobachten.^[1]^[6]^[13] Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.^[14]^[3]^[2]

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle eines Fehlalignements gefährden könnte.^[15]^[6]

Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.^[16]

Das Wertalignement von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können.^[17] Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten.^[18] Zu den Herausforderungen im Bereich des KI-Wertalignements zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht.^[18] Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur Interpretierbarkeitsforschung,^[19]^[20] zur Erkennung von Anomalien, zur kalibrierten Unsicherheit,^[19] zur formalen Verifikation,^[21] zum Präferenzlernen,^[22]^[23]^[24] zur für Sicherheit relevanten Technik,^[25] zur Spieltheorie,^[26] zur Algorithmen-Fairness,^[17]^[27] und zu den Sozialwissenschaften.^[28]

↑ ^a ^b ^c ^d ^e ^f Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Abgerufen am 12. September 2022.
↑ ^a ^b Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626 cs.AI.
↑ ^a ^b Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli 2022.
↑ Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.
↑ Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353 cs.CY.
↑ ^a ^b ^c Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.
↑ Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.
↑ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155 cs.CL.
↑ Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
↑ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
↑ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März 2023). „Reward (Mis)design for autonomous driving“. Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
↑ Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
↑ Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach, Prentice Hall. S. 1010. ISBN 978-0-13-604259-4.
↑ Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat“. Forbes. Abgerufen am 4. Mai 2023.
↑ Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
↑ ^a ^b Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). „Concrete Problems in AI Safety“. arXiv:1606.06565 cs.AI.
↑ ^a ^b Referenzfehler: Ungültiges <ref>-Tag; kein Text angegeben für Einzelnachweis mit dem Namen :1.
↑ ^a ^b Rorvig, Mordechai (14. April, 2022). „Researchers Gain New Understanding From Simple AI“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
↑ Doshi-Velez, Finale; Kim, Been (2. März 2017). „Towards A Rigorous Science of Interpretable Machine Learning“. arXiv:1702.08608 stat.ML.
↑ Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
↑ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). „A survey of preference-based reinforcement learning methods“. Journal of Machine Learning Research. 18 (136): 1–46.
↑ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). „Deep reinforcement learning from human preferences“. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
↑ Heaven, Will Douglas (27. Januar 2022). „The new version of GPT-3 is much better behaved (and should be less toxic)“. MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
↑ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März 2022). „Taxonomy of Machine Learning Safety: A Survey and Primer“. arXiv:2106.04823 cs.LG.
↑ Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda“. Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar 2023. Abgerufen am 18. Juli 2022.
↑ Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
↑ Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

[:0-1] ↑ ^a ^b ^c ^d ^e ^f Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Abgerufen am 12. September 2022.

[:3-2] Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626 cs.AI.

[:4-3] Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli 2022.

[4] Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.

[:5-5] Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353 cs.CY.

[:6-6] Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.

[:7-7] Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.

[:8-8] Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.

[:9-9] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155 cs.CL.

[:10-10] Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.

[11] Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.

[12] Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März 2023). „Reward (Mis)design for autonomous driving“. Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.

[13] Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.

[:11-14] Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach, Prentice Hall. S. 1010. ISBN 978-0-13-604259-4.

[15] Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat“. Forbes. Abgerufen am 4. Mai 2023.

[16] Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”

[:12-17] Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). „Concrete Problems in AI Safety“. arXiv:1606.06565 cs.AI.

[:1-18] Referenzfehler: Ungültiges <ref>-Tag; kein Text angegeben für Einzelnachweis mit dem Namen :1.

[:2-19] Rorvig, Mordechai (14. April, 2022). „Researchers Gain New Understanding From Simple AI“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.

[20] Doshi-Velez, Finale; Kim, Been (2. März 2017). „Towards A Rigorous Science of Interpretable Machine Learning“. arXiv:1702.08608 stat.ML.

[21] Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.

[:13-22] Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). „A survey of preference-based reinforcement learning methods“. Journal of Machine Learning Research. 18 (136): 1–46.

[:14-23] Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). „Deep reinforcement learning from human preferences“. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.

[:15-24] Heaven, Will Douglas (27. Januar 2022). „The new version of GPT-3 is much better behaved (and should be less toxic)“. MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.

[25] Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März 2022). „Taxonomy of Machine Learning Safety: A Survey and Primer“. arXiv:2106.04823 cs.LG.

[26] Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda“. Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar 2023. Abgerufen am 18. Juli 2022.

[27] Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.

[:44-28] Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]