{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreihmqqwtldagp3x4yhm4jzvjgwarnqvhcs3tjbwniq2zfe4ma32lvy",
"uri": "at://did:plc:jcdhsk6w7rxuehjvjgwrwr7d/app.bsky.feed.post/3mmqb77yxmot2"
},
"coverImage": {
"$type": "blob",
"ref": {
"$link": "bafkreigesnubfdnepu4usedu5w4sziqswi455ni7g4n2vw5emiducjmlze"
},
"mimeType": "image/webp",
"size": 70554
},
"description": "Ich schreibe diesen Beitrag nicht, weil Persona Prompting ein neues Thema wäre. Ich schreibe ihn, weil die Empfehlung, einem LLM eine Expertenrolle zuzuweisen, in den meisten Anleitungen immer noch unhinterfragt mitgeschleppt wird – als hätte sich zwischen den frühen GPT-Versionen und den aktuellen Frontier-Modellen nichts Wesentliches geändert. Überraschung: Die Welt hat sich aber weitergedreht.\n\n\n\n\n\n\n\n\n\n\n\nTL;DR\n\n\n\n\nDer Rollenbaustein – „Du bist Senior-Entwickler mit 15 Jahren Erfahrung\" –\nhat ",
"path": "/ki-systemdesign/ziel-schlagt-rolle-warum-der-rollenbaustein-im-prompt-ausgedient-hat/",
"publishedAt": "2026-05-26T05:30:12.000Z",
"site": "https://t01.li",
"tags": [
"Luz de Araujo et al. untersuchten in „Principled Personas",
"Prompting Science Report",
"Formel gebracht",
"Extended Thinking"
],
"textContent": "Ich schreibe diesen Beitrag nicht, weil Persona Prompting ein neues Thema wäre. Ich schreibe ihn, weil die Empfehlung, einem LLM eine Expertenrolle zuzuweisen, in den meisten Anleitungen immer noch unhinterfragt mitgeschleppt wird – als hätte sich zwischen den frühen GPT-Versionen und den aktuellen Frontier-Modellen nichts Wesentliches geändert. Überraschung: Die Welt hat sich aber weitergedreht.\n\n## TL;DR\n\nDer Rollenbaustein – „Du bist Senior-Entwickler mit 15 Jahren Erfahrung\" – hat bei aktuellen Frontier-Modellen ausgedient. Nicht, weil Personas nie etwas gebracht hätten, sondern weil sie nie das gebracht haben, was man ihnen zuschreibt.\n\nDer Grund liegt darin, wie ein LLM funktioniert. Es hat kein Selbstbild, das eine Rolle schärfen könnte – die Trainingsdaten bleiben dieselben, egal welche Erfahrung man ihm andichtet. Was sich verschiebt, ist nur die statistische Konditionierung in Richtung eines bestimmten Stils. Die Rolle motiviert nicht, sie befähigt nicht. Sie färbt.\n\nDie Forschung stützt das. Eine EMNLP-2025-Studie über neun Modelle und 27 Tasks findet bei Expert-Personas meist keine signifikante Verbesserung – wohl aber Einbrüche von bis zu 30 Prozentpunkten, sobald irrelevante Persona-Details im Prompt landen. Schlecht gebaute Rollen schaden also. Reproduzierbar beeinflussbar ist allein Stil, Ton und Vokabular, nicht Fakten oder Reasoning.\n\nZwei Ausnahmen bleiben: die bewusste Steuerung von Ton und Format (als Stil-Signal, nicht als Kompetenz-Upgrade) und die Zuständigkeitsverteilung in Multi-Agenten-Pipelines. Sonst schlägt ein klares Ziel mit sauberem Output-Contract jede Rolle.\n\n## Was der klassische Fünf-Bausteine-Ansatz wollte\n\nDie ursprüngliche Empfehlung für strukturierte Prompts lautete: Rolle, Aufgabe, Kontext, Format, Einschränkungen. Fünf Bausteine, die sich in der frühen Prompt-Engineering-Praxis als nützliches Gerüst etablierten. Später kam ein sechster dazu – _Beispiele_ , als Few-Shot-Prompting seinen Einzug in den Mainstream hielt.\n\nDer Gedanke hinter dem Rollenbaustein war intuitiv: Wenn ich dem Modell erzähle, es sei ein erfahrener Softwarearchitekt, würde es sich auch wie einer verhalten – präziser, kompetenter, mit dem Erfahrungsschatz dieser Rolle im Rücken. Ein LLM als „Method-Actor“, der sich in eine Figur hineinversetzt und dadurch besser wird.\n\nDas Problem: **So funktionieren LLMs nicht**.\n\n## Das Missverständnis dahinter\n\nEin Sprachmodell hat kein Selbstbild, das es durch eine Rollenzuweisung schärfen könnte. Es generiert Token-Sequenzen auf Basis statistischer Wahrscheinlichkeiten über das Trainingskorpus. Wenn ich in den Prompt schreibe „Du bist Senior-Entwickler mit 15 Jahren Erfahrung in Python“, passiert nicht, dass das Modell plötzlich aus einer reicheren Erfahrungsbasis schöpft – es stand schon immer auf exakt demselben Stand an Trainingsdaten. Ich kann ihm genauso gut erzählen, dass es vor 20 Minuten die erste Zeile Code seines Lebens geschrieben hat: das ändert original gar nichts. Was sich ändert, ist die statistische Konditionierung: Der Prompt verschiebt die Wahrscheinlichkeitsverteilung in Richtung von Texten, die mit dieser Art Beschreibung assoziiert sind.\n\nDas klingt nach einer Spitzfindigkeit, ist aber der Kern des Problems. Der Mythos war, dass eine Expertenrolle das Modell _motiviert_ oder _befähigt_. Beides ist falsch. Was sie tatsächlich tut, ist den Output in Richtung eines bestimmten Stils zu verschieben – und damit sind wir beim einzigen legitimen Restanwendungsfall. Aber dazu später mehr, inklusive Sternchen.\n\n## Was die Forschung dazu sagt\n\nDas ist kein rein subjektiver Befund. Die EMNLP 2025 hat dazu eine der bislang systematischsten Untersuchungen geliefert: Luz de Araujo et al. untersuchten in „Principled Personas“ neun aktuelle LLMs über 27 Tasks. Das Ergebnis: Expert-Personas führen meist zu positiven oder schlicht nicht-signifikanten Performance-Veränderungen – aber Modelle reagieren überraschend stark auf _irrelevante_ Persona-Details, mit Performance-Einbrüchen von bis zu 30 Prozentpunkten.\n\nDas ist der eigentlich brisante Befund. Nicht, dass Rollen grundsätzlich wirkungslos sind. Sondern dass schlecht gebaute Rollen – und die Mehrheit der „Du-bist-Senior-X-mit-Y-Jahren-Erfahrung-in-Z“-Prompts sind schlecht gebaut, weil sie Details hineinpacken, die für die eigentliche Aufgabe irrelevant sind – aktiv schaden können. Die Mitigation-Strategien, die die Autoren vorschlagen, helfen übrigens nur bei den größten, fähigsten Modellen. Bei kleineren Modellen ist das Robustheitsproblem ausgeprägter.\n\nSeparat dazu kommt der Prompting Science Report, der explizit feststellt: Persona-Prompts verbessern faktische Genauigkeit nicht verlässlich. Die Forschungslage ist uneinheitlich – eine Studie zeigt Benchmark-Verbesserungen (Kong et al. 2024), eine andere findet keine (Zheng et al. 2024) –, aber der Glaube, dass Rollenframing das Modell zu besseren Fakten oder besserem Reasoning bringt, hat keine stabile empirische Basis. Was die Forschung hingegen konsistent zeigt: Stil, Ton und Vokabular lassen sich über Persona-Prompts beeinflussen. Das ist der einzige Effekt, der reproduzierbar ist.\n\n## Thinking-Modelle machen es noch deutlicher\n\nBei Non-Reasoning-Modellen konnte man noch argumentieren: Vielleicht hilft die Rollenzuweisung als schwaches Kontextsignal. Bei Thinking-Modellen – Claude mit Extended Thinking, GPT, Gemini mit Thinking-Budget – fällt selbst dieses Argument weg.\n\nOpenAI hat es in der Dokumentation für ihre Reasoning-Modelle auf eine Formel gebracht, die ich für bemerkenswert direkt halte:\n\n> A reasoning model is like a senior co-worker — you can give them a goal to achieve and trust them to work out the details. A GPT model is like a junior coworker — they'll perform best with explicit instructions.\n\nDie Analogie ist instruktiv. Einen fähigen Mitarbeiter fragt man nicht, ob er auch wirklich 15 Jahre Erfahrung hat, bevor man ihm eine Aufgabe gibt. Man formuliert das Ziel klar.\n\nFür GPT-5-Reasoning-Modelle empfiehlt OpenAI explizit: klares Ziel, starke Constraints, expliziter Output-Contract – ohne jeden Zwischenschritt vorzuschreiben. Anthropic formuliert es für _Claude_ 4.x ähnlich: Bei Extended Thinking geht es darum, zu erklären, _warum_ etwas wichtig ist – das bringt mehr als eine simulierte Expertenidentität. Gemini 3 hat einen `thinkingLevel`-Parameter, OpenAI einen `reasoning_effort`-Parameter: Die Architektur dieser Modelle macht deutlich, dass Output-Qualität über Zieldefinition und Constraints gesteuert wird. Die Rolle ist darin schlicht kein Faktor.\n\n## Ziel schlägt Rolle – ein konkretes Beispiel\n\nDer Unterschied ist nicht abstrakt. Nehmen wir eine typische Aufgabe: Code-Review für eine Python-Funktion, die Nutzerdaten in eine Datenbank schreibt.\n\n**Prompt mit Rollenbaustein:**\n\n\n ## Rolle\n\n Du bist Senior Software-Architekt mit 15 Jahren Erfahrung in Python und Datenbankdesign.\n Reviewe den folgenden Code.\n\n\n**Prompt ohne Rollenbaustein, mit klarem Ziel:**\n\n\n Reviewe den folgenden Python-Code auf drei konkrete Dinge:\n\n 1. SQL-Injection-Risiken durch unsanitisierte Inputs\n 2. Fehlendes Error Handling bei Datenbankverbindungsfehlern\n 3. Verstöße gegen das Prinzip der minimalen Rechte beim DB-User\n\n Antworte mit: gefundenem Problem, betroffener Zeile, konkretem Fix-Vorschlag.\n Wenn keines der drei Probleme vorliegt, teile dies explizit mit.\n\n## Das Ausnahmensternchen*\n\n*/ Zwei Fälle, in denen der Rollenbaustein noch sinnvoll ist:\n\n### **Ton und Format steuern**\n\n„Du bist technischer Redakteur“ konditioniert den Output auf einen bestimmten Schreibstil – das funktioniert. Man sollte sich aber bewusst sein, was hier passiert: kein Kompetenz-Upgrade, sondern ein Stil-Signal. Dasselbe lässt sich oft präziser über eine direkte Formatvorgabe oder ein Few-Shot-Beispiel erreichen. Die Rolle ist hier Hilfsmittel, kein Fundament.\n\n### **Multi-Agenten-Pipelines**\n\nWenn mehrere Modell-Instanzen in einer Pipeline zusammenarbeiten, hat Rollenzuweisung eine andere, legitimere Funktion: Sie definiert Zuständigkeiten zwischen Agenten – welcher reviewt, welcher implementiert, welcher eskaliert. Das ist kein Kompetenz-Mythos, sondern Workflow-Design. Kein typischer Use-Case für den Einzelprompt, aber ein echter.\n\n## Take dazu\n\nJe klarer das Ziel, desto weniger braucht es eine Rolle. Je unklarer das Ziel, desto wahrscheinlicher greift man zur Rolle als Platzhalter – und das ist genau das Problem. Die Rolle täuscht Präzision vor, die im Prompt selbst fehlt. Wer versteht, wie ein LLM funktioniert und agiert, braucht diese Krücke nicht.",
"title": "Ziel schlägt Rolle: Warum der Rollenbaustein im Prompt ausgedient hat (mit Ausnahmensternchen)",
"updatedAt": "2026-05-29T19:18:16.933Z"
}