Sherlock MS und der Fall des charmanten Hochstaplers

18 April 2026

Nr. 53

Sherlock MS und der Fall des charmanten Hochstaplers 🤖🏥🔎

An jenem Morgen saß ich nicht mit Tee am Fenster, sondern mit drei meiner eigenen Sprachmodelle beim Frühstück. Das kleinste fasste Paper zusammen, das mittlere widersprach ihm mit erfreulicher Arroganz, und das größte versuchte, gleichzeitig einen klinischen Workflow zu optimieren und mich zu loben.

Eine sympathische Maschine. Etwas unterwürfig, aber lernfähig. Mein Bruder dagegen schreibt noch immer mit Bleistift in ein Notizbuch und betrachtet alles mit Batterie als moralischen Verfall. Er nennt das Charakter. Ich nenne es Stromophobie. ⚡✏️

Der Fall, der auf meinem Schreibtisch landete, war von besonders raffinierter Sorte. Es ging um eine medizinische KI, die auf Prüfungen glänzte wie ein geschniegelt auftretender Medizinstudent kurz vor der Goldmedaille. Diagnosen? Tadellos. Antworten? Elegant. Fachsprache? Fast unanständig geschniegelt. Und doch roch die Sache nach Täuschung. Denn Exzellenz auf dem Papier ist in der Medizin ungefähr so vertrauenswürdig wie ein Operntenor, der im Proberaum heldenhaft klingt, aber bei Feueralarm den Ausgang nicht findet. 🎭

Das Problem war rasch umrissen: Man testet solche Systeme oft mit statischen Fällen. Ein Patient kommt, ein paar Daten liegen vor, die Maschine sagt etwas Kluges, alle nicken zufrieden. Aber ein Krankenhaus ist kein Kreuzworträtsel. Es ist ein nervöses, übermüdetes, ständig umgebautes Königreich aus Betten, Wartezeiten, knappen Ressourcen, piependen Geräten und Entscheidungen, die nicht bloß richtig, sondern auch rechtzeitig sein müssen. ⏰

Für Laien gesagt: Es reicht nicht, dass eine KI weiß, was man idealerweise tun sollte. Sie muss auch damit klarkommen, wann man es tut, wie man es tatsächlich im System umsetzt und was es für alle anderen bedeutet. Wer einen CT-Scanner für einen Patienten blockiert, blockiert ihn eben für den nächsten gleich mit. Wer jemanden aufnimmt, belegt ein Bett. Wer lange zögert, bekommt keinen Bonus für Besonnenheit, wenn der Patient inzwischen kollabiert. Medizin ist keine Sammlung richtiger Sätze. Medizin ist organisierter Zeitdruck mit Konsequenzen. 🚑

Und genau da saß der Täter: in der Prüfsituation selbst. Die bisherigen Tests behandelten klinische KI wie einen geschniegelt redenden Gelehrten in einem Salon. Man stellte eine Frage, sie antwortete, und alle waren hingerissen. Nur leider arbeitet ein Krankenhaus nicht wie ein herrschaftlicher Salon. Es arbeitet eher Kombination aus Bahnhof, Notaufnahme und Bienenstock, die gemeinsam beschlossen haben, sich IT-seitig gegen die Menschheit zu verschwören. 🐝💻

Die elegante neue Idee ist deshalb von bestechender Logik: Man prüft die KI nicht mehr nur mit stillen Papierfällen, sondern steckt sie in eine simulierte Klinik. Dort gibt es nicht bloß einen Patienten, sondern viele. Nicht bloß eine Entscheidung, sondern Folgen. Nicht bloß Wahrheit, sondern Timing. Die Maschine muss dann nicht nur sagen: „Ich empfehle Diagnostik X.“ Sie muss durch die echte digitale Maschinerie hindurch: klicken, anordnen, priorisieren, dokumentieren, warten, umplanen, reagieren. Kurz: Sie muss arbeiten wie wir Mediziner, nicht parlieren. 🖱️📋

Das Geniale an dieser Konstruktion ist die Kombination aus zwei Bühnen zugleich. Auf der einen Seite läuft der Patient: Wird er besser? Wird er schlechter? Was passiert, wenn man zu spät handelt? Auf der anderen Seite läuft das Krankenhaus: Sind noch Betten frei? Ist das CT belegt? Ist das Personal ausgelastet? Die KI steht also plötzlich nicht mehr vor einer Prüfungsfrage, sondern mitten in einer höflich formulierten Katastrophe. Und erst dann zeigt sich, ob sie wirklich klinisch denken kann oder nur schön formulierten Prüfungszauber beherrscht. 🎩

Witzigerweise ist das fast exakt der Unterschied zwischen meinem Bruder und mir. Er liebt die saubere Deduktion im stillen Zimmer. Ich ebenfalls, aber ich weiß, dass Wahrheit in der Medizin gern dann auftaucht, wenn gleichzeitig drei Monitore piepen, zwei Formulare fehlen und irgendjemand den Zugang zum System gesperrt hat. Eine gute KI muss daher nicht nur recht haben. Sie muss unter Druck recht behalten. 😌

Besonders reizvoll wurde der Fall, als ich mir die Bewertungsfrage ansah. Denn natürlich reicht es nicht zu sagen: „Die Maschine hat korrekt diagnostiziert.“ Wie unerquicklich schlicht. Wenn sie einen Patienten perfekt versorgt, dabei aber die ganze Abteilung lahmlegt, dann ist sie kein Held, sondern eine sehr teure Form des Chaos. Man muss also beides messen: Was passiert dem Patienten? und was passiert dem System? Das ist aristokratische Gerechtigkeit, also nicht bloß brillante Einzelzüge, sondern Überblick über das gesamte Anwesen. 👑

Und dann, mein Lieblingsdetail: Man kann die Maschine absichtlich in unerquicklich schwierige Lagen bringen. Mehrere Notfälle gleichzeitig. Geräteausfall. Überfüllte Station. Verzögerte Diagnostik. Das ist wunderbar, denn so prüft man Robustheit. Jeder kann geschniegelt glänzen, solange alles geordnet ist. Interessant wird der Charakter erst, wenn der Lift stecken bleibt, das CT besetzt ist und in Zimmer 5 jemand akut zu kollabieren droht. Genau dann zeigt sich, ob man einen Partner vor sich hat oder nur einen charmanten halluzinierenden Hochstapler. 🚨

Damit war der Fall gelöst. Nicht die KI selbst war der Skandal, sondern die schmeichelhafte Art, wie man sie bisher befragt hat. Man hatte den Kandidaten auf Etikette geprüft, nicht auf Krisentauglichkeit. Man hatte geschaut, ob er reden kann, nicht ob er handeln kann. Und zwischen beidem liegt, wie so oft, der ganze Unterschied zwischen Konversation und Kompetenz.

Mein Bruder würde nun sein Notizbuch zuklappen und etwas über die Verderbnis der Moderne murmeln. Ich hingegen öffne eines meiner Sprachmodelle, starte eine Simulation und lasse die Maschine schwitzen. So gehört sich das. Wer in der Klinik mitreden will, soll zuerst beweisen, dass er mit Zeit, Knappheit, Chaos und Benutzeroberflächen umgehen kann, also mit den vier apokalyptischen Reitern der modernen Medizin. 🤖🐎

Ich löse keine gewöhnlichen Kriminalfälle. Ich entlarve Systeme, die auf dem Prüfstand glänzen und im Flur die Nerven verlieren.

Und offen gesagt: Das ist die deutlich elegantere Form der Wahrheit. 🧠 🕵️‍♂️

In diesem Sinne, Ihr SherlockMS

Referenz

Luo, L. et al. A clinical environment simulator for dynamic AI evaluation. Nat. Med. 1–8 (2026).

Sherlock MS und der Fall des charmanten Hochstaplers

Nr. 53

Sherlock MS und der Fall des charmanten Hochstaplers 🤖🏥🔎

Referenz

SherlockMS und der Fall der geheimen Dienstbotentreppe

SherlockMS und der Fall der beleidigten Isolierung

SherlockMS und der Fall des verwirrten Appetits

SherlockMS und der Fall der halben Wahrheit

SherlockMS und der Fall des blinden Wachhunds