LLM-Sicherheit & Governance: Prompt Injection abwehren

LLM-Sicherheit & Governance · 14.08.2025

Die Nutzung grosser Sprachmodelle (LLM) birgt das Risiko der "Prompt Injection", bei der schädliche Eingaben zu ungewollten oder irreführenden Outputs führen. Ein fundiertes Verständnis dieser Bedrohung ist für Schweizer KMUs essenziell, um die Sicherheit und Governance der eingesetzten KI-Systeme zu gewährleisten.

Typische Fehler

Unzureichende Eingabefilterung: Oftmals wird der Fokus auf die Ausgabequalität gelegt, während die Eingaben nicht genügend validiert werden. Ohne adäquate Filterung können manipulative Eingaben in das System gelangen. Korrektur: Implementierung von Validierungsmechanismen zur Überprüfung und Bereinigung der Eingaben noch bevor sie dem LLM zugeführt werden. Dies kann durch einfache Regelsets bis hin zu maschinellen Lernsystemen erfolgen, die verdächtige Eingaben identifizieren.
Unklare Systemprompts: Die initialen Anweisungen, die das Verhalten eines LLMs steuern, sind oft zu allgemein oder mehrdeutig formuliert. Dies erleichtert es, dass externe Eingaben diese Anweisungen überschreiben oder verfälschen. Korrektur: Präzise und restriktive Formulierung der Systemprompts, die klare Schranken definieren, innerhalb derer das Modell operieren kann. Hierbei sollten bekannte Angriffsmuster berücksichtigt und promptbasierte Kontrollen etabliert werden.
Fehlende Überwachung und Audit Logs: Fehlende Überwachungsmechanismen können dazu führen, dass Prompteinschlüsse unbemerkt bleiben. Korrektur: Einführung eines Systems zur kontinuierlichen Überwachung der Interaktionen mit dem LLM sowie zur Erstellung detaillierter Audit Logs. Diese helfen bei der nachträglichen Analyse und dem Erkennen von Manipulationsmustern.

Handlungsanleitung für 14–30 Tage

1. Woche: Durchführung einer Risikobewertung zur Identifikation von Schwachstellen in den aktuellen Eingabesicherheitsprotokollen. Weiterbildung des IT-Personals hinsichtlich der spezifischen Risiken durch Prompteinschlüsse.
2. Woche: Implementierung erster Maßnahmen aus den identifizierten Bereichen, wie etwa die Verbesserung der Eingabefilterung. Überprüfung und Neugestaltung der Systemprompts, um Klarheit und Präzision zu erhöhen.
3. Woche: Einrichtung eines Monitoring-Systems und von Auditprotokollen. Testmaßnahmen durchführen, um die Effektivität der neu eingeführten Sicherheitsprotokolle zu validieren.
4. Woche: Ergebnisanalyse der überwachten Daten und Durchführung von Anpassungen basierend auf der gewonnenen Erkenntnis. Der Aufbau eines kontinuierlichen Verbesserungsprozesses sollte in Erwägung gezogen werden, um langfristig auf neue Bedrohungen reagieren zu können.

Durch eine strukturierte Vorgehensweise zur Abwehr von Prompteinschlüssen kann die Sicherheit und Integrität von LLMs in KMUs signifikant verbessert werden.