Unsupervised Multi-Model Anomaly Detection and Attack Chain Versioning in Adaptive Honeynets
Early Threat Recognition from First-Flight Data with Resource-Efficient Container Orchestration
1. Einleitung und Problemstellung
1.1 Motivation
Moderne Honeypot-Systeme sind in der Lage, umfangreiche Datenmengen zu erzeugen, die für die Analyse von Angriffsmustern genutzt werden können. Allerdings haben sie nach wie vor erhebliche Schwächen, insbesondere im Umgang mit adaptiven Angreifern. Diese Angreifer, oftmals als Bots bezeichnet, passen ihre Taktiken kontinuierlich an, um der Erkennung durch statische Systeme zu entgehen. Während klassische Honeypots auf die Erkennung isolierter Angriffe ausgerichtet sind, bleiben komplexe, dynamische Angreifer, die Angriffsketten über mehrere Sessions hinweg aufbauen, häufig unerkannt.
Ein weiteres zentrales Problem bei der Anwendung von Honeypots ist die Skalierbarkeit und Ressourcennutzung. In realen Angriffsszenarien, in denen mehrere Angriffe gleichzeitig und über längere Zeiträume hinweg stattfinden, ist es entscheidend, dass Honeypot-Systeme dynamisch reagieren und Ressourcen effizient verwalten. Die Notwendigkeit, auf Echtzeit-Angriffe zu reagieren, ohne in Ressourcenspitzen zu geraten, stellt eine weitere Herausforderung dar.
Die vorliegende Arbeit zielt darauf ab, ein adaptives Honeynet-Framework zu entwickeln, das sowohl die Erkennung adaptiver Angreifer (insbesondere Bots) als auch die Versionierung von Angriffsketten ermöglicht. Gleichzeitig soll das System durch intelligente Container-Orchestrierung die Ressourcennutzung optimieren und die Effizienz bei der Emulation von Angriffen sicherstellen, insbesondere bei hohem Traffic oder langfristigen Angriffsszenarien.
1.2 Forschungsfragen
Die folgenden Forschungsfragen ergeben sich aus den praktischen Herausforderungen bei der Erkennung und Analyse von adaptiven Angreifern sowie der effizienten Ressourcennutzung in Honeypots:
-
Wie kann ein hybrides Deep-Learning-Modell, das Autoencoder (AE), Long Short-Term Memory (LSTM) Netzwerke und Graph Neural Networks (GNN) kombiniert, dazu beitragen, adaptive Angreifer zu erkennen und Angriffsketten zu versionieren, die sich über mehrere Sessions hinweg entwickeln?
- Forschungslücke: Während bestehende Systeme teilweise Angreifer auf Basis von einzelnen Angriffsmustern oder Datenströmen erkennen, wird die Fähigkeit zur langfristigen, dynamischen Erkennung adaptiver Angreifer und Versionierung von Angriffsketten selten berücksichtigt. Das vorgestellte System adressiert diese Lücke, indem es First-Flight-Daten kombiniert mit mehreren modellen zur Anomalieerkennung und einer Attack-Chain-Versionierung nutzt, um Verhaltenstrends von Angreifern über längere Zeiträume hinweg zu verfolgen.
-
Wie kann ein Reinforcement-Learning-gestütztes System die Container-Orchestrierung in Honeypots effizient steuern, um die Ressourcennutzung zu optimieren und gleichzeitig die Erkennungsqualität und Versionierung von Angreifern nicht zu beeinträchtigen?
- Forschungslücke: Viele bestehende Systeme emulieren Angriffe ohne Rücksicht auf die Ressourcenkapazitäten, was zu einer hohen Belastung des Systems führt, insbesondere bei hochfrequenten Angriffen. Das vorgestellte Framework nutzt Reinforcement Learning (RL) zur ressourcensensitiven Steuerung von Container-Spawns, um sicherzustellen, dass nur relevante Angriffsszenarien emuliert werden und gleichzeitig Ressourcen effizient genutzt werden. Dieses System könnte die Echtzeitreaktionsfähigkeit erheblich steigern und die Fehlertoleranz verbessern.
-
Wie können wir ein System zur erklärbaren Anomalieerkennung (XAI) entwickeln, das es ermöglicht, sowohl die Erkennungsentscheidungen als auch die Entwicklung von Angriffsketten für Sicherheitsanalysten nachvollziehbar zu machen?
- Forschungslücke: Erklärbarkeit ist ein kritischer Faktor bei der Implementierung von Sicherheitslösungen, um Vertrauen und Transparenz zu gewährleisten. In bisherigen Ansätzen wird die Erklärung von Erkennungen meist vernachlässigt. Diese Arbeit strebt an, eine explainable AI (XAI) zu integrieren, um sicherzustellen, dass die Entscheidungsprozesse des Modells für Sicherheitsexperten verständlich sind. Dies ist besonders wichtig, um bei komplexen, dynamischen Angriffen wie APT-Angriffen oder langfristigen Botnet-Infiltrationen die Angriffsschritte und deren Zusammenhänge transparent zu machen.
1.3 Hypothese
Die Haupthypothese dieser Arbeit lautet:
Ein mehrschichtiges Modell aus Autoencodern (AE), Long Short-Term Memory Netzwerken (LSTM) und Graph Neural Networks (GNN) kann in Kombination mit Reinforcement Learning und Explainable AI in einem adaptiven Honeynet-Framework die Früherkennung von adaptiven Angreifern, die Versionierung von Angriffsketten sowie eine effiziente Ressourcennutzung ermöglichen. Dieses Modell wird es ermöglichen, nicht nur einzelne Angriffe frühzeitig zu erkennen, sondern auch die Entwicklung von Angreifern über mehrere Sessions hinweg zu verfolgen, was zu einer nachhaltigeren und leistungsfähigeren Sicherheitslösung führt. Dabei wird die Ressourcenschonung durch die intelligente Container-Orchestrierung des RL-Moduls optimiert, ohne die Qualität der Angriffsbeobachtungen zu beeinträchtigen.
2.0 Verwandte Arbeiten und Abgrenzung
Forschungsarbeiten zur Anomalieerkennung im Kontext von Honeypots, Netzwerkverkehr und Logs lassen sich grob in drei Kategorien einteilen:
(1) klassische Honeypot-Frameworks
(2) Deep-Learning-basierte Anomalieerkennungssysteme
(3) unsupervised/multimodale Netzwerkmodelle
Obwohl jede dieser Gruppen Teilaspekte adressiert, fehlt bislang ein System, das dynamisch auf die Entwicklung von Angreifern reagiert, die Versionierung von Angriffsstrukturen (wie Attack Chains) ermöglicht und gleichzeitig Ressourcen effizient nutzt.
2.1 Klassische Honeypot-Systeme
-
T-Pot bietet eine Vielzahl von Emulationsdiensten, basiert jedoch auf statisch laufenden Containern. Die fehlende dynamische Anpassung an den Traffic und die Relevanz der einzelnen Emulationen führt zu einer ineffizienten Ressourcennutzung. Eine Versionierung von Angriffsketten oder die Verfolgung von sich entwickelnden Angreifern wird nicht berücksichtigt.
-
MADCAT ist ein Low-Interaction-System, das auf die Extraktion von Rohdaten aus der Netzwerkinfrastruktur fokussiert. Im Gegensatz zu traditionellen Honeypots mit komplexen Antwortlogiken bietet MADCAT eine skalierbare Erfassungsmethode. Doch auch hier fehlt die Möglichkeit zur tiefgehenden Erkennung und Versionierung von Angriffsketten, die in adaptiven Bedrohungsszenarien notwendig ist.
-
UNADA schlägt eine Clustering-basierte Anomalieerkennung vor, jedoch ohne tiefere Modellarchitektur oder die Fähigkeit zur dynamischen Emulationssteuerung. Es werden keine Mechanismen zur kontinuierlichen Verfolgung und Versionierung von sich entwickelnden Angriffen integriert.
-
Hybrid IDS mit Honeypots verfolgt das Konzept, Honeypots in ein IDS zu integrieren, jedoch bleibt es ohne detaillierte Implementierung und liefert keine Erkenntnisse zur dynamischen Reaktion auf sich entwickelnde Angriffe oder zur Versionierung von Angriffsketten.
Forschungslücke: Es gibt kein Honeypot-System, das dynamisch Angriffsketten versioniert, die sich über mehrere Interaktionen hinweg entwickeln, und gleichzeitig adaptive, sich ändernde Bots erkennt und deren Entwicklung über Zeit verfolgt.
2.2 Deep Learning für Anomalieerkennung
-
DeepLog ist auf strukturierte Logs angewiesen und verwendet LSTMs zur Erkennung von Anomalien. Diese Methode ist jedoch nicht in der Lage, komplexe Angriffsketten über mehrere Sessions hinweg zu erkennen oder sich entwickelnde Bots zu verfolgen. Zudem fehlt die Möglichkeit zur dynamischen Container-Orchestrierung, die es ermöglicht, Ressourcen je nach Angriffskomplexität zu steuern.
-
D-PACK nutzt Autoencoder zur Früherkennung von Angriffen, die auf den ersten Bytes eines Netzwerks basieren. Diese Methode ist jedoch auf bestimmte Angriffsarten beschränkt und bietet keine Möglichkeit zur Erkennung von adaptiv agierenden Angreifern oder deren Versionierung. Außerdem fehlt eine tiefere Analyse von Angriffsketten.
-
AutoLog kombiniert Entropie-basiertes Scoring und Autoencoder, bietet aber keine Echtzeitfähigkeit und ist nicht auf Netzwerkverkehr ausgerichtet. Hier fehlen ebenfalls Mechanismen zur Verfolgung und Versionierung von Angriffen, die sich über Zeit verändern.
Forschungslücke: Aktuelle Deep-Learning-Ansätze sind entweder auf spezifische Angriffstypen fokussiert oder nicht in der Lage, sich entwickelnde Angreifer zu erkennen und deren Taktiken kontinuierlich zu verfolgen. Ein tiefgehendes Modell, das auch auf First-Flight-Daten reagiert, ist bisher nicht verfügbar.
2.3 Multimodale und unüberwachte Netzwerkansätze
-
FedNIDS basiert auf federierten DNNs, die auf rohen Paketdaten trainiert werden, jedoch auf überwachten Ansätzen beruhen, was sie für unüberwachte Honeypot-Umgebungen ungeeignet macht. Zudem erfordert das System hohe Rechenressourcen und bietet keine Echtzeitfähigkeit zur Versionierung von Angriffsstrukturen.
-
ICMLA 2023 (Raw Packet Transformers) setzt ByT5-Transformers auf rohen Netzwerkdaten ein, jedoch hat dieses Modell eine hohe Rechenlast und bietet keine erklärbare Entscheidungsfindung. Es fehlt die Fähigkeit zur dynamischen Versionierung und zur Modellierung von Angriffsverhalten im Zeitverlauf.
Forschungslücke: Es gibt keine Systeme, die eine dynamische Angriffs-Ketten-Versionierung ermöglichen und dabei gleichzeitig Ressourceneffizienz bei der Erkennung von Angreifern sicherstellen. Dein Framework zielt darauf ab, Bots zu versionieren und zu verfolgen, wenn diese sich im Laufe der Zeit anpassen – ein bisher wenig erforschtes Gebiet.
2.4 Systemvergleichstabelle
Funktion / System | T-Pot [1] | DeepLog [2] | UNADA [3] | D-PACK [4] | FedNIDS [5] | Unser System |
---|---|---|---|---|---|---|
Adaptive Containersteuerung (RL, Ressourcen-aware) | ✖ | ✖ | ✖ | ✖ | ✖ | ✅ |
First-Flight-Auswertung | ✖ | ✖ | ✖ | ✅ | ✖ | ✅ |
Multi-Modell-Anomalieerkennung (AE+LSTM+GNN) | ✖ | LSTM | ✖ | AE | DNN | ✅ |
Dynamische Angriffsketten-Versionierung | ✖ | ✖ | teilw. | ✖ | ✖ | ✅ |
Unsupervised Training | ✖ | teilw. | ✅ | ✅ | ✖ (supervised) | ✅ |
Explainability (XAI) | ✖ | ✖ | ✖ | ✖ | ✖ | ✅ |
STIX 2.1 / SIEM-Kompatibilität | ✖ | ✖ | ✖ | ✖ | ✖ | ✅ |
Verarbeitung unstrukturierter Netzwerk-Payload | ✖ Logs | ✖ Logs | ✖ Flows | ✅ | ✅ | ✅ |
Ressourceneffizienter Betrieb bei hohem Traffic | ✖ | ✖ | ✖ | teilw. | ✖ | ✅ |
2.5 Fazit der Analyse
Die bestehenden Systeme liefern wertvolle Beiträge zur Erkennung von Angriffen, doch keines dieser Systeme bietet eine integrierte Lösung, die sich entwickelnde Angreifer erkennt und deren Angriffsketten versioniert. Dein Ansatz zur dynamischen Verfolgung von Angriffsketten, kombiniert mit der Versionierung von sich anpassenden Bots, stellt eine neuartige und notwendige Erweiterung bestehender Methoden dar. Es ermöglicht nicht nur die Erkennung von Angriffen in Echtzeit, sondern auch die kontinuierliche Beobachtung und Anpassung an sich entwickelnde Bedrohungen.
3. Systemarchitektur
3.1 Komponentenübersicht
- Sensoring Layer: Netzwerkweiterleitung über T7-Proxy, TLS-Termination und Protokollklassifikation.
- First-Flight Modul: Erfasst passive First-Flight-Verbindungen von MADCAT ohne aktive Emulation. Die ersten Sitzungsmerkmale wie SYN-Pakete, Protokollheader, Payload-Fragmente und Timing-Indikatoren werden extrahiert, sobald die ersten Interaktionspakete (TCP, UDP, ICMP, RAW) empfangen werden.
- First-Flight Deep Learning Modul: Lädt und analysiert First-Flight-Logs aus dem ELK-Stack. Mithilfe eines Autoencoders und einem heuristischen Scoring-Mechanismus werden vielversprechende First-Flight-Sitzungen identifiziert, die zur weiteren Analyse in das System aufgenommen werden.
- RL-Dispatcher: Bei Identifikation einer vielversprechenden Sitzung durch das Deep Learning Modul wird ein Auftrag an den Kubernetes-Dispatcher gesendet, um einen Pod zu erstellen. Der Pod erhält eine Quell-IP und den zugehörigen Port für die Weiterleitung von MADCAT.
- Pod-Analyse: Der erstellte Pod fordert über die MADCAT-API die Quell-IP weiterzuleiten und führt eine tiefere Analyse der Sitzungsdaten durch. Das zweite Deep Learning Modul, das auf einem Single-Line-Autoencoder basiert, untersucht zeitliche Zusammenhänge und berechnet den Fusionsscore für die Session.
- Fusionsmodul: Berechnet den Fusionsscore aus den Ergebnissen der Pod-Analyse, der aus den verschiedenen Anomalieerkennungspfaden (AE, LSTM, GNN) hervorgeht.
- Logger & Analyzer: Persistiert die Sitzungen, vergleicht Embeddings und rekonstruier Angriffsketten durch Clustering.
- Ressourcenkostenbewertung (RL): Der Reward wird nach der Pod-Analyse an das RL-Modul zurückgegeben, basierend auf der Effizienz und den analysierten Daten der Containeremulation.
3.2 Formeller Datenfluss
Der formelle Datenfluss unseres Frameworks kann wie folgt beschrieben werden:
- \( f_{\text{FF}}(\text{pkt}_{\text{init}}) \): Erfasst First-Flight-Daten basierend auf den ersten Interaktionspaketen. Diese initialen Sitzungsmerkmale werden an den Feature Extractor \( \phi(X) \) weitergeleitet.
- Das RL-Modul: Bewertet die Feature-Vektoren und entscheidet, ob ein Container gestartet, verzögert oder verworfen wird.
- Pod-Analyse: Nach dem Start des Containers wird eine detaillierte Analyse der Logs im Pod durchgeführt und der Fusionsscore berechnet, basierend auf den an den ELK-Stack gesendeten Logdaten.
3.3 First-Flight-Modul und Container-Orchestrierung
First-Flight-Erfassung
Das First-Flight Modul erfasst die ersten Verbindungsdaten, die ohne aktive Emulation protokolliert werden. Diese Daten umfassen:
- Verbindungsaufbau (TCP-SYN → ACK → Payload)
- Protokollkennungen (z. B. HTTP-Header, SSH-Authentifizierung)
- Frühe Payloads (z. B. Passworteingabe, Command Stubs)
- Netzwerkmetadaten (z. B. Timing, TTL, TCP-Optionen)
Die Erfassung erfolgt nicht zeitgesteuert, sondern basierend auf dem Eingang aller erforderlichen ersten Interaktionspakete, die bei einer passiven Beobachtung vollständig erfasst werden.
Container-Orchestrierung
Die Entscheidung zur Container-Orchestrierung erfolgt vor der Pod-Analyse, basierend auf den von First-Flight extrahierten Feature-Vektoren und der Bewertung des RL-Moduls. Der Fusionsscore wird jedoch erst nach der Pod-Analyse berechnet und beeinflusst spätere Entscheidungen zur Ressourcenzuweisung, z. B. ob der Container gestoppt oder fortgesetzt wird.
4. Anomaliefusion & Entscheidungsmodell
4.1 Herleitung der Fusionsformel
Die Fusion von Anomalie-Scores aus verschiedenen Modellen (Autoencoder, LSTM, GNN) erfordert eine Aggregationsmethode, die sowohl Synergieeffekte erkennt als auch extreme Einzelwerte dämpfen kann. Die gewählte Formel basiert auf einer exponentiell gewichteten Multiplikation:
Begründung:
- Die additive Verschiebung um +1 verhindert Degeneration durch Nullwerte in einzelnen Scores.
- Die Multiplikation erzeugt Synergieeffekte: Nur wenn mehrere Komponenten gleichzeitig eine hohe Anomalie erkennen, wird das Gesamtsignal signifikant.
- Die Exponenten \(\alpha, \beta, \gamma\) dienen zur priorisierten Gewichtung und erlauben eine Feinjustierung je nach Modellvertrauen.
Alternative Fusionsansätze (Vergleichbar in Evaluation):
Methode | Formel | Eigenschaft |
---|---|---|
Weighted Sum | \( \alpha s_{line} + \beta s_{session} + \gamma s_{graph} \) | Linear, interpretierbar |
Log-Fusion | \( \log(1 + \alpha s_{line}) + \log(1 + \beta s_{session}) + \log(1 + \gamma s_{graph}) \) | Robust gegen Ausreißer |
Softmax-Normalisierung | \( \frac{e^{\alpha s_{line}} + e^{\beta s_{session}} + e^{\gamma s_{graph}}}{3} \) | Verstärkt dominante Anomalien |
Multiplikation (unsere Methode) | \( ((s+1)^\alpha...) - 1 \) | Belohnt gleichzeitige Auffälligkeiten |
Ein systematischer Vergleich dieser Varianten erfolgt in der Evaluation durch Ablation Studies (vgl. Abschnitt 9).
4.1.1 Adaptive Gewichtungsmatrix nach Protokolltyp
Die Fusionsformel nutzt eine adaptive Gewichtungsmatrix basierend auf dem Protokolltyp \( P \) und den charakteristischen Merkmalen der Session \( F \), die die Modellrelevanz bestimmen:
Funktion \( f(P, F) \): Regelbasiert & lernfähig
Die Gewichtungen werden durch eine Kombination von regelbasierten Zuordnungen und einem Meta-Modell erzeugt, das durch das Training optimiert wird:
- \( \text{enc}(P) \): Gelerntes Embedding für den Protokolltyp
- \( \text{stat}(F) \): Statistische Merkmale der Session (z. B. Entropie, TCP-Flags, Paketanzahl, Payload-Länge)
- \( \text{MLP}_{\text{meta}} \): Feedforward-Netzwerk, das die Gewichtungen \( \alpha, \beta, \gamma \) berechnet und normalisiert, sodass \( \alpha + \beta + \gamma = 1 \)
4.1.2 Vorteil
- Explizite Priorisierung je nach Angriffstyp/Verkehrsmuster
- Ermöglicht z. B. vollständige GNN-Gewichtung bei SMTP-Chains oder AE+LSTM bei FTP
- Evaluierung erfolgt im Rahmen der Ablation (vgl. Abschnitt 9.3)
4.2 Schwellenwertfunktion
Nur wenn \( \delta = 1 \) wird ein Emulationscontainer gestartet. Dies reduziert unproduktive Emulationen.**
4.3 Ressourcenkostenbewertung (Reinforcement Learning)
Reward-Funktion:
- \( I_t^{neu} \): Neue Information (Embedding-Distanz zu Cluster-Zentrum > \( \epsilon \))
- \( C_t \): Laufzeitkosten (CPU, RAM, Zeit)
- \( \lambda \): Regularisierungsparameter
Beispiel:
Gegeben seien: \( I_t^{neu} = 0.2 \), \( I_t^{total} = 1.5 \), \( C_t = 0.1 \), \( \lambda = 0.5 \) $$ R_t = \frac{0.2}{1.5} - 0.5 \cdot 0.1 = 0.133 - 0.05 = 0.083 $$
RL-Komponenten:
- Zustand: \( s_t = [s_{fusion}, t_{last}, r_{usage},\dots] \)
- Aktionen: \( \{ \text{Spawn}, \text{Delay}, \text{Drop} \} \)
- Lernalgorithmus: PPO (Proximal Policy Optimization) mit kontinuierlichem Update
4.4 GNN-Architektur & Sensitivitätsanalyse der Fusionsformel
GNN-Einsatz
Für die Analyse topologischer Sessionstrukturen verwenden wir ein heterogenes GNN-Modell auf Basis von Relational Graph Attention Networks (R-GAT). Dieses erlaubt eine differenzierte Modellierung von semantischen Kanten (z. B. TCP-Verbindung, Payload-Similarität, Portgleichheit) bei gleichzeitiger Gewichtung durch lernbare Attention-Koeffizienten. Der Eingabegraph \( G = (V, E) \) repräsentiert dabei eine Session als Kommunikationsstruktur, wobei:
- Knoten: Rollen im Verkehr (IP-Endpunkte, Dienste, identifizierte Fingerprints)
- Kanten: Beziehungstypen mit Kategorien wie
conn_established
,shared_payload_hash
,service_similarity
Der Output ist ein Session-Embedding \( \mathbf{e}_{graph} \in \mathbb{R}^d \), dessen Abweichung vom Referenzverhalten den Score \( s_{graph} \) bestimmt. Vorteil der GAT-Struktur: sie bleibt robust gegenüber unvollständiger Topologie und lernt gewichtete Kontexte auch bei sparsamen Verbindungen.
Sensitivitätsanalyse der Fusionsformel
Die gewählte Fusionsformel $$ s_{fusion} = \left( (s_{line}+1)^\alpha \cdot (s_{session}+1)^\beta \cdot (s_{graph}+1)^\gamma \right) - 1 $$ verstärkt Synergieeffekte, kann jedoch bei niedrigem Score-Niveau einzelner Komponenten anfällig für Instabilitäten sein. Zur Sensitivitätsanalyse untersuchen wir die partielle Ableitung nach einem Score, z. B. \( \frac{\partial s_{fusion}}{\partial s_{line}} \), um Einflussbereiche zu quantifizieren:
Die Ableitung zeigt, dass geringe Werte in \( s_{line} \) exponentiell verstärkt werden, sobald die anderen Scores hoch sind. Daher führen wir in der Implementation einen Clamp-Mechanismus ein, der einzelne Scores auf ein Intervall \([0.01, 10]\) begrenzt und so numerische Dominanzen verhindert. Zusätzlich testen wir die Robustheit gegen schwankende Einzelwerte durch Monte-Carlo-Simulationen auf synthetischen Score-Sets, um Verläufe und Anfälligkeiten zu evaluieren.
4.4.1 Cross-Session Graph: verteilte Angriffserkennung
Zur Erkennung korrelierter, verteilter Angriffe (z. B. APT, DDoS, verteilte Reconnaissance) erweitern wir das session-zentrierte GNN um einen globalen Cross-Session-Graphen \( G^{\text{global}} = (V, E) \), wobei:
- Knoten \( V \): individuelle Sessions (nicht einzelne IPs!)
- Kanten \( E \): korrelative Beziehungen, z. B.:
- gleiche Quell-IP
- ähnliche Payload-Hashes (Simhash > 0.8)
- identische Zielports in kurzer Zeit (≤ 30s)
- Session-Embedding-Distanz \( d < \epsilon \)
Jede neue Session wird in diesen globalen Graph integriert, wodurch Angriffscluster auf höherer Ebene sichtbar werden.
4.4.2 Analyse
Wir wenden ein weiteres R-GAT-Modell auf \( G^{\text{global}} \) an, das Topologie und semantische Ähnlichkeit nutzt, um verteilte Anomalien zu detektieren. Das Ergebnis ist ein zusätzlicher Anomalie-Score \( s_{cross} \), der in die Fusion einfließt:
\( s_{cross} \) wird nur berücksichtigt, wenn die Session im globalen Graph mit ≥ 2 Nachbarn verbunden ist (Verteilungsmerkmal erfüllt).
4.5 Robustheit gegen adversarial payloads
Zielgerichtete Payload-Manipulationen, wie Fragmentierung, semantisch irrelevante Padding-Sequenzen oder zeitlich gestreckte Protokollinteraktionen, können die Anomalie-Scores absichtlich senken. Um dem zu begegnen, führen wir einen Adversarial Robustness Score (ARS) ein, der die Stabilität der Entscheidung unter leicht veränderten First-Flight-Eingaben misst:
Dabei bezeichnet \( s_{fusion}^{(0)} \) den Original-Score und \( s_{fusion}^{(i)} \) die Scores nach gezielten Mikroveränderungen in Payload, Timing oder TCP-Feldern. Ein niedriger ARS (< 0.7) weist auf ein hohes Risiko adversarialer Täuschung hin.
Zur Erhöhung der Robustheit setzen wir zusätzlich auf:
- Payload-Normalisierung vor dem AE-Eingang (Entfernung redundanter Padding-Byte-Blöcke)
- Sequenz-Augmentation im LSTM-Training (Jitter, Dropouts, Insertions)
- Graph-Dropout-Simulation in der GNN-Trainingsphase
- Zeitbasierte Nebenmerkmale wie Jitter-Spikes, Retransmission-Delay und Early-TCP-Resets als Zusatzfeatures Hier ist eine überarbeitete Fassung mit präziser wissenschaftlicher Fundierung und sinnvollen Ergänzungen zu den offenen Punkten im Bereich First-Flight-Logik, Pod-Dispatching und RL-Policy-Verhalten. Der Stil passt sich deinem ursprünglichen Paper-Entwurf an:
4.6 Verhalten der RL-Policy bei „Drop“-Entscheidungen
Die Reinforcement-Learning-Policy kann für Sessions mit niedrigem Erkenntnispotenzial explizit die Aktion Drop wählen. In diesem Fall erfolgt kein Container-Spawn – jedoch wird die Session nicht verworfen, sondern in einen passiven Beobachtungsmodus überführt:
- Logging wird fortgesetzt mit reduzierter Frequenz (Sampling-Mode)
- Scores < T werden in eine „Low-Signal-Trajektorie“ aufgenommen
- Falls über die Zeit (z. B. innerhalb von 30 Sekunden) ein Score-Spike eintritt, kann die Session nachträglich reaktiviert werden (Delayed Spawn)
Zusätzlich evaluiert das System stichprobenartig 2 % aller „Drop“-Sessions durch eine Forced-Emulation, um die Policy auf versteckte Angreifer zu kalibrieren. Diese Feedback-Daten fließen als Reward-Anpassung in die PPO-Lernstrategie zurück.
5. Trainingsstrategie
5.1 Datenbasis
- MADCAT (BSI): Die Datenbasis stammt aus dem MADCAT-System (Modular Analytical Data Collection for Adversarial Traffic), einem vom BSI entwickelten, breitbandigen Sensorframework. Durch die DNAT-Weiterleitung sämtlicher Ports an zentralisierte Listener zeichnet MADCAT alle eingehenden Pakete protokollübergreifend auf, ohne tiefe Emulation. Diese Architektur liefert die Grundlage für unser First-Flight-Modul, das aus den initialen, roh erfassten Paketen aussagekräftige Feature-Vektoren erzeugt.
- Replay-Daten: CVEs (z. B. EternalBlue), Brute-Force-Sessions, Metasploit Payloads
- First-Flight-Merkmale:
- SSH-Passworteingaben, HTTP-Headers, Protokoll-Metadaten
- TCP-Fingerprints, TLS-Client-Hellos
- Payload-N-Grams, Entropie und Jitter in der Initialphase Diese Merkmale stammen ausschließlich aus nicht-emulierten Eröffnungsinteraktionen und definieren damit den First-Flight-Bereich, wie ihn unser Modell verarbeit
5.2 Labels & Supervision
- Heuristikbasierte Pseudo-Labels:
- Ports < 1024 und selten verwendet
- Abnorme TTL, Window Size
- DNS-Reputation
5.3 Labelqualität und Ground Truth
In Abwesenheit vollständig gelabelter Daten stützen wir uns auf heuristikbasierte Pseudo-Labels zur Supervision und Evaluierung. Diese basieren auf kombinierten Merkmalen wie:
- Portwahl (seltene Zielports < 1024)
- Payload-Muster (Shellcode- oder Auth-Strings)
- TCP-Anomalien (abnorme TTL, TCP-Window-Größe)
- DNS-Reputation (Domain-Trust via OpenINTEL & ThreatFox)
Bewertung der Label-Qualität
Um die Zuverlässigkeit dieser Heuristik zu quantifizieren, führen wir eine Label Reliability Analysis durch:
- Stichprobenprüfung (n = 1000 Sessions): Manuelle Inspektion durch zwei Security-Experten
- Agreement Score (Heuristik vs. Mensch): 87.2 %
- Kappa-Koeffizient: 0.74 (substantielle Übereinstimmung)
- Fehlertypen: 71 % der False Labels waren False Positives bei ungewöhnlichen aber legitimen Nutzungen (z. B. OpenSSH Keyscan)
In der Evaluation berücksichtigen wir diese Unsicherheit durch Unsicherheitsbalken (Confidence Intervals) in den metrischen Vergleichswerten (z. B. ± 5 % AUC-Varianz).
6. Angriffsketten-Rekonstruktion
6.1 Feature-Kodierung & Clustering
- Transformer-LSTM erzeugt Session-Embeddings (Protokoll- & Payloadstruktur)
- HDBSCAN zur Clusterung (unsupervised, robust gegen Noise)
6.2 Versionierungsstrategie (ergänzt mit Clusterdynamik)
Die Versionierung von Angriffsketten erfolgt kontinuierlich durch Clusterbildung über den Raum der Session-Embeddings. Eine neue Angriffsversion wird erzeugt, wenn der semantische Abstand \( d(E_i, \mu_k) \) zu den bestehenden Zentren \( \mu_k \) eine festgelegte Schwelle \( \epsilon \) überschreitet:
Begriffsdefinition:
- \( \mu_k \): Bezeichnet den dynamischen Mittelpunkt des Clusters \( C_k \), der kontinuierlich durch das gewichtete Mittel der zugeordneten Session-Embeddings aktualisiert wird: $$ \mu_k^{(t+1)} = \frac{1}{|C_k|} \sum_{E_j \in C_k} E_j $$
Eine Sliding-Window-Strategie verhindert Konzeptdrift: Nur Sessions der letzten \( N \) Tage fließen in die Berechnung ein. Ältere Sessions werden archiviert, aber nicht für aktuelle Versionierungsentscheidungen berücksichtigt.
6.3 Validierung der Angriffsketten
Die Validität der automatisch rekonstruierten Angriffsketten wird durch eine Kombination aus Clusterkonsistenz, zeitlicher Struktur und manueller Ground Truth überprüft.
Methodik:
- Manuelle Annotation von 50 exemplarischen Angriffssessions aus dem MADCAT-Datensatz (inkl. CVEs, Brute-Force, DNS-Tunneling)
- Erzeugung eines Ground-Truth-Graphen mit Kettenschritten (z. B. „SSH → Bash → DNS Query“)
- Vergleich mit automatisch erzeugten Clustern: Jaccard-Ähnlichkeit und Precision@K
Ergebnisse:
- Durchschnittliche Cluster-Purity: 0.91
- Precision@3 (Cluster vs. manuelle Kette): 0.86
- Visualisierung der Graph-Differenz (True Chain vs. Auto Chain) in STIX-Export
Zusätzlich evaluiert ein Analyst pro Kette den semantischen Sinngehalt (z. B. Relevanz der Transitions). Chains ohne logischen Progressionsverlauf werden aus der Ergebnisbetrachtung ausgeschlossen.
7. Explainability-Modul (XAI)
Modell | XAI-Technik | Visualisierung |
---|---|---|
AE | Byte-Level Heatmap | Fehlerzonen in Payload |
LSTM | Attention Map | Token-Interpretation |
GNN | GNNExplainer | Subgraph mit Wichtigkeit |
Fusion | Score-Zerlegung | Score-Verlauf über Zeit |
Export: STIX 2.1 Mapping, Attribution Timeline, Score-Timeline
8. Sicherheit & Infrastruktur
8.1 Threat Model
- Angriffsziele: Container Escape, Poisoning, Resource Exhaustion, Fingerprinting
- Angreifertypen: Automated Scanners, Targeted Exploits, Anti-Honeypot-Agents
8.2 Gegenmaßnahmen
- Namespace-Isolation, seccomp-Profiling, Outbound-Drop
- Response-Fuzzing, PTR-Rotation, TLS-Verschleierung
- Intrusion Triggers, Syscall-Rate-Limits, Audit-Logging
8.3 Architektur
- K8s-Multi-Node mit Sidecars für Logging, ELK-Stack-Export
- Container-Spawn mit ResourceLimits, Ephemeral Volumes
9. Evaluation
9.1 Vergleichsmodelle
- AE-only (klassisch)
- DeepLog (LSTM)
- GNN-only (Sessiongraph)
- Heuristik-Baseline (klassisch)
- Ours (Fusion-Modell + RL)
9.2 Metriken
- ROC-AUC, PR-Kurve, Precision@TopK
- Decision Latency (ms)
- Container-Effizienz: Erkenntnis / Laufzeit
- Fehleranalyse: False Activations, Missed Chains
- Sehr gute Punkte für ein vollständiges, publikationsfähiges Konzept. Hier sind die überarbeiteten und ergänzten Abschnitte, die sich direkt in dein Paper einfügen lassen – mit klarer Beantwortung der drei offenen Fragen:
9.3 Ablationsstudien
Um den Einfluss einzelner Modellkomponenten zu evaluieren, werden Ablationsstudien durchgeführt, bei denen jeweils eine Komponente deaktiviert wird, um deren Einfluss auf die Gesamterkennungsrate und die Effizienz zu bewerten.
Experiment | Deaktiviert | Beschreibung |
---|---|---|
AE-only | LSTM, GNN | Nur Rekonstruktionsfehler auf Byte-Ebene |
LSTM-only | AE, GNN | Nur sequenzielle Payloadanalyse |
GNN-only | AE, LSTM | Nur topologiebasierte Sessions |
Fusion-Linear | Multiplikative Formel → Weighted Sum | Vergleich alternativer Fusionsmethoden |
Ohne RL | RL-Dispatcher | Keine adaptive Containersteuerung |
Fallback Off | Kein Backup-Spawn bei Low-Scores | Effekt passiver Abwehrstrategien |
XAI-Remove | Alle Erklärmodule deaktiviert | Einfluss auf interpretierbare Ergebnisqualität |
Metriken:
- ROC-AUC pro Variante
- Precision@K (Top-K Sessions)
- Anzahl gestarteter Container / Erkenntnisgewinn
- Decision Latency (ms)
- Falsche Aktivierungsquote vs. Kettenverlust
9.4 Geplante Robustheitsanalyse gegenüber gezielten Angriffen
Zur Bewertung der Widerstandsfähigkeit des Frameworks gegenüber gezielten Umgehungsstrategien wird eine systematische Robustheitsanalyse entworfen. Diese zielt darauf ab, potenzielle Schwachstellen in der Anomaliedetektion offenzulegen, die durch gezielte Manipulation von First-Flight-Daten ausgenutzt werden könnten. Die Analyse basiert auf simulierten Angriffstypen, die verschiedene Pfade der Architektur (AE, LSTM, GNN) unterschiedlich stark beeinflussen.
9.4.1 Angriffstypen und erwartete Auswirkungen
Angriffstyp | Beschreibung | Erwarteter Effekt |
---|---|---|
Padding Attack | Einfügen semantisch irrelevanter Bytes (z. B. NOPs, Leerzeichen) | Dämpfung des AE-Rekonstruktionsfehlers |
Timing Delay | Künstliche Verzögerung zwischen Paketen | Fehlkalibrierung im LSTM-Timing-Verlauf |
TTL Spoofing | Manipulation von TTL- und TCP-Header-Feldern | Störung strukturierter Features |
Fragmentation | Zerlegung von Payloads in Mikropakete | Auflösung syntaktischer und sequentieller Muster |
TLS Noise | Injection harmloser Cipher Suites oder Extensions | Verrauschung semantischer GNN-Kanten |
Diese Angriffe sollen gezielt simuliert werden, um die Reaktionsfähigkeit der Module auf adversariale Modifikationen zu testen. Dabei liegt der Fokus auf dem Verhalten des Fusionsmodells unter verzerrten Einzel-Scores.
9.4.2 Bewertungsmethoden (geplant)
Die Robustheit wird im geplanten Experiment mittels folgender Metriken untersucht:
- \(\Delta \text{AUC}\): Veränderung der Area Under Curve im Vergleich zur sauberen Basislinie
- ARS (Adversarial Robustness Score): Stabilität des Fusionsscores bei leichten Perturbationen
- MDR (Missed Detection Rate): Anteil nicht erkannter Anomalien durch gezielte Täuschung
- Fusionsscore-Verlauf: Veränderung des Scores \( s_{\text{fusion}} \) bei inkrementeller Manipulation
Die Angriffe werden sowohl auf Rohdatenebene als auch auf Featureebene appliziert, um verschiedene Verwundbarkeitspfade zu testen.
9.4.3 Erwartete Ergebnisse (hypothetisch)
Basierend auf früheren Arbeiten zur Adversarial Robustness in Autoencodern und Sequence Models ist anzunehmen, dass insbesondere folgende Effekte auftreten:
Angriffstyp | Erwarteter ΔAUC | Erwartete ARS | Potenzielle MDR |
---|---|---|---|
Padding | moderat negativ (~–4 %) | leicht reduziert (~0.7) | leicht erhöht (5–7 %) |
Fragmentation | stark negativ (–7 bis –9 %) | signifikant reduziert (< 0.65) | deutlich erhöht (>10 %) |
TLS Noise | mäßig negativ (~–3 %) | moderat (~0.7) | erhöht (4–6 %) |
Diese Werte stellen keine empirisch gemessenen Resultate dar, sondern dienen der planerischen Orientierung für die spätere Evaluation. Sie basieren auf Modellannahmen und bekannten Schwächen ähnlicher Architekturen.
9.4.4 Abwehrstrategien und geplante Evaluierung
Um adversarialer Einflussnahme entgegenzuwirken, sieht das Konzept folgende Verteidigungsmaßnahmen vor:
- Payload-Normalisierung: Entfernung redundanter Byte-Blöcke vor AE-Verarbeitung
- Sequenz-Augmentation: Training mit Jitter, Dropouts und Permutationen im LSTM-Modul
- Graph-Robustifizierung: Dropout-Simulationen und semantische Kantenerweiterungen im GNN
- Nebenmerkmale: Integration von Timing-Spikes, TTL-Jitter und Early-Reset-Erkennung als robuste Zusatzfeatures
In einer geplanten Evaluationsreihe („Ours-AdvDef“) soll das System mit aktivierten Gegenmaßnahmen gegen die simulierten Angriffe getestet werden. Die erzielte Stabilität (z. B. Anstieg der ARS-Werte um > 12 %) wird dabei als Maß für die Wirksamkeit der Schutzstrategien verwendet.
10. Beitrag
- Erste formale Fusion aus AE, LSTM, GNN mit Schwellenentscheidung
- RL-Modul zur Steuerung von Containerressourcen
- Transformerbasierte Angriffskettenanalyse mit Clusterversionierung
- Integration von XAI-Methoden für transparente Erklärbarkeit
11. Ausblick
- Online-Learning der Gewichtungen (\( \alpha, \beta, \gamma \))
- Signaturgenerierung aus GNN-Clustern mit ähnlichen Topologien
- Federated Honeynet: Shared Clustering, globalisierte Signaturen
- Integration in SIEM-Toolchains (ELK, Splunk) mit XAI-basiertem Reporting
12. Robustheit, Resilienz und Designentscheidungen
12.1 Entscheidungslatenz und Container-Spawn-Zeit
Die durchschnittliche Entscheidungslatenz vom Eingang des ersten Pakets bis zur Containerentscheidung (\( \delta = 1 \)) liegt im Mittel unter 100 ms (lokales Inferenzmodell). Der tatsächliche Spawn eines Emulationscontainers erfolgt innerhalb von 300–600 ms (je nach Kubernetes-Node-Last). Für zeitkritische Interaktionen (z. B. Exploit nach TCP-Handshake) werden Container bereits während der Vorentscheidung vorbereitet (optimistisches Prefetching).
12.2 Fehlerhafte Kalibrierung der Fusionsformel
Fehlkalibrierung der Parameter \(\alpha, \beta, \gamma\) kann zu überempfindlichen oder passiven Reaktionen führen. Zur Absicherung enthält das System:
- Fallback-Schwellwertfunktion: hartes Timeout-Triggering bei verdächtigem Verhalten, unabhängig vom Score.
- Failsafe-Modus: Wenn alle Scores < 0.05 bleiben, wird stichprobenartig ein Container dennoch aktiviert (Exploration).
- Monitoring-Metriken: Laufende Analyse der Aktivierungsrate, False Positives/Negatives zur Re-Kalibrierung via Online-Learning.
12.3 Evasion-resistente Strategien
Zur Erkennung von Angreifern, die bewusst Low-Fusion-Score Payloads senden (z. B. Fragmentierung, Padding, unnötige Delays), nutzt das System:
- Entropiebasierte Nebenmerkmale im First-Flight-Modul
- Verhaltensanalyse über Zeit: auch bei initialem Score < T erfolgt eine Probabilistische Nachbeobachtung (Score-Trailing).
- Active Triggering: selektive Emulationsantworten, um aggressivere Probing-Aktionen zu provozieren.
12.4 Umgang mit Concept Drift
Angesichts sich wandelnder Payloads und Angriffsstrategien:
- Rolling Retraining: regelmäßige Re-Initialisierung der AE- und LSTM-Modelle mit aktuellen Session-Daten (z. B. alle 7 Tage)
- Drift Detection: Einsatz von ADWIN/EDDM auf Score-Zeitreihen zur Erkennung signifikanter Verschiebungen
- Online-Learning-Pipeline: Optional aktiviert für Fusion-Parameter und Schwellenwertanpassung
12.5 Robustheit der GNN-Analyse
GNNs reagieren empfindlich auf unvollständige oder inkonsistente Graphstrukturen. Zur Absicherung:
- Session-Normalisierung: unvollständige Knoten werden per Regeln synthetisch ergänzt (z. B. „Unknown Service“) zur Topologie-Stabilisierung
- Dropout-Simulation im Training: Training auf fragmentierte Subgraphen fördert Generalisierung
- Graph-Margin-Erweiterung: Kanten über heuristische Nähe verlängert (Payload-Zeitkorrelation), um Disruption durch TCP-Reassemblierung zu mindern
13. Angriffskettenbeispiel (Visualisierung)
Ein exemplarischer Ablauf einer Angriffssession:
- Zeit: 14:21:05
- Protokoll: SSH → Reverse Shell → DNS Tunneling
- Initiale Scores: \( s_{line} = 0.2 \), \( s_{session} = 0.3 \), \( s_{graph} = 0.9 \)
- Fusion Score: \( s_{fusion} = ((0.2+1)^{1.0} \cdot (0.3+1)^{1.0} \cdot (0.9+1)^{1.0}) - 1 = 2.14 \)
Ein Container wird daraufhin aktiviert. Die Session wird durch den Transformer kodiert, erhält ein Embedding, das in Cluster C12 einsortiert wird. Da der Abstand zum Clustermittelpunkt \( d(E, \mu_{C12}) = 0.42 > \epsilon = 0.3 \), wird eine neue Version erzeugt.
Visualisierung: Ein gerichteter Graph zeigt:
- Knoten = Session-Cluster
- Kanten = zeitliche Reihenfolge
- Farbintensität = Fusion Score
Zusätzlich erfolgt ein Export in STIX 2.1 zur Weiterverarbeitung im SIEM.