Phishing is a form of identity theft that combines social engineering techniques and sophisticated attack vectors to fraudulently gain confidential information of unsuspecting consumers. To prevent successful phishing attacks, there are several approaches to detect and block phishing emails. In this work, we apply a number of modern transformer based machine learning methods for phishing email detection.

Typically, phishing messages imitate trustworthy sources and request information via some form of electronic communication. The most frequent attack route is via email where phishers often try to persuade the email recipients to perform an action. This action may involve revealing confidential information (e.g. passwords) or inadvertently providing access to their computers or networks (e.g. through the installation of malicious software).

Excerpt

Inhaltsverzeichnis

1 Introduction

1.1 Motivation

1.2 Research Objective

1.3 Research Approach

2 Related Work

3 Modern NLP Approaches

3.1 Transformers

3.2 BERT

3.3 RoBERTa

3.4 XLNet

3.5 ALBERT

3.6 DistilBERT

3.7 ELECTRA

3.8 MobileBERT

4 Data and Methodology

4.1 The IWSPA-AP Dataset

4.2 Data Preprocessing for Classic NLP Methods

4.3 Splitting and Oversampling

4.4 Model Selection

4.5 Performance Metrics

5 Results

5.1 Results of classic machine learning models

5.2 Results of modern NLP models

6 Discussion

7 Conclusion

Zielsetzung & Themen

Die vorliegende Masterarbeit untersucht die Anwendbarkeit moderner Natural Language Processing (NLP) Einbettungsmethoden zur Identifizierung von Phishing-E-Mails. Dabei wird der Frage nachgegangen, ob auf Transformatoren basierende Modelle wie BERT eine höhere Erkennungsleistung erzielen als klassische Machine-Learning-Verfahren, und wie diese modernen Modelle für eine präzise Klassifizierung zwischen legitimen Nachrichten und Phishing-Versuchen optimal gestaltet und trainiert werden sollten.

Vergleich von modernen NLP-Embeddings (BERT, RoBERTa, etc.) mit klassischen Ansätzen (TF-IDF, Doc2Vec).
Analyse der Auswirkungen verschiedener Trainings-Szenarien (unbalancierte vs. balancierte Datensätze).
Untersuchung architektonischer Einflüsse (Modellgröße, Anzahl der Layer) auf die Klassifikationsleistung.
Evaluierung der Leistungsfähigkeit anhand von Metriken wie Accuracy, F1-Score und Balanced Accuracy.
Optimierung von Hyperparametern und Trainingsstrategien für die Phishing-Erkennung.

Auszug aus dem Buch

3.1 Transformers

The central component of all modern NLP embedding approaches presented in this work is the advanced processing of natural language through transformers (Vaswani et al. 2017). Transformers were originally developed to perform machine translation. The attention mechanism (Bahdanau et al. 2014) is a core element of transformers. The idea of attention is to output numerical vectors for each word that depend on the relevant context for that word. Figure 1 illustrates the architecture of the transformer model.

Transformers are based on an encoder-decoder architecture. The encoder’s role is to generated encodings of the input sequence that contain information about which parts of the inputs are relevant to each other. In contrast to the encoder, the decoder takes all the encodings and processes them using their incorporated contextual information to generate an output sequence. Originally, one transformer block consists of a stack of six encoders and six decoders. Each encoder contains two sublayers: one multi-head self-attention layer and one fully connected feed-forward network (FFN). Each decoder contains three sub-layers: one masked multi-head self-attention layer, one additional layer that performs multi-head self-attention over the encoder outputs and one fully connected FFN. Each sublayer in encoder and decoder has residual connections followed by layer normalization.

Zusammenfassung der Kapitel

1 Introduction: Einführung in das Thema Phishing und die Motivation, moderne NLP-Methoden für die E-Mail-Klassifizierung zu evaluieren.

2 Related Work: Überblick über existierende Ansätze zur Phishing-Erkennung, von einfachen Blacklists bis hin zu klassischen Machine-Learning-Verfahren.

3 Modern NLP Approaches: Detaillierte technische Beschreibung von Transformer-basierten Modellen wie BERT, RoBERTa, XLNet und deren Varianten.

4 Data and Methodology: Beschreibung des IWSPA-AP Datensatzes, der Vorverarbeitungsschritte und der methodischen Vorgehensweise zur Modell-Evaluation.

5 Results: Präsentation und Vergleich der experimentellen Ergebnisse der verschiedenen Machine-Learning- und NLP-Modelle.

6 Discussion: Kritische Reflexion der gewählten Validierungsstrategien, Hyperparameter und methodischen Einschränkungen.

7 Conclusion: Fazit zur Überlegenheit moderner NLP-Methoden bei der Phishing-Erkennung und Empfehlungen für zukünftige Forschungsarbeiten.

Schlüsselwörter

Phishing-Erkennung, NLP, BERT, Transformer, Machine Learning, Künstliche Intelligenz, E-Mail-Sicherheit, Textklassifizierung, Deep Learning, Datensatz-Balancierung, Modell-Architektur, Knowledge Distillation, Sprachmodellierung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit untersucht den Einsatz moderner Natural Language Processing (NLP) Einbettungsmethoden, um Phishing-E-Mails präzise von legitimen E-Mails zu unterscheiden.

Was sind die zentralen Themenfelder?

Die zentralen Themen umfassen die Anwendung von Transformer-Architekturen, den Vergleich klassischer und moderner Klassifizierungsansätze sowie die Optimierung von Trainingsdaten durch Resampling-Techniken.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Hauptziel ist es zu klären, ob moderne NLP-Modelle (wie BERT) eine höhere Performance bei der Phishing-Erkennung erreichen als klassische Machine-Learning-Verfahren, und welche Design-Parameter diese Modelle beeinflussen.

Welche wissenschaftliche Methode wird verwendet?

Es werden verschiedene moderne NLP-Modelle (BERT, RoBERTa, XLNet, ALBERT, DistilBERT, ELECTRA, MobileBERT) mit klassischen Baselines auf dem IWSPA-AP Datensatz unter variierenden Trainingsbedingungen (balanciert/unbalanciert) experimentell verglichen.

Was wird im Hauptteil behandelt?

Der Hauptteil behandelt die theoretischen Grundlagen der Transformer-Modelle, das methodische Vorgehen bei der Datenaufbereitung, das Training der Modelle und die detaillierte Auswertung der Ergebnisse anhand verschiedener Performance-Metriken.

Welche Schlüsselwörter charakterisieren die Arbeit?

Zu den wichtigsten Begriffen zählen Phishing-Erkennung, Transformer, BERT, Deep Learning, E-Mail-Sicherheit und Textklassifizierung.

Wie unterscheidet sich RoBERTa von BERT in dieser Studie?

RoBERTa zeigte in den Experimenten eine besonders hohe Leistungsfähigkeit und konnte in den durchgeführten Tests die besten Ergebnisse erzielen, was auf die optimierte Trainingsmethodik und größere Datenbasis zurückzuführen ist.

Warum ist das "Oversampling" für die Datensätze relevant?

Da der verwendete Datensatz ein starkes Ungleichgewicht zwischen legitimen und Phishing-E-Mails aufwies, wurde Oversampling genutzt, um das Modell nicht auf die Majoritätsklasse zu biasen und so die Validität der Ergebnisse zu erhöhen.

Welche Rolle spielt die GPU beim Training der Modelle?

Aufgrund der hohen Anzahl an Parametern der untersuchten NLP-Modelle ist ein GPU-Training (hier: Tesla T4) zwingend erforderlich, um die Rechenzeiten in einem praktikablen Rahmen zu halten.

Was sind die Hauptergebnisse bezüglich der Modellgröße?

Die Ergebnisse deuten darauf hin, dass Modelle mit mehr Layern und Parametern tendenziell eine bessere Klassifikationsleistung erzielen, wobei jedoch auch die Menge der Pre-training-Daten eine kritische Rolle spielt.

Excerpt out of 59 pages - scroll top

Details

Title: Phishing Detection with Modern NLP Approaches
College: University of Ulm
Grade: 1,3
Author: Christian Schmid (Author)
Publication Year: 2020
Pages: 59
Catalog Number: V999799
ISBN (eBook): 9783346413048
Language: German
Tags: phishing detection modern approaches
Product Safety: GRIN Publishing GmbH

Quote paper: Christian Schmid (Author), 2020, Phishing Detection with Modern NLP Approaches, Munich, GRIN Verlag, https://www.grin.com/document/999799

Phishing Detection with Modern NLP Approaches