Durch die Vielzahl von Onlineshops und Fülle an Angeboten verliert der Onlinekäufer schnell die Übersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das günstigste Angebot im Netz zu finden. Die Gewährleistung der möglichst vollständigen Markttransparenz ist eine grundlegende Herausforderung für idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollständigkeit zu überprüfen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist.

Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von über 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden können.

Leseprobe

Inhaltsverzeichnis

1. Die Welt der Preisvergleichsportale

1.1 Der Onlinehandel von heute

1.2 Das Preisvergleichsportal idealo

1.3 Das Ziel des Bachelorprojektes

1.4 Die Microservice-Architektur des Scout-Softwaresystems

2. Die Extraktion produktspezifischer Daten

2.1 Die technischen Anforderungen an den Parser

2.2 Die Positionsbestimmung der Produktattribute

2.3 Die Architektur des Parsers

2.4 Die Erstellung der Selektoren

3. Die Genauigkeitsmessung des Extraktionsalgorithmus

3.1 Die Testdaten der Evaluierung

3.2 Die Messergebnisse

3.3 Mögliche Fehlerquellen der Messungen

4. Der Ausblick und das Fazit

Zielsetzung & Themen

Diese Arbeit zielt auf die Konzeption und Entwicklung eines Software-Systems zur automatisierten Bestandsanalyse für Partner des Preisvergleichsportals idealo ab, um fehlende Angebote im Produktkatalog systematisch zu identifizieren.

Analyse der Marktsituation im E-Commerce und Bedeutung von Preisvergleichsportalen.
Entwicklung eines shop-spezifischen Parser-Moduls mittels maschineller Lernverfahren.
Definition von Anforderungen an Datenextraktion und Selektor-Architekturen.
Methodische Evaluation der Genauigkeit (Precision und Accuracy) des Extraktionsalgorithmus.
Optimierung von Extraktionsregeln zur Steigerung der Datenqualität für nachgelagerte Matching-Prozesse.

Auszug aus dem Buch

2.4 Die Erstellung der Selektoren

Um einen Selektor zu erstellen muss zunächst ein konkretes Element der DOM-Hierarchie bestimmt werden. Dieses Element wird von dem Shop Rules Generator (SRG) in einem vorherigen Schritt ermittelt und stellt den Fundort für ein gewünschtes Produktattribut dar. Es wird zwischen den folgenden drei Knotentypen unterschieden: Textknoten, Beschreibungsknoten und Datenknoten. QUELLTEXT 2.4 enthält jeweils ein Beispiel für alle Knotentypen. Der gesuchte Wert ist in diesem Fall die Produkteigenschaft EAN mit dem Produktattribut 9332721000108.

Textknoten sind Elemente, bei denen das gewünschte Produktattribut innerhalb eines Tag-Paars steht. Das Attribut ist somit ein sichtbarer Bestandteil der Browservisualisierung. Zu den Beschreibungsknoten gehören die Elemente, bei denen das gesuchte Produktattribut innerhalb der Attributliste des Elementes vorkommt. Dieses Attribut ist im Gegensatz zum Textknoten kein sichtbarer Bestandteil der Visualisierung.

Zusammenfassung der Kapitel

1. Die Welt der Preisvergleichsportale: Einführung in die Relevanz des Onlinehandels und die Rolle von idealo bei der Herstellung von Markttransparenz durch automatisierte Analysen.

2. Die Extraktion produktspezifischer Daten: Detaillierte Erläuterung der technischen Anforderungen, der Architektur des Parser-Moduls und der Strategien zur datengetriebenen Regelerstellung für verschiedene Onlineshops.

3. Die Genauigkeitsmessung des Extraktionsalgorithmus: Präsentation der Evaluierungsergebnisse unter verschiedenen Konfigurationen und Diskussion der erreichten Genauigkeit im Hinblick auf Precision und Accuracy.

4. Der Ausblick und das Fazit: Zusammenfassende Bewertung der Projektergebnisse sowie Darlegung von Potenzialen für zukünftige Optimierungen der Parser-Logik und der Regelgenerierung.

Schlüsselwörter

Preisvergleich, Datenextraktion, Onlinehandel, Parser, Maschinelles Lernen, DOM-Hierarchie, Markttransparenz, E-Commerce, Microservice-Architektur, Selektor, Precision, Accuracy, Bestandsanalyse, Web-Scraping, Qualitätssicherung.

Häufig gestellte Fragen

Worum geht es in dieser Bachelorarbeit grundsätzlich?

Die Arbeit befasst sich mit der Entwicklung einer Software, die in der Lage ist, automatisch Produktinformationen aus verschiedenen Onlineshops zu extrahieren, um den Bestand von idealo auf Vollständigkeit zu prüfen.

Was sind die zentralen Themenfelder der Arbeit?

Die Schwerpunkte liegen auf der Web-Datenextraktion, der Architektur von Parser-Systemen, der Anwendung von maschinellem Lernen zur Regelerstellung und der statistischen Evaluierung von Extraktionsgenauigkeit.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist die automatisierte Bestandsanalyse für Vertragspartner von idealo, um fehlende Angebote im Katalog zu identifizieren und die Markttransparenz zu erhöhen.

Welche wissenschaftliche Methode wird zur Extraktion verwendet?

Es wurde ein shop-spezifischer Ansatz verfolgt, der mittels maschineller Lernverfahren und definierter Extraktionsregeln (Selektoren) Daten aus HTML-Strukturen und JSON-Objekten extrahiert.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die technische Konzeption des Parsers, die Definition von Selektortypen (Text-, Beschreibungs- und Datenknoten) sowie die quantitative Messung der Extraktionsgüte.

Welche Schlüsselwörter charakterisieren die Arbeit am besten?

Kernbegriffe sind Preisvergleich, Datenextraktion, Parser, Precision, Accuracy und maschinelles Lernen.

Warum spielt die Unterscheidung der Knotentypen eine so wichtige Rolle?

Die Unterscheidung in Text-, Beschreibungs- und Datenknoten ist essenziell, da die Daten je nach Shop-Implementierung an unterschiedlichen Stellen im DOM-Baum oder in JSON-Skripten hinterlegt sind.

Welche Auswirkung hat der gewählte Filterschwellwert F auf die Ergebnisse?

Ein höherer Filterschwellwert reduziert die Anzahl der extrahierten Daten (Accuracy sinkt), steigert jedoch die Zuverlässigkeit der gefundenen Werte (Precision steigt), was eine wichtige Balance für das nachfolgende Matching darstellt.

Warum wurde die Microservice-Architektur für das System gewählt?

Diese Architektur erlaubt die Entwicklung logisch gekapselter Komponenten (Crawler, Parser, Matcher), die sich unabhängig voneinander skalieren und einfach erweitern lassen.

Ende der Leseprobe aus 24 Seiten - nach oben

Details

Titel: Maschinelles Lernen im Onlinehandel
Untertitel: Eine Extraktion produktspezifischer Daten
Hochschule: Universität Potsdam (Hasso Plattner Institut)
Note: 1.0
Autor: Leonardo Hübscher (Autor:in)
Erscheinungsjahr: 2018
Seiten: 24
Katalognummer: V448663
ISBN (eBook): 9783668833579
ISBN (Buch): 9783668833586
Sprache: Deutsch
Schlagworte: Machine Learning Maschinelles Lernen E-Commerce Idealo Produkterfassung Preisvergleichsportal Java
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Leonardo Hübscher (Autor:in), 2018, Maschinelles Lernen im Onlinehandel, München, GRIN Verlag, https://www.grin.com/document/448663

Maschinelles Lernen im Onlinehandel

Eine Extraktion produktspezifischer Daten