Durch die Vielzahl von Onlineshops und Fülle an Angeboten verliert der Onlinekäufer schnell die Übersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das günstigste Angebot im Netz zu finden. Die Gewährleistung der möglichst vollständigen Markttransparenz ist eine grundlegende Herausforderung für idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollständigkeit zu überprüfen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist.

Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von über 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden können.

Excerpt

Inhaltsverzeichnis

Zusammenfassung
1. Die Welt der Preisvergleichsportale
- 1.1 Der Onlinehandel von heute
- 1.2 Das Preisvergleichsportal idealo
- 1.3 Das Ziel des Bachelorprojektes
- 1.4 Die Microservice-Architektur des Scout-Softwaresystems
2. Die Extraktion produktspezifischer Daten
- 2.1 Die technischen Anforderungen an den Parser
- 2.2 Die Positionsbestimmung der Produktattribute
- 2.3 Die Architektur des Parsers
- 2.4 Die Erstellung der Selektoren
3. Die Genauigkeitsmessung des Extraktionsalgorithmus
- 3.1 Die Testdaten der Evaluierung
- 3.2 Die Messergebnisse
- 3.3 Mögliche Fehlerquellen der Messungen
4. Der Ausblick und das Fazit

Zielsetzung und Themenschwerpunkte

Das Ziel des Bachelorprojektes war die Entwicklung einer Softwarelösung, die eine automatisierte Bestandsanalyse für Onlinehändler, die mit dem Preisvergleichsportal idealo zusammenarbeiten, ermöglicht. Diese Software, Scout genannt, soll fehlende Angebote im Produktkatalog von idealo identifizieren und so zur Verbesserung der Markttransparenz beitragen.

Automatisierung der Bestandsanalyse für Onlinehändler
Verbesserung der Markttransparenz durch Identifizierung fehlender Angebote
Extraktion produktspezifischer Daten aus Webseiten von Onlinehändlern
Entwicklung eines shop-spezifischen Parsers mit maschinellem Lernen
Evaluierung der Genauigkeit des Extraktionsalgorithmus

Zusammenfassung der Kapitel

Kapitel 1 führt in die Welt der Preisvergleichsportale ein und beleuchtet die Herausforderungen des Onlinehandels im Kontext der steigenden Produktvielfalt und der Notwendigkeit der Markttransparenz. Das Projekt Scout wird vorgestellt, das die Vollständigkeit des idealo-Produktkatalogs überprüfen soll.
Kapitel 2 widmet sich der Extraktion produktspezifischer Daten aus den Webseiten von Onlinehändlern. Der shop-spezifische Ansatz wird beschrieben, der individuelle Regeln für die Extraktion von Informationen wie Produktname, Preis oder EAN nutzt. Das Projektteam entschied sich gegen shop-unspezifische Ansätze basierend auf Standards wie Schema.org, da die Einhaltung dieser Standards in der Praxis oft unzureichend ist.
Kapitel 3 beschreibt die Evaluierung des entwickelten Extraktionsalgorithmus. Die Messungen zeigen, dass der Algorithmus eine hohe Präzision erreichen kann, wobei allerdings nicht alle Produktattribute extrahiert werden können. Die Ergebnisse liefern wichtige Erkenntnisse für die Weiterentwicklung des Parsers.

Schlüsselwörter

Die Arbeit befasst sich mit den Themen Preisvergleichsportale, Markttransparenz, Datenextraktion, Shop-spezifischer Parser, maschinelles Lernen, Evaluierung, Accuracy, Precision, Levenshtein-Distanz.

Excerpt out of 24 pages - scroll top

Details

Title: Maschinelles Lernen im Onlinehandel
Subtitle: Eine Extraktion produktspezifischer Daten
College: University of Potsdam (Hasso Plattner Institut)
Grade: 1.0
Author: Leonardo Hübscher (Author)
Publication Year: 2018
Pages: 24
Catalog Number: V448663
ISBN (eBook): 9783668833579
ISBN (Book): 9783668833586
Language: German
Tags: Machine Learning Maschinelles Lernen E-Commerce Idealo Produkterfassung Preisvergleichsportal Java
Product Safety: GRIN Publishing GmbH

Quote paper: Leonardo Hübscher (Author), 2018, Maschinelles Lernen im Onlinehandel, Munich, GRIN Verlag, https://www.grin.com/document/448663

Maschinelles Lernen im Onlinehandel

Eine Extraktion produktspezifischer Daten