Durch die Vielzahl von Onlineshops und Fülle an Angeboten verliert der Onlinekäufer schnell die Übersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das günstigste Angebot im Netz zu finden. Die Gewährleistung der möglichst vollständigen Markttransparenz ist eine grundlegende Herausforderung für idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollständigkeit zu überprüfen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist.
Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von über 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden können.
Inhaltsverzeichnis
- Zusammenfassung
- 1. Die Welt der Preisvergleichsportale
- 1.1 Der Onlinehandel von heute
- 1.2 Das Preisvergleichsportal idealo
- 1.3 Das Ziel des Bachelorprojektes
- 1.4 Die Microservice-Architektur des Scout-Softwaresystems
- 2. Die Extraktion produktspezifischer Daten
- 2.1 Die technischen Anforderungen an den Parser
- 2.2 Die Positionsbestimmung der Produktattribute
- 2.3 Die Architektur des Parsers
- 2.4 Die Erstellung der Selektoren
- 3. Die Genauigkeitsmessung des Extraktionsalgorithmus
- 3.1 Die Testdaten der Evaluierung
- 3.2 Die Messergebnisse
- 3.3 Mögliche Fehlerquellen der Messungen
- 4. Der Ausblick und das Fazit
Zielsetzung und Themenschwerpunkte
Das Ziel des Bachelorprojektes war die Entwicklung einer Softwarelösung, die eine automatisierte Bestandsanalyse für Onlinehändler, die mit dem Preisvergleichsportal idealo zusammenarbeiten, ermöglicht. Diese Software, Scout genannt, soll fehlende Angebote im Produktkatalog von idealo identifizieren und so zur Verbesserung der Markttransparenz beitragen.
- Automatisierung der Bestandsanalyse für Onlinehändler
- Verbesserung der Markttransparenz durch Identifizierung fehlender Angebote
- Extraktion produktspezifischer Daten aus Webseiten von Onlinehändlern
- Entwicklung eines shop-spezifischen Parsers mit maschinellem Lernen
- Evaluierung der Genauigkeit des Extraktionsalgorithmus
Zusammenfassung der Kapitel
- Kapitel 1 führt in die Welt der Preisvergleichsportale ein und beleuchtet die Herausforderungen des Onlinehandels im Kontext der steigenden Produktvielfalt und der Notwendigkeit der Markttransparenz. Das Projekt Scout wird vorgestellt, das die Vollständigkeit des idealo-Produktkatalogs überprüfen soll.
- Kapitel 2 widmet sich der Extraktion produktspezifischer Daten aus den Webseiten von Onlinehändlern. Der shop-spezifische Ansatz wird beschrieben, der individuelle Regeln für die Extraktion von Informationen wie Produktname, Preis oder EAN nutzt. Das Projektteam entschied sich gegen shop-unspezifische Ansätze basierend auf Standards wie Schema.org, da die Einhaltung dieser Standards in der Praxis oft unzureichend ist.
- Kapitel 3 beschreibt die Evaluierung des entwickelten Extraktionsalgorithmus. Die Messungen zeigen, dass der Algorithmus eine hohe Präzision erreichen kann, wobei allerdings nicht alle Produktattribute extrahiert werden können. Die Ergebnisse liefern wichtige Erkenntnisse für die Weiterentwicklung des Parsers.
Schlüsselwörter
Die Arbeit befasst sich mit den Themen Preisvergleichsportale, Markttransparenz, Datenextraktion, Shop-spezifischer Parser, maschinelles Lernen, Evaluierung, Accuracy, Precision, Levenshtein-Distanz.
- Quote paper
- Leonardo Hübscher (Author), 2018, Maschinelles Lernen im Onlinehandel, Munich, GRIN Verlag, https://www.grin.com/document/448663