Grin logo
en de es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › Informatik - Internet, neue Technologien

Maschinelles Lernen im Onlinehandel

Eine Extraktion produktspezifischer Daten

Titel: Maschinelles Lernen im Onlinehandel

Bachelorarbeit , 2018 , 24 Seiten , Note: 1.0

Autor:in: Leonardo Hübscher (Autor:in)

Informatik - Internet, neue Technologien
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Durch die Vielzahl von Onlineshops und Fülle an Angeboten verliert der Onlinekäufer schnell die Übersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das günstigste Angebot im Netz zu finden. Die Gewährleistung der möglichst vollständigen Markttransparenz ist eine grundlegende Herausforderung für idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollständigkeit zu überprüfen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist.

Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von über 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden können.

Leseprobe


Inhaltsverzeichnis

  • Zusammenfassung
  • 1. Die Welt der Preisvergleichsportale
    • 1.1 Der Onlinehandel von heute
    • 1.2 Das Preisvergleichsportal idealo
    • 1.3 Das Ziel des Bachelorprojektes
    • 1.4 Die Microservice-Architektur des Scout-Softwaresystems
  • 2. Die Extraktion produktspezifischer Daten
    • 2.1 Die technischen Anforderungen an den Parser
    • 2.2 Die Positionsbestimmung der Produktattribute
    • 2.3 Die Architektur des Parsers
    • 2.4 Die Erstellung der Selektoren
  • 3. Die Genauigkeitsmessung des Extraktionsalgorithmus
    • 3.1 Die Testdaten der Evaluierung
    • 3.2 Die Messergebnisse
    • 3.3 Mögliche Fehlerquellen der Messungen
  • 4. Der Ausblick und das Fazit

Zielsetzung und Themenschwerpunkte

Das Ziel des Bachelorprojektes war die Entwicklung einer Softwarelösung, die eine automatisierte Bestandsanalyse für Onlinehändler, die mit dem Preisvergleichsportal idealo zusammenarbeiten, ermöglicht. Diese Software, Scout genannt, soll fehlende Angebote im Produktkatalog von idealo identifizieren und so zur Verbesserung der Markttransparenz beitragen.

  • Automatisierung der Bestandsanalyse für Onlinehändler
  • Verbesserung der Markttransparenz durch Identifizierung fehlender Angebote
  • Extraktion produktspezifischer Daten aus Webseiten von Onlinehändlern
  • Entwicklung eines shop-spezifischen Parsers mit maschinellem Lernen
  • Evaluierung der Genauigkeit des Extraktionsalgorithmus

Zusammenfassung der Kapitel

  • Kapitel 1 führt in die Welt der Preisvergleichsportale ein und beleuchtet die Herausforderungen des Onlinehandels im Kontext der steigenden Produktvielfalt und der Notwendigkeit der Markttransparenz. Das Projekt Scout wird vorgestellt, das die Vollständigkeit des idealo-Produktkatalogs überprüfen soll.
  • Kapitel 2 widmet sich der Extraktion produktspezifischer Daten aus den Webseiten von Onlinehändlern. Der shop-spezifische Ansatz wird beschrieben, der individuelle Regeln für die Extraktion von Informationen wie Produktname, Preis oder EAN nutzt. Das Projektteam entschied sich gegen shop-unspezifische Ansätze basierend auf Standards wie Schema.org, da die Einhaltung dieser Standards in der Praxis oft unzureichend ist.
  • Kapitel 3 beschreibt die Evaluierung des entwickelten Extraktionsalgorithmus. Die Messungen zeigen, dass der Algorithmus eine hohe Präzision erreichen kann, wobei allerdings nicht alle Produktattribute extrahiert werden können. Die Ergebnisse liefern wichtige Erkenntnisse für die Weiterentwicklung des Parsers.

Schlüsselwörter

Die Arbeit befasst sich mit den Themen Preisvergleichsportale, Markttransparenz, Datenextraktion, Shop-spezifischer Parser, maschinelles Lernen, Evaluierung, Accuracy, Precision, Levenshtein-Distanz.

Ende der Leseprobe aus 24 Seiten  - nach oben

Details

Titel
Maschinelles Lernen im Onlinehandel
Untertitel
Eine Extraktion produktspezifischer Daten
Hochschule
Universität Potsdam  (Hasso Plattner Institut)
Note
1.0
Autor
Leonardo Hübscher (Autor:in)
Erscheinungsjahr
2018
Seiten
24
Katalognummer
V448663
ISBN (eBook)
9783668833579
ISBN (Buch)
9783668833586
Sprache
Deutsch
Schlagworte
Machine Learning Maschinelles Lernen E-Commerce Idealo Produkterfassung Preisvergleichsportal Java
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Leonardo Hübscher (Autor:in), 2018, Maschinelles Lernen im Onlinehandel, München, GRIN Verlag, https://www.grin.com/document/448663
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  24  Seiten
Grin logo
  • Grin.com
  • Zahlung & Versand
  • Impressum
  • Datenschutz
  • AGB
  • Impressum