Deep Lattice Netzwerke (DLN)

Deep Lattice Netzwerke (DLN)

Beitrag teilen:

Häufige Problem­stel­lungen, mit denen wir konfron­tiert werden, lassen sich auf eine (mehrdi­men­sio­nale) Regres­sion oder eine Klassi­fi­zie­rung zurück­führen. Ausge­hend von einer Menge von Merkmalen versucht man bei der Regres­sion, die Abhän­gig­keit zwischen den Merkmalen und einer Zielgröße als Funktion darzu­stellen. Ein Beispiel wäre die Abhän­gig­keit des Umsatzes von den Ausgaben für Forschung sowie von der Mitar­beiter-Zufrie­den­heit in einem Unter­nehmen. Bei einer Klassi­fi­zie­rung werden Wahrschein­lich­keiten dafür geschätzt, dass ein Objekt zu einer vorde­fi­nierten Klasse gehört. Ein bekanntes Beispiel ist die Klassi­fi­zie­rung von Bildin­halten (Hund, Katze, LKW, …).

Die Komple­xität von Regres­sions- und Klassi­fi­zie­rungs­pro­blemen hängt von der Menge der Merkmale sowie vom Grad des Zusam­men­hanges zwischen den Merkmalen und der Zielgröße ab. Ein weiterer Aspekt ist die Abhän­gig­keit der Merkmale unter­ein­ander. Einfache Probleme lassen sich durch klassi­sche stati­sche Verfahren lösen, welche den Vorteil haben, dass man die Ergeb­nisse gut inter­pre­tieren kann. Praxis­re­le­vante Problem­stel­lungen sind im Allge­meinen durch mehrere Merkmale beschrieben, welche sich unter­ein­ander beein­flussen. Ein bekanntes und häufig verwen­detes Verfahren zur Lösung solcher Problem­stel­lungen ist ein künst­li­ches neuro­nales Netz, welches sehr leistungs­stark bei der Lösung der genannten Problem­stel­lungen ist.

Deep Lattice Netzwerke erwei­tern die Eigen­schaften eines künst­li­chen neuro­nalen Netzes um Monoto­nie­be­din­gungen zwischen einzelnen Merkmalen und der Zielgröße. Ein Beispiel für die Notwen­dig­keit ist ein Preis­mo­dell, bei dem sich der Preis einer Einheit mit der Bestell­quan­tität reduzieren soll. Das unter der Initia­tive und Mitar­beit von Google entwi­ckelte Verfahren besteht im Kern aus n-dimen­sio­nalen Hyper­wür­feln der Kanten­länge 1, wobei n die Anzahl der Merkmale beschreibt. Es wird also durch jede Dimen­sion des Würfels ein Merkmal abgebildet. In den Würfel legt man eine (mehrdi­men­sio­nale) Funktion, welche den Zusam­men­hang zwischen den Merkmalen und der Zielgröße beschreibt. Dazu werden für die Eckpunkte des Würfels, welche die varia­blen Parameter des Modells darstellen, Funkti­ons­werte auf Basis von Trainings­daten berechnet. Zwischen den Eckpunkten wird die Zielfunk­tion linear inter­po­liert. Zur Erhöhung der Detail­lie­rung der Funktion können die Kanten des Würfels unter­teilt werden. Durch die Teilungs­punkte wird ein Gitter (Lattice) gelegt, dessen Schnitt­punkte als zusätz­liche Parameter des Modells mit Funkti­ons­werten belegt werden.

In der folgenden Abbil­dung ist ein Lattice mit zwei Merkmalen (also ein Quadrat) darge­stellt. Für die vier Eckpunkte θ[i] als Parameter des Modells wurden Werte aus einer Menge aus Trainings­daten abgeleitet. Die darzu­stel­lende Funktion f(x) wird durch lineare Inter­po­la­tion zwischen den vier Eckpunkten appro­xi­miert. Weitere Stütz­stellen zwischen den Eckpunkten zur Verdich­tung des Gitters und zur Erhöhung des Detail­ie­rungs­grades der appro­xi­mierten Funktion wurden nicht verwendet.

Deep Lattice Netzwerke (DLN)
Mit Zunahme der Merkmale bzw. durch Erhöhung des Detail­lie­rungs­grades der darzu­stel­lenden Funktion steigt die Anzahl der zu optimie­renden Parameter exponen­tiell. Nehmen wir ein Beispiel: Sie haben 15 Merkmale, welche einen Einfluss auf die Zielgröße haben. Jedes Merkmal soll durch 10 Stütz­stellen (2 Eckpunkte und 8 zusätz­liche Unter­tei­lungs­punkte) im Lattice beschrieben werden. Dadurch entsteht ein Würfel mit 1015=1 Billi­arde varia­blen Parame­tern. Zur Reduzie­rung der Komple­xität des Modells lassen sich die Merkmale auf mehrere vonein­ander getrennte Würfel aufteilen, deren Ergeb­nisse nach den Trainings zusam­men­ge­führt werden. Der sogenannte Crystal-Algorithmus kann verwendet werden, um die Merkmale entspre­chend ihrer Ähnlich­keit auf unter­schied­liche Würfel aufzu­teilen. Die Zusam­men­füh­rung kann über eine einfache Mittel­wert­bil­dung erfolgen oder durch weitere Lattices, wodurch ein Lattice-Netzwerk entsteht.
Deep Lattice Netzwerke (DLN)

Das Training erfolgt ähnlich wie bei einem künst­li­chen neuro­nalen Netz durch eine itera­tive Anpas­sung der Parameter mit dem Ziel, den Fehler zwischen der Modell­aus­gabe und der beobach­teten Ausprä­gungen der Zielgröße zu minimieren. Das Vorgehen wird als überwachtes Lernen bezeichnet. Nach dem Training können für (unbekannte) Merkmals­kom­bi­na­tionen Werte für die Zielgröße bestimmt werden. In einem weiteren Post in diesem Blog beschreibe ich die Anwen­dung eines Deep Lattice Netzwerkes zur Bestim­mung der Annah­me­wahr­schein­lich­keiten für Trans­port­auf­träge. Dies ist Teil eines durch den mFund geför­derten Forschungs­pro­jektes, welches wir erfolg­reich umgesetzt haben.

Picture of Björn Piepenburg

Björn Piepen­burg

Projektanfrage

Vielen Dank für Ihr Interesse an den Leistungen von m²hycon. Wir freuen uns sehr, von Ihrem Projekt zu erfahren und legen großen Wert darauf, Sie ausführlich zu beraten.

Von Ihnen im Formular eingegebene Daten speichern und verwenden wir ausschließlich zur Bearbeitung Ihrer Anfrage. Ihre Daten werden verschlüsselt übermittelt. Wir verarbeiten Ihre personenbezogenen Daten im Einklang mit unserer Datenschutzerklärung.