E-Book, Deutsch, 912 Seiten
Reihe: mitp Professional
Goodfellow / Bengio / Courville Deep Learning. Das umfassende Handbuch
1. Auflage 2018
ISBN: 978-3-95845-702-7
Verlag: mitp Verlags GmbH & Co.KG
Format: EPUB
Kopierschutz: 0 - No protection
Grundlagen, aktuelle Verfahren und Algorithmen, neue Forschungsansätze
E-Book, Deutsch, 912 Seiten
Reihe: mitp Professional
ISBN: 978-3-95845-702-7
Verlag: mitp Verlags GmbH & Co.KG
Format: EPUB
Kopierschutz: 0 - No protection
Zielgruppe
Studenten sowie Softwareentwickler und Informatiker, die Deep Learning für eigene Produkte oder Plattformen einsetzen möchten
Autoren/Hrsg.
Weitere Infos & Material
Inhaltsverzeichnis
1 Einleitung 1.1 Für wen ist dieses Buch gedacht? 1.2 Historische Entwicklungen im Deep Learning 1.2.1 Die vielen Namen und wandelnden Schicksale neuronaler Netze 1.2.2 Wachsende Größe von Datensätzen 1.2.3 Wachsende Modellgrößen 1.2.4 Wachsende Genauigkeit, Komplexität und Auswirkungen auf die reale Welt I Angewandte Mathematik und Grundlagen für das Machine Learning 2 Lineare Algebra 2.1 Skalare, Vektoren, Matrizen und Tensoren 2.2 Multiplizieren von Matrizen und Vektoren 2.3 Einheits- und Umkehrmatrizen 2.4 Lineare Abhängigkeit und lineare Hülle 2.5 Normen 2.6 Spezielle Matrizen und Vektoren 2.7 Eigenwertzerlegung 2.8 Singulärwertzerlegung 2.9 Die Moore-Penrose-Pseudoinverse 2.10 Der Spuroperator 2.11 Die Determinante 2.12 Beispiel: Hauptkomponentenanalyse 3 Wahrscheinlichkeits- und Informationstheorie 3.1 Warum Wahrscheinlichkeit? 3.2 Zufallsvariablen 3.3 Wahrscheinlichkeitsverteilungen 3.3.1 Diskrete Variablen und Wahrscheinlichkeitsfunktionen 3.3.2 Stetige Variablen und Wahrscheinlichkeitsdichtefunktionen 3.4 Randwahrscheinlichkeit 3.5 Bedingte Wahrscheinlichkeit 3.6 Die Produktregel der bedingten Wahrscheinlichkeiten 3.7 Unabhängigkeit und bedingte Unabhängigkeit 3.8 Erwartungswert, Varianz und Kovarianz 3.9 Häufig genutzte Wahrscheinlichkeitsverteilungen 3.9.1 Bernoulli-Verteilung 3.9.2 Multinoulli-Verteilung 3.9.3 Normalverteilung 3.9.4 Exponential- und Laplace-Verteilung 3.9.5 Dirac-Delta-Verteilung und empirische Verteilung 3.9.6 Kombinierte Verteilungen 3.10 Nützliche Eigenschaften häufig verwendeter Funktionen 3.11 Satz von Bayes 3.12 Technische Einzelheiten stetiger Variablen 3.13 Informationstheorie 3.14 Strukturierte probabilistische Modelle 4 Numerische Berechnung 4.1 Überlauf und Unterlauf 4.2 Schlechte Konditionierung 4.3 Optimierung auf Gradientenbasis 4.3.1 Über den Gradienten hinaus: Jacobi- und Hesse-Matrizen 4.4 Optimierung unter Nebenbedingungen 4.5 Beispiel: Lineare kleinste Quadrate 5 Grundlagen für das Machine Learning 5.1 Lernalgorithmen 5.1.1 Die Aufgabe T 5.1.2 Die Leistungsbewertung P 5.1.3 Die Erfahrung E 5.1.4 Beispiel: Lineare Regression 5.2 Kapazität, Überanpassung und Unteranpassung 5.2.1 Das No-Free-Lunch-Theorem 5.2.2 Regularisierung 5.3 Hyperparameter und Validierungsdaten 5.3.1 Kreuzvalidierung 5.4 Schätzer, Verzerrung und Varianz 5.4.1 Punktschätzung 5.4.2 Verzerrung 5.4.3 Varianz und Standardfehler 5.4.4 Abstimmen von Verzerrung und Varianz zum Minimieren des mittleren quadratischen Fehlers 5.4.5 Konsistenz 5.5 Maximum-Likelihood-Schätzung 5.5.1 Bedingte Log-Likelihood und mittlerer quadratischer Fehler 5.5.2 Eigenschaften der Maximum Likelihood 5.6 Bayessche Statistik 5.6.1 Maximum-a-posteriori-Methode (MAP) 5.7 Algorithmen für überwachtes Lernen 5.7.1 Probabilistisches überwachtes Lernen 5.7.2 Support Vector Machines 5.7.3 Andere einfache Algorithmen für überwachtes Lernen 5.8 Algorithmen für unüberwachtes Lernen 5.8.1 Hauptkomponentenanalyse 5.8.2 k-Means-Clustering 5.9 Stochastisches Gradientenabstiegsverfahren 5.10 Entwickeln eines Machine-Learning-Algorithmus 5.11 Probleme, an denen Deep Learning wächst 5.11.1 Der Fluch der Dimensionalität 5.11.2 Lokale Konstanz und Regularisierung durch Glattheit 5.11.3 Manifold Learning II Tiefe Netze: Zeitgemäße Verfahren 6 Tiefe Feedforward-Netze 6.1 Beispiel: Erlernen von XOR 6.2 Lernen auf Gradientenbasis 6.2.1 Kostenfunktionen 6.2.2 Ausgabeeinheiten 6.3 Verdeckte Einheiten 6.3.1 Rektifizierte lineare Einheiten (ReLUs) und ihre Generalisierung 6.3.2 Logistische Sigmoidfunktion und Tangens hyperbolicus 6.3.3 Andere verdeckte Einheiten 6.4 Architekturdesign 6.4.1 Eigenschaften und Tiefe der universellen Approximation 6.4.2 Weitere Überlegungen zur Architektur 6.5 Backpropagation und andere Algorithmen zur Differentiation 6.5.1 Berechnungsgraphen 6.5.2 Kettenregel in der Analysis 6.5.3 Rekursive Anwendung der Kettenregel, um Backpropagation zu erreichen 6.5.4 Berechnen der Backpropagation im vollständig verbundenen mehrschichtigen Perzeptron 6.5.5 Symbol-to-Symbol-Ableitungen 6.5.6 Allgemeine Backpropagation 6.5.7 Beispiel: Backpropagation für ein MLP-Training 6.5.8 Komplikationen 6.5.9 Differentiation außerhalb der Deep-Learning-Forschungsgemeinde 6.5.10 Ableitungen höherer Ordnung 6.6 Historische Anmerkungen 7 Regularisierung 7.1 Parameter-Norm-Strafterme 7.1.1 L2-Parameter-Regularisierung 7.1.2 L1-Regularisierung 7.2 Norm-Strafterme als Optimierung unter Nebenbedingungen 7.3 Regularisierung und unterbestimmte Probleme 7.4 Erweitern des Datensatzes 7.5 Robustheit gegen Rauschen 7.5.1 Hinzufügen von Rauschen 7.6 Halb-überwachtes Lernen 7.7 Multitask Learning 7.8 Früher Abbruch 7.9 Parameter Tying und Parameter Sharing 7.9.1 CNNs 7.10 Dünnbesetzte Repräsentationen 7.11 Bagging und andere Ensemblemethoden 7.12 Dropout 7.13 Adversarial Training 7.14 Tangentendistanz, Tangenten-Propagation und Mannigfaltigkeit-Tangentenklassifikator 8 Optimierung beim Trainieren von tiefen Modellen 8.1 Unterschied zwischen Lernen und reiner Optimierung 8.1.1 Empirische Risikominimierung 8.1.2 Ersatzverlustfunktionen und früher Abbruch 8.1.3 Batch- und Mini-Batch-Algorithmen 8.2 Herausforderungen bei der Optimierung neuronaler Netze 8.2.1 Schlechte Konditionierung 8.2.2 Lokale Minima 8.2.3 Plateaus, Sattelpunkte und andere flache Bereiche 8.2.4 Klippen und explodierende Gradienten 8.2.5 Langfristige Abhängigkeiten 8.2.6 Inexakte Gradienten 8.2.7 Schlechte Korrespondenz zwischen lokaler und globaler Struktur 8.2.8 Theoretische Grenzen der Optimierung 8.3 Grundlegende Algorithmen 8.3.1 Stochastisches Gradientenabstiegsverfahren 8.3.2 Momentum 8.3.3 Nesterow-Momentum 8.4 Verfahren zur Parameterinitialisierung 8.5 Algorithmen mit adaptiven Lernraten 8.5.1 AdaGrad 8.5.2 RMSProp 8.5.3 Adam 8.5.4 Auswählen des passenden Optimierungsalgorithmus 8.6 Approximative Verfahren zweiter Ordnung 8.6.1 Newton-Verfahren 8.6.2 Konjugierte Gradienten 8.6.3 BFGS 8.7 Optimierungsverfahren und Meta-Algorithmen 8.7.1 Batch-Normalisierung 8.7.2 Koordinatenabstieg 8.7.3 Mittelwertbildung nach Polyak 8.7.4 Überwachtes Pretraining 8.7.5 Entwerfen von Modellen zur Unterstützung der Optimierung 8.7.6 Fortsetzungsmethoden und Curriculum Learning 9 CNNs 9.1 Die Faltungsoperation 9.2 Motivation 9.3 Pooling 9.4 Faltung und Pooling als unendlich starke...