Direkt zum Inhalt

Gaußsche Mischmodelle in Excel - Anleitung

Dieses Tutorium wird Ihnen helfen, ein Gaussian Mixture Model (GMM) in Excel mithilfe der Software XLSTAT einzurichten und zu interpretieren. Sie sind nicht sicher, ob dies die richtige Clustering-Funktion ist, die Sie benötigen? Weitere Hinweise finden Sie hier.

Gaussian Mixture Models für Clustering

Diese Modelle werden häufig für Clustering-Zwecke verwendet. Sie können einen Rahmen für die Bewertung der Datenabschnitte bereitstellen, indem Sie berücksichtigen, dass jede Komponente ein Cluster repräsentiert. Diese Modelle haben zwei wesentliche Vorteile: - Es handelt sich um eine probabilistische Methode, um eine Fuzzy-Klassifikation der Beobachtungen zu erhalten. Die Wahrscheinlichkeit, zu jedem Cluster zu gehören, wird berechnet und eine Klassifikation wird normalerweise erreicht, indem jede Beobachtung dem wahrscheinlichsten Cluster zugewiesen wird. Diese Wahrscheinlichkeiten können auch zum Interpretieren der vermuteten Klassifikationen verwendet werden.

  • Die Mischmodellierung ist sehr flexibel.

Datensatz für das Gaussian Mixture Model

Die Daten entsprechen der berühmten Schwertlilie von Fisher in [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Teil II, 179–188] Diese Daten liefern die Messungen (in Zentimetern) der Länge und Breite der Blütenblätter für 150 Blumen von 3 verschiedene Spezies von Schwertlilien (Setosa, Versicolor und Virginica).

Einrichten eines Gaussian Mixture Model

Nach dem Öffnen von XLSTAT wählen Sie den Befehl XLSTAT/Analyse der Daten/Gaussian Mixture Models oder klicken Sie auf den entsprechenden Button der Symbolleiste Analyse der Daten.

menu mixture models

Sobald Sie auf den Button geklickt haben, erscheint das Dialogfeld.

Die Daten werden in einer Tabelle mit 150 Zeilen und 2 Spalten dargestellt. Es wird angenommen, dass die Beschriftungen unbekannt sind und dass das Gewicht jeder Zeile identisch ist. Da die Klassifikation der Daten gemäß der Länge und Breite des Blütenblattes der Schwertlilie erfolgt, wird die Option Multidimensional ausgewählt.

dialog box mixture models general

In der Registerkarte **Optionen(1), werden drei Interferenz-Algorithmen mit vier Auswahlkriterien und drei Initialisierungsmethoden angeboten. Der Benutzer kann außerdem die maximale Anzahl von Iterationen des Inferenz-Algorithmus und dessen Konvergenz-Schwellwert festlegen. Hier wählen wir eine zufällige Initialisierung mit zwei Replikaten und lassen bei allen anderen Optionen den Vorgabewert.

dialog box mixture models options

In der Registerkarte Optionen(2) **steht eine Liste der Gaussian Mixture Models zur Verfügung. Die minimale und maximale Anzahl der Klassen kann modifiziert und die Mischverhältnisse können so erzwungen werden, dass sie gleich sind. Hier wählen wir aus, die EEE- und EEV-Modelle für eine Reihe von Klassen zu testen, die von 2 bis 5 variieren.

dialog box mixture models options 2

Die Berechnungen beginnen, sobald Sie auf OK geklickt haben. Die Ergebnisse werden dann in einem neuen Tabellenblatt angezeigt.

Interpretieren der Ergebnisse eines Clustering mit einem Gaussian Mixture Model

Die ersten Ergebnisse, die angezeigt werden, sind die Statistiken für die verschiedenen Variablen (Länge und Breite). Als nächste wird der Wert des Auswahlkriteriums für alle Modelle und eine Reihe von Klassen, die von 2 bis 5 variieren, angezeigt.

mixture models bic criterion

Dann werden die geschätzten Parameter des ausgewählten Modells vorgegeben (Verhältnisse, Mittelwerte und Varianzen).

mixture models proportions means

mixture models covariance

Eine Tabelle, in der die Merkmale des ausgewählten Modells angezeigt werden, wird danach dargestellt (BIC, AIC, Log-Wahrscheinlichkeit, NEC, ...).

In der nächsten Tabelle werden die Ergebnisse in Bezug auf Wahrscheinlichkeitsschätzung und -klassifikation für die ersten Beobachtungen des verfügbaren Datensatzes angezeigt. Die Klassifikation wird gemäß den Wahrscheinlichkeiten über die MAP-Regel (Maximum A Posteriori) gemessen). Wir können sehen, dass 3 Klassen ausgewählt wurden.

Posterior probability classes mixture models

Schließlich wird eine Grafik der zusammengefassten Daten angezeigt.

MAP classification mixture models

Viele andere Funktionen und Optionen stehen bei den Mischmodellen mit XLSTAT zur Verfügung, einschließlich Gewichte der Beobachtungen, teilweise Etikettierung, 14 Interferenz-Algorithmen...

War dieser Artikel nützlich?

  • Ja
  • Nein