Direkt zum Inhalt

Wahl der geeigneten multivariaten Datenanalysemethode

Wahl einer geeigneten multivariaten Datenanalysetechnik

Wir definieren hier multivariate (oder multidimensionale) Datensätze als Datentabellen, die mehr als 2 (normalerweise in Spalten gespeicherte) Variablen enthalten, die an mehr als 2 normalerweise in Zeilen gespeicherten statistischen Einheiten (Individuen, Patienten, Standorte,...) gemessen werden. Multidimensionale Datenanalysetechniken werden zum Extrahieren interessanter Informationen bei großen Datensätzen verwendet, die in ihrem Rohformat kaum lesbar sind. Diese Tools werden häufig als Data-Mining-Tools bezeichnet.

Das folgende Raster hilft Ihnen bei der Wahl der Data-Mining-Methode, die sich am besten für die Art der Fragestellungen (explorativ oder entscheidungsbezogen), die Sie mithilfe Ihrer Daten untersuchen möchten, sowie für die Struktur Ihrer Daten eignet. Die Liste ist nicht vollständig. Sie enthält jedoch die am häufigsten verwendeten Methoden, die alle in XLSTAT verfügbar sind.

Wir haben die Fragestellungen in zwei Typen unterteilt:

  • Explorative Fragestellungen ermöglichen die Untersuchung multivariater Datensätze ohne dabei eine bestimmte, zu validierende Hypothese zu berücksichtigen. Explorative multivariate Datenanalyse-Tools beinhalten oft eine Reduzierung der Dimensionalität großer Datensätze, was die Datenexploration einfacher macht.

  • Entscheidungsbezogene Fragestellungen beinhalten das Prüfen der Beziehung zwischen zwei Sätzen von Variablen (Korrelation) oder das Erläutern einer Variable oder eines Satzes von Variablen durch einen anderen Satz (Kausalität).

Fragestellung Anzahl der Tabellen Datenbeschreibung Tool Bemerkungen
Explorativ 1 Nur quantitative Variablen Hauptkomponenten-Analyse (HKA) Berücksichtigt alle Varianzen in den Daten; die Komponenten spiegeln nicht unbedingt reale Phänomene wider
Explorativ 1 Nur quantitative Variablen Faktorenanalyse (FA) Berücksichtigt nur die Kovarianz zwischen Variablen; latente Faktoren spiegeln reale Phänomene wider
Explorativ 1 Proximitätsmatrix Multidimensional Scaling (MDS)/Hauptkoordinatenanalyse (PCoA)
Explorativ 1 Kontingenztabelle (2 qualitative Variablen) Korrespondenzanalyse (KA)
Explorativ 1 Nur qualitative Variablen Multiple Korrespondenzanalyse (MKA)
Explorativ ≥2 Qualitative Variablentabellen und-oder quantitative Variablentabellen Multiple Faktorenanalyse (MFA)
Explorativ ≥2 Quantitative Variablentabellen Generalisierte Procrustes Analyse (GPA) Kann einen inferentiellen Teil beinhalten: den Konsenztest
Explorativ (Clustering) 1 Nur quantitative Variablen Clustering-Tools (AHC, k-means...) Klassische Clustering-Methoden könnten mithilfe von Zeilenscores auf den Dimensionen einer Multiplen Korrespondenzanalyse indirekt auf eine qualitative Variablentabelle angewendet werden
entscheidungsbezogen (Kausalität) 1 Eine abhängige Variable und mehrere quantitative und-oder qualitative erklärende Variablen Statistische Modellierungstools (Regression, ANCOVA...)
entscheidungsbezogen (Korrelation) oder explorativ 2 Zwei quantitative Variablentabellen Kanonische Korrelationsanalyse Lineare Beziehungen zwischen den beiden Tabellen
entscheidungsbezogen (Kausalität) oder explorativ 2 Eine Kontingenztabelle Y (oft eine standortspezifische Datenmatrix) und eine erklärende quantitative und-oder qualitative Variablentabelle (X) Kanonische Korrespondenzanalyse Unimodale Beziehungen zwischen X und Y; könnte zur Abbildung der Nischen von Spezies entlang von Umweltgradienten herangezogen werden
entscheidungsbezogen (Kausalität) 2 Eine abhängige quantitative Variablentabelle (Y) und eine quantitative und-oder qualitative erklärende Variablentabelle (X) Redundanzanalyse (RDA) Lineare Beziehungen zwischen X und Y
entscheidungsbezogen (Kausalität) 2 Eine abhängige quantitative Variablentabelle (Y) und eine quantitative und-oder qualitative erklärende Variablentabelle (X) Partielle Kleinste Quadrate Regression (PLS) Wird besonders für Vorhersagen verwendet
entscheidungsbezogen (Kausalität) ≥2 Mehrere Tabellen manifester Variablen, wobei jede Tabelle für eine latente Variable steht Partielle Kleinste Quadrate-Strukturgleichungsmodell (PLS-PM)

War dieser Artikel nützlich?

  • Ja
  • Nein