Woche 4

Statistischer Analyse Plan (SAP)

Autor:in

Benedikt Schnur

1 Einleitung

Es wird der Pima Indians Diabetes Database-Datensatz [1] von Kaggle verwendet.

1.1 Hintergrund

Diabetes mellitus Typ 2 ist eine chronische Erkrankung mit hoher Prävalenz, insbesondere bei bestimmten Bevölkerungsgruppen.
Pima-Indianerinnen weisen eine der weltweit höchsten Raten an Typ-2-Diabetes auf.
Die Identifikation von Risikofaktoren kann zur Prävention und Früherkennung beitragen.
Der verfügbare Datensatz ermöglicht die Analyse potenzieller Zusammenhänge zwischen verschiedenen Gesundheitsparametern und dem Auftreten von Diabetes.

2 Studiendesign

2.1 Beschreibung des Studientyps

Cross-Sectional Study (Querschnittsstudie): Der Datensatz enthält Informationen über Gesundheitsparameter und den Diabetesstatus, die zu einem bestimmten Zeitpunkt erfasst wurden.

3 Fragestellung und Ziele

3.1 Konkrete Forschungsfragen oder Hypothesen.

\(H_0\): Es besteht keine Assoziation zwischen dem Body-Mass-Index (BMI) und dem Auftreten von Typ-2-Diabetes bei Pima-Indianerinnen.

3.2 Primäres Ziel der Studie und eventuelle sekundäre Ziele.

Primäres Ziel: Untersuchung der Beziehung zwischen BMI und Diabetes.

Sekundäre Ziele: Untersuchung der weiteren im Datensatz enthaltenen Gesundheitsparameter und deren mögliche Assoziation mit Diabetes.

4 Endpunkte

4.1 Primärer Endpunkt (Zielvariable): Definition

Odds-Ratio für das Auftreten von Diabetes-Typ-2 in Bezug auf den Body-Mass-Index (BMI).

4.2 Sekundäre Endpunkte: Definition

Messwerte der unabhängigen Variablen:
1. Body-Mass-Index (BMI)
2. Anzahl der Schwangerschaften
3. Glukosekonzentration im Plasma
4. Blutdruck
5. Hautdicke (Trizeps)
6. Insulin
7. Pedigree-Faktor
8. Alter

5 Studienpopulation und analysierte Subgruppen

5.1 Population

Pima-Indianerinnen ab 21 Jahren: 768.

5.2 Subgruppen

Altersgruppen: z.B. <30 Jahre, 30–40 Jahre, >40 Jahre.
BMI-Kategorien: Normalgewicht, Übergewicht, Adipositas.
Anzahl der Schwangerschaften: 0, 1–3, >3 Schwangerschaften.

6 Analyse (primärer & sekundäre Entpunkte)

6.1 Beschreibung der geeigneten Methode

Deskriptive Statistik: Mittelwerte, Standardabweichungen, Verteilungsanalysen der Variablen.
Bivariate Analysen: Chi-Quadrat-Test für kategoriale Variablen, t-Test oder ANOVA für kontinuierliche Variablen.
Logistische Regression zur Bestimmung der Odds Ratios für das Auftreten von Diabetes in Bezug auf Risikofaktoren.
Konfidenzintervalle und p-Werte zur Beurteilung der statistischen Signifikanz.

6.2 Muss nach möglichen Confoundern adjustiert werden?

Ja, berücksichtigung von Wechselwirkungen zwischen Variablen.

6.3 Umgang mit fehlenden Daten

Ausschluss von Fällen mit fehlenden Werten in Schlüsselvariablen, falls erforderlich.

7 Berichterstattung und Interpretation

7.1 Mögliche Präsentation der Ergebnisse (Tabellen, Grafiken)

Tabellen:
- Deskriptive Statistiken der Studienpopulation.
- Ergebnisse der logistischen Regression (Odds Ratios, Konfidenzintervalle, p-Werte).
Grafiken:
- Boxplots oder Histogramme zur Visualisierung von Verteilungen der Variablen.
- Forest Plot für die Darstellung der Odds Ratios.

7.2 Hinweise auf Limitation und mögliche Verzerrungen

Querschnittsdesign ermöglicht keine Aussage über Kausalität.
Selektionsbias durch spezifische Population (Ergebnisse nicht ohne Weiteres auf andere Gruppen übertragbar).
Messfehler oder Ungenauigkeiten in den erhobenen Daten.
Confounder: Nicht berücksichtigte Variablen (z.B. Lebensstil).
Informationsbias durch Selbstangaben oder fehlerhafte Messungen.

Literatur

[1]

UCI Machine Learning, „Pima Indians Diabetes Database“. Zugegriffen: 2. Februar 2025. [Online]. Verfügbar unter: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database