Woche 4
Statistischer Analyse Plan (SAP)
1 Einleitung
Es wird der Pima Indians Diabetes Database-Datensatz [1] von Kaggle verwendet.
1.1 Hintergrund
- Diabetes mellitus Typ 2 ist eine chronische Erkrankung mit hoher Prävalenz, insbesondere bei bestimmten Bevölkerungsgruppen.
- Pima-Indianerinnen weisen eine der weltweit höchsten Raten an Typ-2-Diabetes auf.
- Die Identifikation von Risikofaktoren kann zur Prävention und Früherkennung beitragen.
- Der verfügbare Datensatz ermöglicht die Analyse potenzieller Zusammenhänge zwischen verschiedenen Gesundheitsparametern und dem Auftreten von Diabetes.
2 Studiendesign
2.1 Beschreibung des Studientyps
Cross-Sectional Study (Querschnittsstudie): Der Datensatz enthält Informationen über Gesundheitsparameter und den Diabetesstatus, die zu einem bestimmten Zeitpunkt erfasst wurden.
3 Fragestellung und Ziele
3.1 Konkrete Forschungsfragen oder Hypothesen.
\(H_0\): Es besteht keine Assoziation zwischen dem Body-Mass-Index (BMI) und dem Auftreten von Typ-2-Diabetes bei Pima-Indianerinnen.
3.2 Primäres Ziel der Studie und eventuelle sekundäre Ziele.
Primäres Ziel: Untersuchung der Beziehung zwischen BMI und Diabetes.
Sekundäre Ziele: Untersuchung der weiteren im Datensatz enthaltenen Gesundheitsparameter und deren mögliche Assoziation mit Diabetes.
4 Endpunkte
4.1 Primärer Endpunkt (Zielvariable): Definition
- Odds-Ratio für das Auftreten von Diabetes-Typ-2 in Bezug auf den Body-Mass-Index (BMI).
4.2 Sekundäre Endpunkte: Definition
- Messwerte der unabhängigen Variablen:
- Body-Mass-Index (BMI)
- Anzahl der Schwangerschaften
- Glukosekonzentration im Plasma
- Blutdruck
- Hautdicke (Trizeps)
- Insulin
- Pedigree-Faktor
- Alter
5 Studienpopulation und analysierte Subgruppen
5.1 Population
Pima-Indianerinnen ab 21 Jahren: 768.
5.2 Subgruppen
- Altersgruppen: z.B. <30 Jahre, 30–40 Jahre, >40 Jahre.
- BMI-Kategorien: Normalgewicht, Übergewicht, Adipositas.
- Anzahl der Schwangerschaften: 0, 1–3, >3 Schwangerschaften.
6 Analyse (primärer & sekundäre Entpunkte)
6.1 Beschreibung der geeigneten Methode
- Deskriptive Statistik: Mittelwerte, Standardabweichungen, Verteilungsanalysen der Variablen.
- Bivariate Analysen: Chi-Quadrat-Test für kategoriale Variablen, t-Test oder ANOVA für kontinuierliche Variablen.
- Logistische Regression zur Bestimmung der Odds Ratios für das Auftreten von Diabetes in Bezug auf Risikofaktoren.
- Konfidenzintervalle und p-Werte zur Beurteilung der statistischen Signifikanz.
6.2 Muss nach möglichen Confoundern adjustiert werden?
- Ja, berücksichtigung von Wechselwirkungen zwischen Variablen.
6.3 Umgang mit fehlenden Daten
Ausschluss von Fällen mit fehlenden Werten in Schlüsselvariablen, falls erforderlich.
7 Berichterstattung und Interpretation
7.1 Mögliche Präsentation der Ergebnisse (Tabellen, Grafiken)
- Tabellen:
- Deskriptive Statistiken der Studienpopulation.
- Ergebnisse der logistischen Regression (Odds Ratios, Konfidenzintervalle, p-Werte).
- Grafiken:
- Boxplots oder Histogramme zur Visualisierung von Verteilungen der Variablen.
- Forest Plot für die Darstellung der Odds Ratios.
7.2 Hinweise auf Limitation und mögliche Verzerrungen
- Querschnittsdesign ermöglicht keine Aussage über Kausalität.
- Selektionsbias durch spezifische Population (Ergebnisse nicht ohne Weiteres auf andere Gruppen übertragbar).
- Messfehler oder Ungenauigkeiten in den erhobenen Daten.
- Confounder: Nicht berücksichtigte Variablen (z.B. Lebensstil).
- Informationsbias durch Selbstangaben oder fehlerhafte Messungen.
Literatur
[1]
UCI Machine Learning, „Pima Indians Diabetes Database“. Zugegriffen: 2. Februar 2025. [Online]. Verfügbar unter: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database