Programmier-Tutorial - Seite 12

 

Daten qualitativ beschreiben


Daten qualitativ beschreiben

Hallo zusammen, heute diskutieren wir über die qualitative Beschreibung von Datensatzformen und konzentrieren uns dabei auf den Aufbau von Vokabular, um unsere Beobachtungen effektiv zu kommunizieren. Wir werden verschiedene grafische Darstellungen wie Histogramme, Häufigkeitspolygone und Stammdiagramme untersuchen und ihre Eigenschaften diskutieren. Schauen wir uns einige Beispiele an:

Schauen wir uns zunächst ein Histogramm an. In diesem Fall weist das Diagramm eine symmetrische Form auf, wobei die linke Hälfte der rechten Hälfte ähnelt. Obwohl reale Daten selten eine perfekte Symmetrie aufweisen, konzentrieren wir uns auf die Beschreibung der Gesamtform und nicht auf die Festlegung spezifischer Werte. Eine andere Art der symmetrischen Verteilung ist ein einheitlicher Graph, bei dem Datenwerte gleichmäßig über die Bins verteilt sind. Dies führt zu einer horizontal flachen Form, was darauf hinweist, dass die Wahrscheinlichkeit, dass Werte in jedes Fach fallen, gleich groß ist.

Lassen Sie uns nun Datensätze untersuchen, die nicht symmetrisch sind. Anstelle von Histogrammen betrachten wir zur Abwechslung Stammdiagramme. In diesem Stammplot-Beispiel können wir eine asymmetrische Form beobachten. Es ist offensichtlich, dass die Verteilung auf beiden Seiten des Zentrums, das bei etwa 92 liegt, nicht gleich ist. Darüber hinaus können wir die Richtung der Asymmetrie erkennen. In diesem Fall gibt es einen längeren Schwanz zu höheren Zahlen hin, weg von der Mitte. Dies weist auf eine rechtsschiefe Verteilung hin.

Andererseits handelt es sich hier um ein Stammdiagramm, das linksschief ist. Wir bemerken einen längeren Schwanz auf der Seite der kleineren Werte, während sich die Daten stärker auf größere Werte konzentrieren. Für ein umfassendes Verständnis des Datensatzes ist es wichtig, die Richtung der Asymmetrie genau zu beschreiben.

Betrachten wir abschließend einen Datensatz, der aufgrund eines einzelnen großen Ausreißers um 160 oder 170 zunächst möglicherweise rechtsschief erscheint. Wenn wir diesen Ausreißer jedoch außer Acht lassen, weist die Verteilung eine ziemlich symmetrische Form auf, die möglicherweise einer Glockenkurve ähnelt. Es ist wichtig, Ausreißer zu identifizieren, da sie Fehler, Ausnahmefälle oder Phänomene darstellen können, die einer gesonderten Analyse bedürfen. Bei der Beschreibung der Gesamtform der Daten sollten Ausreißer anerkannt, aber nicht zu stark berücksichtigt werden.

Durch die Entwicklung eines Vokabulars zur Beschreibung von Datensatzformen können wir die in den Daten beobachteten Schlüsselmerkmale und Muster effektiv kommunizieren. Das Verständnis der Form eines Datensatzes hilft bei der Interpretation seiner Eigenschaften und ermöglicht es uns, aussagekräftige Erkenntnisse zu gewinnen.

 

Mittelwert, Median und Modus verstehen


Mittelwert, Median und Modus verstehen

Hallo zusammen, heute werden wir die Konzepte Mittelwert, Median und Modus diskutieren und uns dabei auf ihre Interpretationen als Maßstäbe für die zentrale Tendenz konzentrieren. Jede Maßnahme hat ihren eigenen Nutzen und es ist entscheidend, sie zu verstehen. Lassen Sie uns kurz ihre Definitionen durchgehen.

Der Mittelwert stellt den numerischen Durchschnitt eines Datensatzes dar. Sie wird berechnet, indem alle Werte im Satz summiert und die Gesamtsumme durch die Anzahl der Werte dividiert wird. Der Mittelwert wird üblicherweise als X-Balken oder X mit einer Linie darüber bezeichnet, insbesondere wenn es sich um Stichproben handelt.

Der Median ist der Wert, der die Daten genau in zwei Hälften teilt. Um den Median zu ermitteln, ordnen Sie die Daten vom niedrigsten zum höchsten Wert. Bei einer ungeraden Anzahl an Werten ist der Median der Mittelwert. Für eine gerade Anzahl von Werten mitteln Sie die beiden Mittelwerte, um den Median zu ermitteln. Der Median wird oft mit einem großen M bezeichnet.

Der Modus ist einfach der häufigste Wert im Datensatz. Eine Verteilung kann mehrere Modi haben, wenn zwei oder mehr Werte die gleiche Häufigkeit haben, aber wenn alle Daten die gleiche Häufigkeit haben, sagen wir, dass die Verteilung keinen Modus hat.

Betrachten wir ein Beispiel. Angenommen, wir haben einen Datensatz mit 16 Werten. Der Mittelwert wird berechnet, indem alle Werte summiert und durch 16 dividiert werden. In diesem Fall beträgt der Mittelwert 67,9375. Da wir eine gerade Anzahl von Werten haben, wird der Median ermittelt, indem der Durchschnitt der beiden Mittelwerte gebildet wird, was 65,5 ergibt. Der Modus, der häufigste Wert, ist 65.

Für jedes Maß der zentralen Tendenz gibt es auch eine grafische Interpretation. In einem Histogramm ist der Modus der höchste Punkt im Histogramm, der den häufigsten Wert darstellt. Der Median ist der Wert, der das Histogramm in zwei Hälften teilt und die Fläche gleichmäßig aufteilt. Der Mittelwert ist der Wert, der ein Gleichgewicht des Histogramms ermöglichen würde.

Betrachten Sie das Beispiel eines Histogramms. Der Modus kann bestimmt werden, indem der x-Wert identifiziert wird, bei dem das Histogramm am höchsten ist, was in diesem Fall etwas größer als 3 ist. Der Median ist der Wert, der die Fläche des Histogramms in zwei Hälften teilt, also etwa 4,5. Der Mittelwert ist der Wert, der das Histogramm ausgleichen würde, also etwas weniger als 5.

Warum brauchen wir drei Maßstäbe für die zentrale Tendenz? Jede Maßnahme hat ihre Vor- und Nachteile. Der Mittelwert wird häufig in der statistischen Analyse verwendet und ist intuitiv. Es wird jedoch stark von Ausreißern beeinflusst und ist möglicherweise nicht für schiefe Verteilungen geeignet.

Der Median ist einfach zu berechnen und zu verstehen und reagiert nicht auf Ausreißer. Es werden jedoch nicht alle Informationen im Datensatz genutzt und es kann zu Herausforderungen bei der statistischen Schlussfolgerung kommen.

Der Modus ist ein universelles Maß für die zentrale Tendenz, auch für kategoriale Variablen. Allerdings stellt der häufigste Wert nicht unbedingt die Mitte der Verteilung dar, wodurch er als Maß für die Mitte weniger zuverlässig ist.

Betrachten Sie einen kleinen Datensatz mit Prüfungsergebnissen, einschließlich eines Ausreißers. In diesem Fall beschreibt der Mittelwert von 79 nicht genau die Leistung eines typischen Schülers. Der Medianwert von 94 ist ein aussagekräftigeres Maß. Durch Entfernen des Ausreißers wird der Unterschied deutlicher sichtbar, da sich der Mittelwert erheblich ändert, während der Median unverändert bleibt.

Wenn wir die Unterschiede zwischen Mittelwert, Median und Modus verstehen, können wir die zentralen Tendenzen eines Datensatzes effektiv interpretieren und kommunizieren und dabei ihre Stärken und Grenzen in verschiedenen Szenarien berücksichtigen.

 

Perzentile und Quantile in R


Perzentile und Quantile in R

Heute werden wir Perzentile und Quantile in R besprechen. Beginnen wir mit der Überprüfung ihrer Bedeutung.

Perzentile sind eine Möglichkeit, die relative Position eines Werts innerhalb eines Datensatzes zu messen. Im Allgemeinen ist das p-te Perzentil eines Datensatzes ein Wert, der größer als p Prozent der Daten ist. Beispielsweise ist das 50. Perzentil der Median, das 25. Perzentil das erste Quartil und das 75. Perzentil das dritte Quartil. Es stellt den Wert dar, der über 75 Prozent der Daten liegt.

Es gibt verschiedene Methoden zur Berechnung von Perzentilen, und es gibt keinen allgemein akzeptierten Ansatz. Die gute Nachricht ist jedoch, dass alle Methoden sehr ähnliche Ergebnisse liefern. Um Perzentile zu berechnen, ist es am besten, sich auf Technologien wie R zu verlassen, die effiziente und genaue Berechnungen ermöglichen.

Quantile hingegen sind im Wesentlichen dasselbe wie Perzentile. Der Begriff „Quantile“ wird jedoch häufig verwendet, wenn es um Dezimalwerte geht, während „Perzentile“ mit ganzzahligen Werten in Verbindung gebracht werden. Beispielsweise haben Sie möglicherweise das 15. Perzentil, aber das 0,15-Quantil. Der Vorteil von Quantilen besteht darin, dass sie eine höhere Präzision ermöglichen, indem Werte mit so vielen Dezimalstellen wie nötig ausgedrückt werden.

Wechseln wir nun zu R und untersuchen, wie Perzentile und Quantile mithilfe des „Faithful“-Datensatzes berechnet werden, der Informationen über die Eruptionslänge und Wartezeit des Old Faithful-Geysirs in den Vereinigten Staaten, gemessen in Minuten, enthält.

Um Perzentile und Quantile in R zu berechnen, können wir die Funktion „Quantil“ verwenden. Es erfordert zwei Argumente. Zuerst geben wir die Variable an, die uns interessiert, in diesem Fall „faithful$waiting“. Als nächstes geben wir das gewünschte Quantil an, geschrieben als Dezimalzahl. Um beispielsweise das 35. Perzentil (0,35-Quantil) zu berechnen, schreiben wir 0,35 als Quantilargument. Durch die Ausführung des Befehls erhalten wir das Ergebnis, in diesem Fall beispielsweise 65. Dies bedeutet, dass etwa 35 % aller Eruptionen eine Wartezeit von weniger als oder gleich 65 Minuten haben.

In R ist es möglich, mehrere Quantile gleichzeitig zu berechnen, indem ein Vektor von Quantilen bereitgestellt wird. Mit der Funktion „c()“ können wir beispielsweise die Quantile 0,35, 0,70 und 0,95 angeben. Das Ergebnis ist ein Vektor, der die jeweiligen Quantile enthält: 65, 81 und 89.

Ein weiterer nützlicher Befehl ist „summary“, der eine Zusammenfassung der Variablen bereitstellt. Indem wir die Variable „faithful$waiting“ an den Befehl übergeben, erhalten wir das erste Quartil (25. Perzentil), den Median (50. Perzentil), das dritte Quartil (75. Perzentil) sowie die Minimal-, Maximal- und Mittelwerte.

Wenden wir uns nun der gegenteiligen Frage zu. Wenn wir einen Wert im Datensatz haben und dessen Perzentil bestimmen möchten, können wir den Befehl „ecdf“ verwenden. Durch Angabe der interessierenden Variablen, beispielsweise „faithful$waiting“, und Bereitstellung eines bestimmten Werts aus dem Datensatz, beispielsweise 79, gibt der Befehl das Perzentil dieses Werts zurück. In diesem Beispiel beträgt das Ergebnis 0,6617647, was darauf hinweist, dass eine Wartezeit von 79 ungefähr dem 66. Perzentil entspricht.

Durch das Verständnis von Perzentilen und Quantilen können wir die relative Position von Werten innerhalb eines Datensatzes beurteilen und so wertvolle Einblicke in die Verteilung und Eigenschaften der Daten gewinnen.

 

Stichprobenvarianz und Standardabweichung


Stichprobenvarianz und Standardabweichung

Hallo zusammen, heute werden wir uns mit dem Konzept der Stichprobenvarianz und Standardabweichung befassen. Diese beiden Maße helfen uns, das Ausmaß der Variabilität oder Streuung in einem Datensatz zu verstehen. Sie geben Aufschluss darüber, wie weit die Werte im Datensatz im Durchschnitt vom Mittelwert abweichen.

Werfen wir einen Blick auf die Formeln. In den Formeln stellt „n“ die Gesamtstichprobengröße dar, „X_i“ bezeichnet die Werte im Datensatz (z. B. X_1, X_2, X_3 usw.) und „X bar“ (X mit einer Linie darüber) stellt den Stichprobenmittelwert dar. Während wir normalerweise Technologien wie R verwenden, um diese Kennzahlen zu berechnen, ist es wichtig, die zugrunde liegenden Konzepte zu verstehen, insbesondere da wir diese Berechnungen nicht mehr manuell durchführen.

Die Schlüsselkomponente beider Messungen ist der Begriff „X_i minus X-Balken“, der die Abweichung jedes Werts (X_i) vom Stichprobenmittelwert darstellt. Mit anderen Worten: Es wird quantifiziert, um wie viel sich jeder Wert positiv oder negativ vom Durchschnitt unterscheidet. Idealerweise möchten wir den Durchschnitt dieser Abweichungen ermitteln, aber die Bildung eines einfachen Durchschnitts würde Null ergeben, da sich positive und negative Abweichungen gegenseitig aufheben. Um dies zu beheben, quadrieren wir jede Abweichung (X_i minus X-Balken), bevor wir den Durchschnitt berechnen. Daraus ergibt sich die Formel für die Stichprobenvarianz, die den Durchschnitt der quadrierten Abweichungen vom Mittelwert darstellt.

Möglicherweise ist Ihnen jedoch aufgefallen, dass wir in der Varianzformel durch (n-1) statt durch n dividieren. Dafür gibt es mehrere Gründe, aber hier ist ein einfacher: Bei der Berechnung des Stichprobenmittelwerts (X-Balken) benötigen wir nur (n-1) der X_i-Werte. Dies liegt daran, dass X bar als Summe aller X_i dividiert durch n berechnet wird. Somit können wir nach jedem X_i-Wert auflösen, sobald wir X bar haben. Die Division durch (n-1) berücksichtigt dies und stellt sicher, dass wir den Durchschnitt von (n-1) unterschiedlichen Abweichungen berechnen, nicht alle n davon. Auf diese Weise erhalten wir die Stichprobenvarianz als aussagekräftiges Maß für die Variabilität.

Ein weiteres Problem besteht darin, dass die Varianz nicht im gleichen Maßstab liegt wie die Originaldaten, was sie abstrakt macht. Um dieses Problem zu beheben, ziehen wir die Quadratwurzel aus der Stichprobenvarianz und erhalten so die Formel für die Stichprobenstandardabweichung. Während die Standardabweichung mehr Rechenaufwand erfordert und theoretisch eine Herausforderung darstellen kann, ist sie einfacher zu interpretieren und zu visualisieren als die Varianz. Sowohl Varianz als auch Standardabweichung haben ihre Verwendung in unterschiedlichen Kontexten.

Betrachten wir ein Beispiel mit einem Datensatz von nur vier Werten. Um die Stichprobenvarianz und Standardabweichung zu berechnen, berechnen wir zunächst den Stichprobenmittelwert, indem wir die vier Werte summieren und durch vier dividieren. So erhalten wir einen Mittelwert von 121. Mithilfe der Varianzformel quadrieren wir die Abweichungen (X_i minus X-Balken) für jeden Wert und Durchschnitt der quadratischen Abweichungen, dividiert durch drei (eins weniger als die Anzahl der Werte). Dies ergibt eine Varianz von 220. Dieser Wert ist jedoch nicht unmittelbar interpretierbar. Um dies zu beheben, ziehen wir die Quadratwurzel der Varianz, was zu einer Standardabweichung von 14,8 führt. Dieser Wert ist als Maß für die Streuung im Datensatz sinnvoller.

Aus technischer Sicht können wir in R Befehle wie „var“ und „sd“ verwenden, um die Varianz bzw. die Standardabweichung zu berechnen. Es wird dringend empfohlen, für diese Berechnungen Technologie zu nutzen, da diese Zeit spart und genaue Ergebnisse liefert. Die manuelle Berechnung von Varianz und Standardabweichung ist in den meisten Fällen nicht mehr erforderlich.

Darüber hinaus ist zu beachten, dass in den meisten Fällen etwa zwei Drittel der Datenwerte innerhalb einer Standardabweichung vom Mittelwert liegen. Bei einer glockenförmigen Verteilung (Normalverteilung) liegen etwa 68 % der Daten innerhalb einer Standardabweichung, etwa 95 % innerhalb von zwei Standardabweichungen und fast alle (99,7 %) liegen innerhalb von drei Standardabweichungen vom Mittelwert. Dies ist als empirische Regel oder 68-95-99,7-Regel bekannt.

Um dies zu veranschaulichen, betrachten wir einen Datensatz mit 200 Werten, die zufällig aus ganzen Zahlen zwischen 0 und 100 ausgewählt werden. Der Mittelwert dieses Datensatzes beträgt 49,9 und die Standardabweichung beträgt 27,3. Wenn wir die empirische Regel anwenden und eine Standardabweichung über und unter dem Mittelwert liegen, würden wir 68 % der Werte erfassen, was 136 Werten entspricht. Wenn die Verteilung einer Glockenform folgt (Normalverteilung), können wir noch genauere Schätzungen vornehmen. In diesem Fall würden etwa 95 % der Werte (190 von 200) innerhalb von zwei Standardabweichungen vom Mittelwert liegen, und fast alle Werte (199 von 200) würden innerhalb von drei Standardabweichungen vom Mittelwert liegen.

Lassen Sie uns mit einem weiteren Beispiel schließen, das die empirische Regel verwendet. Angenommen, wir haben Ergebnisse aus einem standardisierten Test, die ungefähr einer glockenförmigen Verteilung folgen. Der mittlere Wert liegt bei 1060 und die Standardabweichung bei 195. Unter Anwendung der empirischen Regel können wir schätzen, dass etwa 68 % der Werte zwischen 865 und 1255 liegen würden (eine Standardabweichung unter und über dem Mittelwert). Ungefähr 95 % der Werte würden zwischen 670 und 1450 liegen (zwei Standardabweichungen unter und über dem Mittelwert). Schließlich lägen etwa 99,7 % der Werte im Bereich von 475 und 1645 (drei Standardabweichungen unter und über dem Mittelwert).

Das Verständnis von Varianz und Standardabweichung hilft uns, die Streuung und Variabilität innerhalb eines Datensatzes zu erfassen. Während die Technologie ihre Berechnung erleichtert, ist es entscheidend, die zugrunde liegenden Konzepte zu verstehen, um Daten effektiv zu interpretieren und zu analysieren. Durch die Nutzung dieser Maßnahmen können wir wertvolle Erkenntnisse gewinnen und fundierte Entscheidungen auf der Grundlage der Eigenschaften der Daten treffen.

 

Z-Scores


Z-Scores

Hallo zusammen, in der heutigen Diskussion werden wir uns mit Z-Scores befassen, die auch als Standard-Scores bekannt sind. Mit dieser Methode können wir die relative Position von Werten innerhalb eines Datensatzes messen.

Ein Z-Score stellt die Anzahl der Standardabweichungen dar, um die ein Wert vom Mittelwert abweicht. Wenn wir beispielsweise einen Datensatz mit einem Mittelwert von 50 und einer Standardabweichung von 8 haben, hätte ein Wert von 62 einen Z-Score von 1,5. Das bedeutet, dass der Wert von 62 1,5 Standardabweichungen über dem Mittelwert liegt.

Z-Scores sind besonders nützlich für die Beurteilung relativer Positionen in Datensätzen mit symmetrischen Verteilungen, insbesondere solchen, die einer Glocken- oder Normalverteilung folgen. Wenn Sie jedoch mit verzerrten Daten oder Datensätzen mit Ausreißern arbeiten, repräsentieren der Mittelwert und die Standardabweichung möglicherweise nicht genau den Mittelpunkt und die Streuung der Daten. Folglich verringert sich in solchen Fällen der Nutzen von Z-Scores.

Die Formel zur Berechnung eines Z-Scores lautet: z = (x – μ) / σ, wobei x der Wert im Datensatz, μ der Mittelwert und σ die Standardabweichung ist. Der Mittelwert wird manchmal durch x-bar und die Standardabweichung durch s dargestellt, aber die Formel bleibt dieselbe.

Z-Scores sind besonders wertvoll, wenn die relativen Positionen von Werten in verschiedenen Datensätzen verglichen werden. Betrachten wir ein Beispiel, um dies zu veranschaulichen. Die durchschnittliche Körpergröße erwachsener Männer in den Vereinigten Staaten beträgt 69,4 Zoll, mit einer Standardabweichung von 3,0 Zoll. Andererseits beträgt die durchschnittliche Körpergröße erwachsener Frauen in den Vereinigten Staaten 64,2 Zoll, mit einer Standardabweichung von 2,7 Zoll. Jetzt können wir die relative Seltenheit eines 64,2 Zoll großen Mannes und einer 69,4 Zoll großen Frau vergleichen.

Um den Z-Score für den Mann zu berechnen, verwenden wir die Formel (64,2 – 69,4) / 3,0. Der resultierende Z-Score beträgt -1,73, was darauf hinweist, dass die Körpergröße des Mannes 1,73 Standardabweichungen unter der Durchschnittsgröße der Männer liegt. Für die Frau beträgt der Z-Score (69,4 – 64,2) / 2,7, was einen Z-Score von 1,93 ergibt. Das bedeutet, dass die Körpergröße der Frau 1,93 Standardabweichungen über der durchschnittlichen Körpergröße von Frauen liegt. Wenn wir die absoluten Werte der beiden Z-Scores vergleichen, können wir schlussfolgern, dass die Körpergröße der Frau im Vergleich zur durchschnittlichen Körpergröße von Frauen ungewöhnlicher ist.

Es ist wichtig zu beachten, dass Z-Scores allein keine endgültige Unterscheidung zwischen „normalen“ und „ungewöhnlichen“ Werten ermöglichen. Eine gängige Konvention besteht darin, Werte, die mehr als zwei Standardabweichungen vom Mittelwert entfernt sind, als ungewöhnlich und Werte, die mehr als drei Standardabweichungen vom Mittelwert entfernt sind, als sehr ungewöhnlich zu betrachten. Dies ist jedoch nur eine Faustregel und die Entscheidung hängt letztendlich vom Kontext und der spezifischen Verteilung der Daten ab.

Um dies zu demonstrieren, betrachten wir den Fall eines 76 Zoll großen Mannes. Mit der gleichen Formel und dem angegebenen Mittelwert und der Standardabweichung für Männer berechnen wir einen Z-Score von 2,2. Da dieser Wert im absoluten Wert größer als 2 ist, würden wir die Größe des Mannes gemäß der Konvention als ungewöhnlich betrachten.

Die empirische Regel bietet einen Leitfaden für den Umgang mit annähernd glockenförmigen Verteilungen. Etwa 68 % der Werte liegen innerhalb einer Standardabweichung vom Mittelwert (Z-Scores zwischen -1 und 1), etwa 95 % liegen innerhalb von zwei Standardabweichungen (Z-Scores zwischen -2 und 2) und etwa 99,7 % liegen innerhalb von drei Standardabweichungen (Z-Scores zwischen -3 und 3).

Zusammenfassend lässt sich sagen, dass Z-Scores eine nützliche Möglichkeit bieten, die relative Position von Werten innerhalb eines Datensatzes zu beurteilen. Sie sind besonders wertvoll, um Werte verschiedener Datensätze zu vergleichen und die Seltenheit oder Ungewöhnlichkeit eines bestimmten Werts zu bestimmen. Bei der Interpretation von Z-Scores ist es jedoch wichtig, die Form der Verteilung, Ausreißer und den Kontext der Daten zu berücksichtigen.

Lassen Sie uns mit einem kurzen Beispiel schließen. Angenommen, wir haben einen Datensatz zur Körpergröße erwachsener Frauen in den Vereinigten Staaten, der ungefähr einer glockenförmigen Verteilung folgt. Die mittlere Körpergröße beträgt 64,2 Zoll mit einer Standardabweichung von 2,7 Zoll.

Mithilfe der empirischen Regel können wir die Größenbereiche abschätzen, in die ein bestimmter Prozentsatz der Frauen fällt. Innerhalb einer Standardabweichung vom Mittelwert werden etwa 68 % der Körpergrößen von Frauen gefunden. Durch Subtraktion von 2,7 von 64,2 erhalten wir 61,5 Zoll und durch Addition von 2,7 erhalten wir 66,9 Zoll. Somit können wir schätzen, dass etwa 68 % der Frauen eine Körpergröße zwischen 61,5 und 66,9 Zoll haben.

Unter Berücksichtigung zweier Standardabweichungen stellen wir fest, dass etwa 95 % der Körpergrößen von Frauen in diesem Bereich liegen. Wenn wir zweimal 2,7 vom Mittelwert subtrahieren, erhalten wir 58,8 Zoll, und wenn wir zweimal 2,7 addieren, erhalten wir 69,6 Zoll. Daher ist davon auszugehen, dass etwa 95 % der Frauen eine Körpergröße zwischen 58,8 und 69,6 Zoll haben.

Schließlich subtrahieren wir innerhalb von drei Standardabweichungen, die etwa 99,7 % der Daten abdecken, dreimal 2,7 vom Mittelwert, um 56,1 Zoll zu erhalten, und addieren dreimal 2,7, um 71,7 Zoll zu erhalten. Daher können wir schätzen, dass etwa 99,7 % der Frauen eine Körpergröße zwischen 56,1 und 71,7 Zoll haben.

Das Verständnis von Z-Scores und ihrer Interpretation ermöglicht es uns, die relative Position und Seltenheit von Werten innerhalb eines Datensatzes zu beurteilen und wertvolle Erkenntnisse in verschiedenen Bereichen wie Statistik, Forschung und Datenanalyse zu liefern.

Denken Sie daran, dass Z-Scores ein standardisiertes Maß für die relative Position unter Berücksichtigung des Mittelwerts und der Standardabweichung des Datensatzes darstellen. Sie sind ein leistungsstarkes Werkzeug zum Verständnis der Verteilung und zum Vergleichen von Werten zwischen verschiedenen Datensätzen.

 

Die Fünf-Zahlen-Zusammenfassung und der 1,5-fache IQR-Test für Ausreißer


Die Fünf-Zahlen-Zusammenfassung und der 1,5-fache IQR-Test für Ausreißer

Hallo an alle! Heute werden wir uns mit den Konzepten der Fünf-Zahlen-Zusammenfassung und dem 1,5-fachen IQR-Test für Ausreißer befassen. Beginnen wir mit der Definition der Quartile eines Datensatzes. Quartile sind Werte, die einen Datensatz in vier gleiche Teile unterteilen. Das erste Quartil (Q1) liegt über etwa 25 % der Daten, das zweite Quartil (Q2) liegt über etwa der Hälfte der Daten (auch als Median bezeichnet) und das dritte Quartil (Q3) liegt über etwa 75 % der Daten Daten.

Es ist wichtig zu beachten, dass die Aufteilung in vier gleiche Teile möglicherweise nicht genau ist, wenn der Datensatz nicht gleichmäßig aufgeteilt ist. Das erste und dritte Quartil können ermittelt werden, indem zunächst der Median ermittelt wird. Um Q1 und Q3 zu finden, teilen wir den Datensatz in eine obere und eine untere Hälfte und berechnen die Mediane dieser beiden Hälften. Der Median der oberen Hälfte ist Q3, während der Median der unteren Hälfte Q1 ist.

Lassen Sie uns ein Beispiel durchgehen, um dies zu veranschaulichen. Betrachten Sie den folgenden Datensatz mit 17 Werten, aufgelistet vom niedrigsten zum höchsten. Der Median oder Q2 ist der Wert in der Mitte, in diesem Fall der neunte Wert (da 17 eine ungerade Anzahl von Werten ist). Daher beträgt der Median 42. Um Q1 zu finden, betrachten wir die acht Werte, die kleiner als der Median sind. Wenn wir sie sortieren, finden wir 16, 18, 20 und 22. Da es sich um eine gerade Anzahl von Werten handelt, nehmen wir den Durchschnitt der beiden mittleren Werte, was 18 ergibt. Ebenso betrachten wir für Q3 die acht Werte größer als der Median, der 45, 48, 50 und 55 beträgt. Wenn wir wiederum den Durchschnitt der beiden Mittelwerte nehmen, erhalten wir Q3 als 52.

In diesem Beispiel lauten die Quartile also Q1 = 18, Q2 = 42 und Q3 = 52. Die fünfstellige Zusammenfassung eines Datensatzes besteht aus diesen Quartilen sowie den Minimal- und Maximalwerten im Datensatz. In unserem Fall lautet die fünfstellige Zusammenfassung 5, 18, 42, 52 und 93, wobei 5 den Mindestwert und 93 den Höchstwert darstellt.

Ein weiteres nützliches Maß ist der Interquartilbereich (IQR), der die Streuung der mittleren Hälfte der Daten quantifiziert. Sie wird als Differenz zwischen Q3 und Q1 berechnet. In unserem Beispiel beträgt der IQR 52 – 18 = 34. Der IQR konzentriert sich auf den Wertebereich innerhalb der mittleren 50 % des Datensatzes und wird von Extremwerten weniger beeinflusst.

Betrachten wir nun ein weiteres Beispiel. Angenommen, wir haben die unten aufgeführten Prüfungsergebnisse von 22 Studenten. Wir wollen die Verteilung der Ergebnisse mithilfe der Fünf-Zahlen-Zusammenfassung und des IQR beschreiben. Erstens sollten wir vorsichtig sein, den Mittelwert als Maß für die Mitte zu verwenden, da er durch Extremwerte beeinflusst werden könnte. In diesem Fall liegt der Mittelwert bei 75,3, aber da einige Schüler außergewöhnlich schlechte Ergebnisse erzielten, spiegelt der Mittelwert möglicherweise nicht genau die typische Schülerleistung wider. Ebenso kann der Bereich, der die Differenz zwischen dem Minimal- und Maximalwert (2 bzw. 100) darstellt, aufgrund der Extremwerte irreführend sein.

Um eine genauere Beschreibung zu erhalten, berechnen wir die fünfstellige Zusammenfassung. Wenn wir die Ergebnisse sortieren, finden wir den Minimalwert 2 und den Maximalwert 100. Der Median (Q2) ist der Wert in der Mitte, der in diesem Fall 80 beträgt. Die untere Hälfte des Datensatzes besteht aus den acht Werten kleiner als der Median, mit 76 und 83 als den beiden Mittelwerten. Wenn wir ihren Durchschnitt nehmen, finden wir für Q1 einen Wert von 79. Ebenso haben wir für die obere Hälfte des Datensatzes einen Median von 83, was zu einem Q3 von 83 führt.

Daher ist die fünfstellige Zusammenfassung für diesen Datensatz 2, 79, 80, 83 und 100. Aus dieser Zusammenfassung sehen wir, dass die mittlere Hälfte der Werte zwischen 79 und 83 liegt, was darauf hindeutet, dass die Werte dicht beieinander liegen Median.

Um Ausreißer im Datensatz zu identifizieren, können wir den 1,5-fachen IQR-Test verwenden. Der zuvor berechnete IQR beträgt 83 - 79 = 4. Die Multiplikation des IQR mit 1,5 ergibt 6. Wir subtrahieren 6 von Q1 und addieren 6 zu Q3, um den Bereich festzulegen, innerhalb dessen Werte nicht als Ausreißer gelten. In diesem Fall sollte jeder Wert unter 73 oder über 89 gemäß dieser Regel als Ausreißer behandelt werden.

Wenn wir diesen Test auf den Datensatz anwenden, stellen wir fest, dass 2 und 100 als Ausreißer betrachtet werden sollten. Als Professor empfiehlt es sich, diese Extremwerte bei der Ermittlung der Prüfungskurve außer Acht zu lassen oder ihnen weniger Gewicht zu geben.

Durch die Verwendung der Fünf-Zahlen-Zusammenfassung, des IQR und des 1,5-fachen IQR-Tests erhalten wir ein besseres Verständnis der Verteilung der Ergebnisse und können potenzielle Ausreißer identifizieren, die sich auf die Gesamtanalyse auswirken könnten.

 

Boxplots


Boxplots

Heute besprechen wir Boxplots, auch Box- und Whisker-Plots genannt. Ein Boxplot ist eine grafische Darstellung eines Datensatzes mit einer Variablen basierend auf der Zusammenfassung mit fünf Zahlen. Schauen wir uns gleich ein Beispiel an, um sie besser zu verstehen.

Angenommen, wir haben einen Datensatz, für den wir eine Zusammenfassung mit fünf Zahlen und ein Boxplot erstellen möchten. Der Datensatz lautet wie folgt: 34, 42, 48, 51,5 und 58. Zuerst ordnen wir die Zahlen in aufsteigender Reihenfolge an, um die minimalen (34) und maximalen (58) Werte zu ermitteln. Da die Anzahl der Werte ungerade ist, ist der Median der Wert in der Mitte, in diesem Fall also 48.

Als nächstes teilen wir den Datensatz in zwei Hälften: die untere Hälfte und die obere Hälfte. Der Median der unteren Hälfte liegt bei 42, der Median der oberen Hälfte bei 51,5. Diese Werte werden als erstes Quartil (Q1) bzw. drittes Quartil (Q3) bezeichnet.

Mithilfe der Fünf-Zahlen-Zusammenfassung können wir das Boxplot erstellen. Der Boxplot besteht aus einer Box, die den Bereich zwischen Q1 und Q3 darstellt. Der untere Teil des Kastens entspricht Q1, der obere Teil des Kastens entspricht Q3 und die horizontale Linie innerhalb des Kastens stellt den Median dar. Die „Arme“ des Boxplots erstrecken sich von der Box bis zu den Minimal- und Maximalwerten (34 bzw. 58).

Der Zweck des Boxplots besteht darin, die Verteilung der Daten zu visualisieren. Das Kästchen stellt die mittleren 50 % des Datensatzes dar, während die Arme die restlichen Werte umfassen. Da es im gegebenen Beispiel keine Extremwerte gibt, werden im Boxplot auch keine Ausreißer angezeigt.

Betrachten wir ein weiteres Beispiel, bei dem wir die Fünf-Zahlen-Zusammenfassung ermitteln, mit dem 1,5-fachen IQR-Test auf Ausreißer testen und ein Boxplot erstellen möchten. Der Datensatz lautet wie folgt: 62, 64, 75, 81,5 und 110.

Wenn wir den Interquartilbereich (IQR) berechnen, indem wir Q1 von Q3 subtrahieren, erhalten wir einen Wert von 17,5. Um den 1,5-fachen IQR-Test durchzuführen, multiplizieren wir den IQR mit 1,5. Subtrahiert man das 1,5-fache des IQR von Q1 (64 – 1,5 * 17,5), erhält man 37,5. Wenn wir das 1,5-fache des IQR zu Q3 addieren (81,5 + 1,5 * 17,5), erhalten wir 107,75. Jeder Wert unter 37,5 oder über 107,75 sollte als Ausreißer betrachtet werden.

In diesem Fall überschreitet der Wert 110 die Obergrenze und wird als Ausreißer eingestuft. Beim Erstellen des Boxplots zeichnen wir die Arme des Boxplots nur bis zu den extremsten Werten, die keine Ausreißer sind. Der Ausreißerwert von 110 wird durch einen separaten Punkt angezeigt und der obere Arm reicht nur bis 90, was den höchsten Wert innerhalb des Nicht-Ausreißerbereichs darstellt.

Boxplots sind besonders nützlich, wenn Daten zwischen Gruppen verglichen werden, z. B. beim Zeichnen einer kategorialen und einer quantitativen Variablen. Diese Art von Plot, oft auch als Side-by-Side-Boxplot bezeichnet, ermöglicht einen klaren visuellen Vergleich verschiedener Gruppen. Als Beispiel können wir den berühmten Iris-Datensatz betrachten, in dem wir die Blütenblattbreiten von drei Arten vergleichen: Setosa, Versicolor und Virginica. Bei der Untersuchung des Boxplots können wir feststellen, dass die Setosa-Art im Vergleich zu den beiden anderen Arten im Allgemeinen schmalere Blütenblätter hat. Darüber hinaus können wir die Unterschiede in der Ausbreitung der Blütenblattbreiten innerhalb jeder Gruppe erkennen.

Zusammenfassend bieten Boxplots eine prägnante Visualisierung der Fünf-Zahlen-Zusammenfassung und ermöglichen einen einfachen Vergleich zwischen verschiedenen Gruppen. Sie zeigen das Minimum, das erste Quartil (Q1), den Median, das dritte Quartil (Q3) und die Maximalwerte eines Datensatzes an. Die Box stellt die mittleren 50 % der Daten dar, wobei die Unterseite der Box bei Q1 und die Oberseite der Box bei Q3 liegt. Die Linie innerhalb der Box stellt den Median dar.

Boxplots können auch Ausreißer anzeigen, also Werte, die außerhalb des durch den 1,5-fachen IQR-Test ermittelten Bereichs liegen. Um Ausreißer zu ermitteln, berechnen wir den IQR (Q3 – Q1) und multiplizieren ihn mit 1,5. Anschließend subtrahieren wir das 1,5-fache des IQR von Q1 und addieren das 1,5-fache des IQR zu Q3. Alle Werte unterhalb der Untergrenze oder oberhalb der Obergrenze gelten als Ausreißer.

Beim Erstellen eines Boxplots mit Ausreißern erstrecken sich die Diagrammarme nur bis zu den extremsten Werten, die keine Ausreißer sind. Ausreißer werden als einzelne Punkte außerhalb der Arme des Boxplots dargestellt. Dadurch wird sichergestellt, dass das Boxplot die Verteilung der Nicht-Ausreißerdaten genau darstellt und irreführende Interpretationen vermieden werden.

Boxplots sind besonders nützlich, wenn Daten zwischen verschiedenen Gruppen oder Kategorien verglichen werden. Durch die Darstellung mehrerer Boxplots nebeneinander wird es einfacher, die Verteilungen zu vergleichen und die Unterschiede in den analysierten Variablen zu verstehen.

Mithilfe des Iris-Datensatzes können wir beispielsweise einen Boxplot nebeneinander erstellen, um die Blütenblattbreiten der Arten Setosa, Versicolor und Virginica zu vergleichen. Dadurch können wir die Unterschiede in der Blütenblattbreite zwischen den Arten und die Streuung der Werte innerhalb jeder Gruppe visuell beobachten.

Zusammenfassend lässt sich sagen, dass Boxplots eine visuelle Zusammenfassung der fünfstelligen Zusammenfassung bieten und so das Verständnis der Datenverteilung und den Vergleich verschiedener Gruppen erleichtern. Sie liefern Einblicke in die zentrale Tendenz, Verbreitung und Präsenz von Ausreißern in einem Datensatz und machen sie zu einem wertvollen Werkzeug für die Datenanalyse und -visualisierung.

 

Boxplots in R


Boxplots in R

Hallo an alle! Heute lernen wir, wie man mit dem Befehl qplot schöne Boxplots in R erstellt. Es gibt mehrere Möglichkeiten, Boxplots in R zu erstellen, aber die optisch ansprechendsten kommen oft aus dem ggplot2-Paket, das Teil der Tidyverse-Paketfamilie ist. Also, lasst uns eintauchen!

Wenn Sie diese Funktionen noch nicht verwendet haben, müssen Sie das Tidyverse-Paket mit dem Befehl install.packages auf Ihrem Computer installieren. Dieser Schritt geht schnell, wenn Sie ihn noch nicht getan haben. Nach der Installation müssen Sie das Paket mit dem Befehl „library(tidyverse)“ zu Beginn jeder Sitzung in den Speicher laden, um auf seine Funktionen zuzugreifen.

In diesem Tutorial konzentrieren wir uns auf die Verwendung des Befehls qplot aus dem Paket ggplot2. Beginnen wir nun mit zwei Beispielen für die Erstellung von Boxplots.

Lassen Sie uns zunächst einige Daten manuell eingeben. Wir erstellen einen Vektor namens „scores“ mit einer Länge von 21, der die Punktzahlen von Schülern bei einer Mathematikprüfung in einer Klasse der Größe 21 darstellen könnte.

Um einen Boxplot der Ergebnisse zu erstellen, verwenden wir den Befehl qplot. Die grundlegende Syntax bleibt dieselbe: Geben Sie die Variablen für die x- und y-Achse an und verwenden Sie das Argument geom, um anzugeben, dass wir ein Boxplot wünschen. In diesem Fall tragen wir die Ergebnisse auf der x-Achse ein.

Um unseren Boxplot optisch ansprechender zu gestalten, können wir einige Verbesserungen vornehmen. Erstens können wir mit y = „“ die bedeutungslosen Zahlen auf der y-Achse entfernen. Wenn wir als nächstes ein vertikales Boxplot wünschen, können wir die Achsen wechseln, indem wir y für die Werte verwenden und die Beschriftung der x-Achse entfernen. Mithilfe der Argumente „color“ und „fill“ können wir den Linien und dem Inneren des Felds auch Farbe hinzufügen. Schließlich können wir die Beschriftungen anpassen und dem Diagramm mithilfe von ylab und Hauptargumenten einen Titel hinzufügen.

Fahren wir nun mit dem zweiten Beispiel fort, bei dem ein integrierter Datensatz namens chickweights verwendet wird. Dieser Datensatz enthält 71 Beobachtungen mit zwei Variablen: Gewichte verschiedener Küken und das ihnen gegebene Futter. Wir erstellen einen Boxplot nebeneinander, um die Verteilung des Kükengewichts auf verschiedene Futterarten zu vergleichen.

Ähnlich wie im vorherigen Beispiel verwenden wir den Befehl qplot und geben den Datensatz mit data = chickweights an. Anschließend geben wir an, dass wir ein vertikales Boxplot mit den Gewichten auf der y-Achse und den Vorschüben auf der x-Achse wünschen. Um die Boxplots nach Feed-Typ zu unterscheiden, können wir das Argument „fill“ verwenden und es der Feed-Variablen zuordnen.

Auch hier stehen viele weitere Optionen zur Anpassung zur Verfügung, darunter Schriftarten, Etikettengrößen und Punktgrößen. Sie können weitere Informationen erhalten, indem Sie online suchen.

Mit nur wenigen Modifikationen können wir professionell aussehende Boxplots in R erstellen. Diese Beispiele demonstrieren die Leistungsfähigkeit und Flexibilität des ggplot2-Pakets für die Datenvisualisierung.

 

Wahrscheinlichkeitsexperimente, Ergebnisse, Ereignisse und Beispielräume


Wahrscheinlichkeitsexperimente, Ergebnisse, Ereignisse und Beispielräume

Hallo an alle! Heute werden wir uns mit den Grundlagen der Wahrscheinlichkeit befassen. Wir werden Themen wie Beispielräume, Ergebnisse, Ereignisse und mehr untersuchen. Ein Wahrscheinlichkeitsexperiment, auch Zufallsexperiment genannt, ist ein Versuch, bei dem das Ergebnis nicht mit Sicherheit vorhergesagt werden kann. Wiederholte Versuche können jedoch bestimmte Trends aufdecken. Schauen wir uns ein paar Beispiele an.

  1. Werfen Sie eine Münze und notieren Sie, ob sie auf „Kopf“ oder „Zahl“ fällt.
  2. Verwenden Sie einen Zufallswähler, um 10 Wähler zu kontaktieren und zu fragen, wen sie wählen möchten.
  3. Wirf zwei Würfel und notiere die Summe der Zahlen.
  4. Wirf zwei Würfel und zähle, wie oft eine Sechs erscheint.

Beachten Sie, dass in den letzten beiden Beispielen die Aktion zwar dieselbe ist (zwei Würfel werfen), die aufgezeichneten Daten jedoch leicht unterschiedlich sind. Daher betrachten wir sie als separate Wahrscheinlichkeitsexperimente. Lassen Sie uns nun einige Vokabeln besprechen.

Das Ergebnis eines bestimmten Versuchs in einem Wahrscheinlichkeitsexperiment wird als Ergebnis bezeichnet. Die Sammlung aller möglichen Ergebnisse in einem Wahrscheinlichkeitsexperiment wird als Stichprobenraum bezeichnet (gekennzeichnet mit einem großen S). Eine Teilmenge des Probenraums wird als Ereignis bezeichnet.

Um dies zu veranschaulichen, betrachten wir ein Beispiel. Angenommen, wir werfen zwei Münzen und notieren die Ergebnisse. Der Stichprobenraum besteht aus vier Ergebnissen: Kopf-Kopf, Kopf-Zahl, Zahl-Kopf und Zahl-Zahl. Wenn wir das Ereignis E als „beide Würfe sind gleich“ definieren, dann haben wir zwei Ergebnisse innerhalb dieses Ereignisses: Kopf-Kopf und Zahl-Zahl. Dieses Ereignis ist eine Teilmenge des Beispielraums.

Im Allgemeinen stellt ein Ereignis etwas dar, das während eines Wahrscheinlichkeitsexperiments auftreten kann, es kann jedoch mehrere Möglichkeiten geben, wie es eintritt. Im vorherigen Beispiel kann das Ereignis „beide Flips sind gleich“ auf zwei verschiedene Arten auftreten.

Wenn ein Ereignis nur auf eine Weise eintreten kann, also aus einem einzigen Ergebnis besteht, nennen wir es ein einfaches Ereignis. Das Komplement eines Ereignisses E, das als E' oder manchmal mit einem Balken über E bezeichnet wird, ist die Menge aller Ergebnisse im Stichprobenraum, die nicht in E liegen. Wenn E auftritt, tritt E' nicht auf und umgekehrt.

Angenommen, wir wählen mithilfe eines Spinners zufällig eine ganze Zahl von 1 bis 9 aus. Sei E das Ereignis „Das Ergebnis ist eine Primzahl“. Der Probenraum sind die ganzen Zahlen von 1 bis 9, und E ist die Menge der Primzahlen kleiner als 10: {2, 3, 5, 7}. Das Komplement von E (E') ist das Ereignis, dass E nicht eintritt und besteht aus den Zahlen kleiner als 10, die keine Primzahlen sind: {1, 4, 6, 8, 9}.

Zwei Ereignisse sind disjunkt, wenn sie keine gemeinsamen Ergebnisse haben, was bedeutet, dass sie nicht beide gleichzeitig in einem Versuch des Wahrscheinlichkeitsexperiments auftreten können. Erwägen Sie beispielsweise, vier Münzen zu werfen und die Ergebnisse aufzuzeichnen. Sei E das Ereignis „Die ersten beiden Würfe sind Kopf“ und F sei das Ereignis „Es gibt mindestens drei Zahlen“. Diese beiden Ereignisse können wie folgt dargestellt werden:

E: {HHHH, HHHH...} F: {TTTTT, TTTTH, TTTHT, TTTTH...}

Beachten Sie, dass die Mengen E und F keine gemeinsamen Ergebnisse haben. Daher sind diese Ereignisse disjunkt.

Es gibt verschiedene Möglichkeiten, die Wahrscheinlichkeit eines Ereignisses zu beschreiben, und zwei gängige Ansätze sind die empirische Wahrscheinlichkeit (oder statistische Wahrscheinlichkeit) und die klassische Wahrscheinlichkeit (oder theoretische Wahrscheinlichkeit).

Die empirische Wahrscheinlichkeit basiert auf Beobachtung. Wir führen ein Wahrscheinlichkeitsexperiment mehrmals durch, zählen, wie oft das Ereignis eintritt, und dividieren es durch die Gesamtzahl der Versuche. Sie entspricht dem Anteil der Häufigkeit, mit der das Ereignis in der Vergangenheit aufgetreten ist. Wenn wir beispielsweise eine Münze 100 Mal werfen und sie 53 Mal „Kopf“ zeigt, beträgt die empirische Wahrscheinlichkeit, dass die Münze „Kopf“ ergibt, 53/100 oder 53 %.

Die klassische Wahrscheinlichkeit hingegen gilt, wenn alle Ergebnisse in einem Stichprobenraum gleich wahrscheinlich sind. Wir zählen die Anzahl der Ergebnisse im Ereignis und dividieren sie durch die Gesamtzahl der Ergebnisse im Stichprobenraum. Mathematisch wird es als Kardinalität (Anzahl der Elemente) des Ereignisses E dividiert durch die Kardinalität des Stichprobenraums S ausgedrückt. Wenn wir beispielsweise einen fairen Würfel werfen, gibt es sechs gleich wahrscheinliche Ergebnisse, und wenn wir daran interessiert sind Für das einfache Ereignis E, eine Fünf zu bekommen, beträgt die klassische Wahrscheinlichkeit 1/6.

Betrachten wir ein anderes Beispiel. Wenn wir eine faire Münze dreimal werfen, gibt es acht gleich wahrscheinliche Ergebnisse: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Sei E das Ereignis, bei dem es genau zwei Köpfe gibt. Innerhalb des Stichprobenraums gibt es für Ereignis E drei Ergebnisse (HHH, HHT und HTH). Daher beträgt die klassische Wahrscheinlichkeit für Ereignis E 3/8.

Lassen Sie uns nun eine Wahrscheinlichkeitsfrage anhand der Häufigkeitsverteilung eines Einführungskurses in die Statistik an einer großen Universität untersuchen. Die Verteilung zeigt die Anzahl der Schüler in jeder Klassenstufe: 67 Erstsemester, 72 Zweitsemester usw. Wenn wir zufällig eine Person aus dieser Klasse auswählen, wie hoch ist die Wahrscheinlichkeit, dass sie im zweiten Jahr ist? Dies ist eine klassische Wahrscheinlichkeitsfrage.

In der angegebenen Häufigkeitsverteilung gibt es insgesamt 222 Ergebnisse (Schüler in der Klasse), und davon entsprechen 72 Ergebnisse Studenten im zweiten Jahr. Somit beträgt die Wahrscheinlichkeit, einen Studenten im zweiten Studienjahr zufällig auszuwählen, 72/222, also etwa 32,4 %.

Nun richten wir unseren Fokus auf eine etwas andere Frage mit derselben Häufigkeitsverteilung. Wie hoch ist die Wahrscheinlichkeit, dass die nächste Person, die sich für den Kurs anmeldet, entweder ein Junior oder ein Senior ist? Dieses Mal interessiert uns die empirische Wahrscheinlichkeit, da wir keine Gewissheit über die zukünftige Registrierung haben.

Wir schauen uns die uns vorliegenden Daten über bereits angemeldete Studierende an. Darunter sind 29 Junioren und 54 Senioren. Um die empirische Wahrscheinlichkeit zu berechnen, teilen wir die Anzahl der Studierenden, die zur Veranstaltung passen (Junior oder Senior), durch die Gesamtzahl der eingeschriebenen Studierenden. Daher beträgt die Wahrscheinlichkeit (29 + 54) / 222, etwa 37,7 %.

Es ist wichtig zu beachten, dass bestimmte Fakten zutreffen, unabhängig davon, ob es sich um empirische oder klassische Wahrscheinlichkeiten handelt. Die Wahrscheinlichkeit eines Ereignisses liegt zwischen 0 und 1. Ein Ereignis mit einer Wahrscheinlichkeit von 0 ist unmöglich, während ein Ereignis mit einer Wahrscheinlichkeit von 1 sicher ist. Wenn der Probenraum als S bezeichnet wird, ist die Wahrscheinlichkeit, dass S auftritt, immer 1.

Wenn wir disjunkte Ereignisse E und F haben (ohne gemeinsame Ergebnisse), ist die Wahrscheinlichkeit, dass mindestens eines von ihnen eintritt, die Summe ihrer individuellen Wahrscheinlichkeiten. Die Wahrscheinlichkeit, dass E und F gleichzeitig auftreten, ist jedoch 0, da sie sich gegenseitig ausschließen.

Wenn es außerdem komplementäre Ereignisse gibt (Ereignisse, die alle möglichen Ergebnisse abdecken), ist die Summe ihrer Wahrscheinlichkeiten immer 1. Wenn Ereignis E eintritt, beträgt die Wahrscheinlichkeit, dass sein Komplement (E') nicht eintritt, 1 minus der Wahrscheinlichkeit, dass E eintritt.

In der Alltagssprache verwenden wir die Wahrscheinlichkeit oft informell, basierend auf Intuition und persönlicher Erfahrung. Dies wird als subjektive Wahrscheinlichkeit bezeichnet. In der Statistik verlassen wir uns jedoch bei strengen Berechnungen auf empirische und klassische Wahrscheinlichkeiten. Der subjektiven Wahrscheinlichkeit mangelt es an mathematischer Präzision und sie steht nicht im Mittelpunkt der statistischen Analyse.

 

Die Additionsregel für Wahrscheinlichkeiten


Die Additionsregel für Wahrscheinlichkeiten

Hallo zusammen, heute besprechen wir die Additionsregel für Wahrscheinlichkeiten. Mit dieser Regel können wir die Wahrscheinlichkeiten von Ereignisvereinigungen berechnen. Beginnen wir mit einer vereinfachten Version der Regel.

Angenommen, wir haben zwei Ereignisse, A und B, die disjunkt sind, was bedeutet, dass sie keine gemeinsamen Ergebnisse haben. In diesem Fall ist die Wahrscheinlichkeit, dass eines der beiden Ereignisse eintritt, einfach die Summe ihrer Einzelwahrscheinlichkeiten. Dies kann wie folgt geschrieben werden:

P(A ∪ B) = P(A) + P(B)

Hier stellt A ∪ B die Menge aller Ergebnisse dar, die in A oder in B liegen, was im Wesentlichen „A oder B“ bedeutet. Es ist wichtig, sich daran zu erinnern, dass disjunkte Ereignisse nicht beide auftreten können, da sie keine gemeinsamen Ergebnisse haben. Manchmal werden diese Ereignisse als sich gegenseitig ausschließend bezeichnet.

Um diese Version der Additionsregel zu veranschaulichen, betrachten wir ein Beispiel. Angenommen, wir würfeln zweimal mit einem fairen Würfel und definieren Ereignis A als den ersten Wurf mit einer Sechs und Ereignis B als die Summe der Würfe mit einer Drei. Diese Ereignisse schließen sich gegenseitig aus, denn wenn der erste Wurf eine Sechs ist, kann die Summe nicht drei sein. Um nun die Wahrscheinlichkeit von A oder B zu berechnen (der erste Wurf ist eine Sechs oder die Summe ist drei), benötigen wir die einzelnen Wahrscheinlichkeiten dieser Ereignisse.

Die Wahrscheinlichkeit, dass der erste Wurf eine Sechs ist, beträgt 1/6, da es sechs mögliche Ergebnisse gibt und nur eines davon eine Sechs ist. Die Wahrscheinlichkeit, dass die Summe der Würfe drei beträgt, beträgt 2/36, wenn man davon ausgeht, dass es insgesamt 36 mögliche Ergebnisse für zwei Würfelwürfe gibt und zwei Ergebnisse eine Summe von drei ergeben (1+2 und 2+1). Wenn wir diese Wahrscheinlichkeiten addieren, erhalten wir eine Gesamtwahrscheinlichkeit von 2/9.

Kommen wir zu einem weiteren Beispiel aus dem Lehrbuch „Elementary Statistics“ von Larson und Farber. In einer Umfrage unter Hausbesitzern wurden diese nach der Zeit gefragt, die zwischen den Hausreinigungen vergeht. Die Ergebnisse werden in einem Kreisdiagramm zusammengefasst, das verschiedene Zeitintervalle zeigt. Wir wollen die Wahrscheinlichkeit ermitteln, dass ein zufällig ausgewählter Hausbesitzer zwischen den Reinigungen mehr als zwei Wochen verstreichen lässt.

In diesem Fall interessiert uns die Wahrscheinlichkeit, einen Hausbesitzer aus dem blauen oder gelben Segment des Kreisdiagramms auszuwählen. Da sich diese Segmente gegenseitig ausschließen (Sie können Ihr Haus nicht gleichzeitig alle drei Wochen und alle vier Wochen oder länger reinigen), können wir die Wahrscheinlichkeiten dieser Ereignisse addieren. Die Wahrscheinlichkeit, das Haus alle drei Wochen zu reinigen, liegt bei 10 % und die Wahrscheinlichkeit, dass es alle vier Wochen oder länger gereinigt wird, bei 22 %. Addiert man diese Wahrscheinlichkeiten, ergibt sich eine Gesamtwahrscheinlichkeit von 32 %.

Betrachten wir nun einen allgemeineren Fall, in dem zwei Ereignisse, A und B, nicht disjunkt sind. In diesem Szenario wird die Additionsregel etwas komplexer. Die Wahrscheinlichkeit von A oder B ist gegeben durch:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Hier stellt A ∩ B die Ergebnisse dar, die sowohl in A als auch in B vorkommen. Es ist wichtig, die Wahrscheinlichkeit von A ∩ B zu subtrahieren, denn wenn sich A und B überlappen, werden die Ergebnisse in A ∩ B zweimal gezählt (einmal in A und einmal in B). ).

Um diese Version der Additionsregel zu veranschaulichen, verwenden wir ein Beispiel aus einer Umfrage zu Rauchgewohnheiten und der Verwendung von Sicherheitsgurten. Im Rahmen der Umfrage wurden 242 Befragte zu ihren Gewohnheiten befragt. Eine Tabelle fasst die Ergebnisse zusammen. Wir möchten die Wahrscheinlichkeit ermitteln, dass ein zufällig ausgewählter Befragter nicht raucht oder nicht angeschnallt ist.

Sei A das Ereignis, bei dem nicht geraucht wird, und B das Ereignis, bei dem kein Sicherheitsgurt angelegt wird. Uns interessiert die Wahrscheinlichkeit von A oder B (A ∪ B). Um dies zu berechnen, benötigen wir die individuellen Wahrscheinlichkeiten von A, B und A ∩ B. Die Wahrscheinlichkeit, nicht zu rauchen, beträgt 169 von 242, da es in der Stichprobe von 242 Personen 169 Personen gibt, die nicht rauchen. Die Wahrscheinlichkeit, keinen Sicherheitsgurt anzulegen, beträgt 114 von 242. Jetzt benötigen wir auch die Wahrscheinlichkeit von A ∩ B, die die Personen darstellt, die sowohl nicht rauchen als auch keinen Sicherheitsgurt tragen. Aus der Tabelle sehen wir, dass es 81 solcher Personen gibt.

Mit der Additionsregel für nicht disjunkte Ereignisse können wir die Wahrscheinlichkeit von A oder B wie folgt berechnen:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Wenn wir die Werte ersetzen, erhalten wir:

P(A ∪ B) = 169/242 + 114/242 - 81/242

Wenn wir den Ausdruck vereinfachen, finden wir Folgendes:

P(A ∪ B) = 202/242

Berechnen wir nun die Wahrscheinlichkeit von A oder B direkt durch Addition der einzelnen Wahrscheinlichkeiten. In diesem Fall können wir die Additionsregel für disjunkte Ereignisse verwenden, da sich die Ereignisse in jeder Zelle der Tabelle gegenseitig ausschließen. Wenn wir die Wahrscheinlichkeiten der fünf Zellen addieren, die A oder B darstellen, erhalten wir:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (verbleibende Wahrscheinlichkeiten)

Nachdem wir die Addition durchgeführt haben, kommen wir wieder auf die Wahrscheinlichkeit von 202/242.

Daher ergeben beide Methoden die gleiche Wahrscheinlichkeit für A oder B, nämlich 202/242.