Programmier-Tutorial - Seite 14

 

Die Normalverteilung


Die Normalverteilung

Heute werden wir normale Wahrscheinlichkeitsverteilungen und die empirische Regel diskutieren. Wenn es sich um eine kontinuierliche Zufallsvariable handelt, nimmt ihre Dichtekurve häufig die Form einer Glockenkurve an. Diese glockenförmige Kurve zeigt an, dass sich der größte Teil der Wahrscheinlichkeit in der Nähe der Mitte bzw. des Mittelwerts der Verteilung konzentriert. Theoretisch sind jedoch so große oder so kleine Ergebnisse möglich, wie Sie sich vorstellen können.

Normalverteilungen sind in realen Szenarien häufig anzutreffen. Wenn wir beispielsweise die Länge zufällig ausgewählter Neugeborener messen, die Geschwindigkeiten von Fahrzeugen auf einer offenen Autobahn beobachten oder die Ergebnisse zufällig ausgewählter Schüler bei standardisierten Tests untersuchen, folgen alle diese Zufallsvariablen wahrscheinlich annähernd Normalverteilungen. Normalverteilungen weisen eine Symmetrie um den Mittelwert auf, was bedeutet, dass die Wahrscheinlichkeit, Ergebnisse zu erhalten, die unter dem Mittelwert liegen, dieselben ist wie die Wahrscheinlichkeit, Ergebnisse zu erhalten, die über dem Mittelwert liegen. Wenn wir also die Länge von Neugeborenen berücksichtigen, ist die Wahrscheinlichkeit gleich groß, dass wir auf Säuglinge stoßen, die über oder unter dem Durchschnitt liegen.

Die Merkmale einer Normalverteilung werden vollständig durch ihren Mittelwert und ihre Varianz (oder Standardabweichung) beschrieben. Der Mittelwert stellt das Zentrum der Verteilung dar, während die Standardabweichung den Abstand vom Mittelwert zu den Wendepunkten der Kurve darstellt. Diese Wendepunkte markieren den Übergang von der hügelartigen Form zur talartigen Form der Kurve.

Nehmen wir ein Beispiel mit SAT-Ergebnissen aus dem Jahr 2017. Die Ergebnisse im SAT waren annähernd normalverteilt mit einem Mittelwert von 1060 und einer Standardabweichung von 195. Wenn wir ein Diagramm dieser Verteilung erstellen, platzieren wir den Mittelwert bei 1060 und markieren die Wendepunkte als eins Standardabweichung vom Mittelwert in beide Richtungen. Wir können auch zusätzliche Punkte markieren, die einer Standardabweichung über und unter dem Mittelwert entsprechen.

Bei der Interpretation von Dichtekurven stellen die Flächen darunter Wahrscheinlichkeiten dar. Aus der Grafik können wir ersehen, dass die Wahrscheinlichkeit, zufällig einen Wert zwischen 865 und 1060 auszuwählen, wesentlich höher ist als die Wahrscheinlichkeit, einen Wert zwischen 670 und 865 auszuwählen. Um diese Wahrscheinlichkeiten zu quantifizieren, können wir die empirische Regel als Faustregel für die Schätzung des Normalwerts verwenden Wahrscheinlichkeiten.

Gemäß der empirischen Regel liegen in jeder Normalverteilung etwa 68 % der Wahrscheinlichkeit innerhalb einer Standardabweichung vom Mittelwert, 95 % innerhalb von zwei Standardabweichungen und 99,7 % innerhalb von drei Standardabweichungen. Diese Anteile entsprechen den Flächen unter der Kurve innerhalb der jeweiligen Regionen.

Wenn wir die empirische Regel auf unsere SAT-Score-Verteilung mit einem Mittelwert von 1060 und einer Standardabweichung von 195 anwenden, stellen wir fest, dass eine Wahrscheinlichkeit von 68 % besteht, zufällig einen Score zwischen 865 und 1255 auszuwählen, und eine Chance von 95 %, einen Score zwischen 670 auszuwählen und 1450 und eine 99,7-prozentige Chance, eine Punktzahl zwischen 475 und 1645 auszuwählen.

Mithilfe der Geometrie und der empirischen Regel können wir auch Wahrscheinlichkeiten für andere Szenarien berechnen. Beispielsweise ist die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mehr als eine Standardabweichung vom Mittelwert entfernt ist, gleich eins minus der Wahrscheinlichkeit, ein Ergebnis zu erhalten, das innerhalb einer Standardabweichung vom Mittelwert liegt. In ähnlicher Weise können wir die Wahrscheinlichkeit berechnen, einen Wert zu erhalten, der mehr als zwei Standardabweichungen unter dem Mittelwert liegt, indem wir das Komplement der Fläche innerhalb von zwei Standardabweichungen vom Mittelwert ermitteln.

Zusammenfassend lässt sich sagen, dass normale Wahrscheinlichkeitsverteilungen einer glockenförmigen Kurve folgen und die empirische Regel eine nützliche Näherung für die Schätzung von Wahrscheinlichkeiten innerhalb bestimmter Bereiche einer Normalverteilung darstellt.

 

Die Standardnormalverteilung


Die Standardnormalverteilung

Hallo zusammen, heute beschäftigen wir uns mit der Standardnormalverteilung. Dabei handelt es sich im Wesentlichen um eine Normalverteilung oder Glockenkurve mit einem Mittelwert von Null und einer Standardabweichung von Eins, wie hier dargestellt.

Wir haben es mit einer kontinuierlichen Zufallsvariablen zu tun, die jeden Wert zwischen negativer Unendlichkeit und positiver Unendlichkeit annehmen kann. Der Großteil der Wahrscheinlichkeit konzentriert sich jedoch nahe Null. Die Spitze der Kurve liegt im Mittelpunkt beim Mittelwert, der bei Null liegt, und die Wendepunkte liegen bei plus und minus eins, wo der Graph von einer Hügelform in eine Talform übergeht.

Um Zufallsvariablen zu bezeichnen, die einer Standardnormalverteilung folgen, verwenden wir oft den Buchstaben „z“. Die Standardnormalverteilung ist besonders nützlich, da jede Zufallsvariable mit einer Normalverteilung (mit Mittelwert mu und Standardabweichung Sigma) in eine Standardnormalverteilung umgewandelt werden kann. Diese Transformation wird durch Subtraktion des Mittelwerts und Division durch die Standardabweichung erreicht: z = (x – mu) / Sigma.

Lassen Sie uns nun über Z-Scores sprechen. Ein Z-Score stellt die Anzahl der Standardabweichungen dar, um die ein Wert x über oder unter dem Mittelwert liegt. Manchmal werden Z-Scores auch als Standard-Scores bezeichnet. Bei der Standardnormalverteilung konzentrieren wir uns nicht auf die Wahrscheinlichkeiten einzelner Werte, da es unendlich viele gibt. Stattdessen betrachten wir die Wahrscheinlichkeiten, dass z in bestimmte Bereiche fällt.

Bei der Betrachtung von Wahrscheinlichkeiten in der Standardnormalverteilung untersuchen wir Bereiche unter dem Diagramm auf den gewünschten Bereich. Schauen wir uns zum Beispiel die Wahrscheinlichkeit an, dass z zwischen -1 und 0,5 liegt. Wir wollen den schattierten Bereich unter dem Diagramm zwischen diesen beiden Werten finden. Denken Sie daran, dass die Gesamtfläche unter dem Diagramm immer eins ist, da sie die Gesamtwahrscheinlichkeit darstellt.

Um Wahrscheinlichkeiten für kontinuierliche Zufallsvariablen wie die Standardnormale zu beschreiben, verwenden wir üblicherweise kumulative Verteilungsfunktionen (CDFs). Der CDF gibt die Wahrscheinlichkeit an, dass eine Zufallsvariable kleiner oder gleich einem bestimmten Wert ist. In der Standardnormalverteilung verwenden wir für den CDF die Notation Phi(z).

Um Wahrscheinlichkeiten zu berechnen, wird empfohlen, Technologien wie Taschenrechner oder Software zu verwenden. Beispielsweise verfügt ein TI-Rechner über die Funktion „normalcdf“, Excel kann die Berechnungen durchführen und in R wird der Befehl „pnorm“ verwendet, um den CDF für die Standardnormalverteilung zu berechnen.

Betrachten wir ein Beispiel. Wenn wir die Wahrscheinlichkeit eines Z-Scores kleiner oder gleich 0,5 ermitteln möchten, können wir den CDF verwenden und Phi(0,5) berechnen, was ungefähr 0,691 ergibt. Daher liegt die Wahrscheinlichkeit, einen Z-Score kleiner oder gleich 0,5 zu erhalten, bei etwa 69,1 %.

Wenn wir im Allgemeinen die Wahrscheinlichkeit berechnen möchten, dass ein Z-Score in einen bestimmten Bereich (a bis b) fällt, subtrahieren wir die Wahrscheinlichkeit, dass z kleiner oder gleich a ist, von der Wahrscheinlichkeit, dass z kleiner oder gleich a ist B. Symbolisch kann dies als Phi(b) - Phi(a) geschrieben werden.

Schließlich ist es wichtig, sich daran zu erinnern, dass die Wahrscheinlichkeit eines einzelnen Z-Scores verschwindend gering ist. Die Wahrscheinlichkeit, dass z kleiner oder gleich einem bestimmten Wert (c) ist, ist dieselbe wie die Wahrscheinlichkeit, dass z kleiner als dieser Wert (c) ist. Darüber hinaus ist die Wahrscheinlichkeit, dass z größer als c ist, gleich eins minus der Wahrscheinlichkeit, dass z kleiner oder gleich c ist, da diese Ereignisse komplementär sind.

Zur Veranschaulichung bestimmen wir die Wahrscheinlichkeit, einen Z-Score von mehr als -1,5 zu erhalten. Mithilfe der oben genannten Tatsache zwei können wir 1 minus der Wahrscheinlichkeit berechnen, dass z kleiner oder gleich -1,5 ist, was ungefähr 93,3 % entspricht. Wie erwartet liegt diese Wahrscheinlichkeit deutlich über 50 %, wenn man bedenkt, dass wir uns bei einem negativen Z-Score ganz links auf der Glockenkurve befinden, was darauf hindeutet, dass ein erheblicher Teil der Fläche rechts von diesem Z-Score liegt.

Zusammenfassend lässt sich sagen, dass die Standardnormalverteilung, die durch einen Mittelwert von Null und eine Standardabweichung von Eins gekennzeichnet ist, ein grundlegendes Konzept in der Statistik ist. Durch die Verwendung von Z-Scores, die die Anzahl der Standardabweichungen eines Werts vom Mittelwert messen, können wir Wahrscheinlichkeiten bestimmen, die bestimmten Bereichen in der Verteilung zugeordnet sind. Zur Berechnung dieser Wahrscheinlichkeiten wird die kumulative Verteilungsfunktion (CDF) verwendet, die oft als Phi(z) bezeichnet wird. Zur Berechnung von CDF-Werten werden häufig Technologien wie Taschenrechner oder Statistiksoftware eingesetzt. Denken Sie daran, dass die Standardnormalverteilung es uns ermöglicht, Werte aus jeder Normalverteilung zu standardisieren und zu vergleichen, indem wir sie in Z-Scores umwandeln.

 

Berechnen von Normalwahrscheinlichkeiten mit R


Berechnen von Normalwahrscheinlichkeiten mit R

Hallo an alle! Heute tauchen wir mit RStudio in die Welt der Berechnung von Wahrscheinlichkeiten in Normalverteilungen ein. Beim Umgang mit normalverteilten Zufallsvariablen, die stetig sind, ist es nicht sinnvoll, die Wahrscheinlichkeit zu diskutieren, einen bestimmten individuellen Wert zu erhalten. Stattdessen verlassen wir uns auf die kumulative Verteilungsfunktion (CDF). Diese Funktion nimmt einen x-Wert und gibt die Wahrscheinlichkeit zurück, durch Zufall in der Normalverteilung eine Zahl zu erhalten, die kleiner oder gleich diesem x-Wert ist.

Um dieses Konzept besser zu verstehen, werfen wir einen Blick auf eine visuelle Darstellung. In der Grafik habe ich einen x-Wert markiert und der schattierte Bereich stellt die kumulative Wahrscheinlichkeit bis zu diesem x-Wert unter Verwendung des normalen CDF dar. Wenn wir uns auf die Standardnormalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1 beziehen, bezeichnen wir die Zufallsvariable oft als Z und verwenden ein großes Phi (Φ), um den CDF darzustellen.

Nun gibt es Fälle, in denen wir die Wahrscheinlichkeit berechnen möchten, dass eine Variable innerhalb einer Normalverteilung in einen bestimmten Bereich fällt und nicht nur unter eine einzelne Zahl. Wir können dies erreichen, indem wir die Wahrscheinlichkeit berechnen, dass sie kleiner oder gleich der oberen Zahl ist, und die Wahrscheinlichkeit, dass sie kleiner oder gleich der unteren Zahl ist, davon subtrahieren. Dies lässt sich visualisieren, indem man den schattierten Bereich unten rechts vom schattierten Bereich unten links subtrahiert.

Stellen wir unser Wissen auf die Probe, indem wir einige Berechnungen mit verschiedenen Normalverteilungen und Wahrscheinlichkeiten durchführen. Dazu wechseln wir zu RStudio. In R können wir die Funktion „Pnorm“ verwenden, die die kumulative Verteilungsfunktion für die Normalverteilung ist.

Betrachten wir zunächst eine N(5, 9)-Verteilung. Wir möchten die Wahrscheinlichkeit ermitteln, dass

Als nächstes bestimmen wir die Wahrscheinlichkeit, einen x-Wert größer als 10 zu erhalten. Da das Erhalten eines x-Werts größer als 10 das Komplement zum Erhalten eines x-Werts kleiner oder gleich 10 ist, können wir es berechnen, indem wir die Wahrscheinlichkeit davon subtrahieren Letzteres von 1. Durch Subtrahieren von „Pnorm(10, 5, 3)“ von 1 ermitteln wir, dass die Wahrscheinlichkeit ungefähr 0,048 beträgt.

Nun konzentrieren wir uns auf eine Normalverteilung mit einem Mittelwert von 100 und einer Varianz von 20. Uns interessiert die Wahrscheinlichkeit, dass X zwischen 92 und 95 liegt. Wir beginnen mit der Berechnung der Wahrscheinlichkeit, dass X kleiner oder gleich 95 ist mit „Pnorm(95, 100, sqrt(20))“. Anschließend subtrahieren wir mithilfe von „Pnorm(92, 100, sqrt(20))“ die Wahrscheinlichkeit, dass X kleiner oder gleich 92 ist. Das Ergebnis beträgt ca. 0,095.

Lassen Sie uns abschließend mit der Standardnormalverteilung arbeiten und die Wahrscheinlichkeit ermitteln, dass Z zwischen -1,2 und 0,1 liegt. Wir können „Pnorm(-1,2)“ direkt von „Pnorm(0,1)“ subtrahieren, um das Ergebnis von ungefähr 0,428 zu erhalten.

Zusammenfassend lässt sich sagen, dass wir durch die Nutzung der Stärke der Normalverteilung und der kumulativen Verteilungsfunktion Wahrscheinlichkeiten berechnen können, die verschiedenen Wertebereichen zugeordnet sind. RStudio stellt uns die notwendigen Werkzeuge, wie zum Beispiel die Funktion „Pnorm“, zur Verfügung, um diese Berechnungen effizient durchführen zu können.

 

Inverse Normalberechnungen


Inverse Normalberechnungen

Hallo an alle! Heute tauchen wir in die faszinierende Welt der inversen Normalberechnungen ein. Beginnen wir damit, unser Verständnis darüber aufzufrischen, wie wir Wahrscheinlichkeiten in der Standardnormalverteilung mithilfe der kumulativen Verteilungsfunktion (CDF) berechnen, die als Φ(z) bezeichnet wird. Die CDF verwendet einen Z-Score als Eingabe und gibt die Wahrscheinlichkeit zurück, dass ein zufällig ausgewählter Z-Score kleiner oder gleich diesem Wert sein wird.

Um dieses Konzept zu veranschaulichen, betrachten Sie den Graphen, in dem Φ(0,5) skizziert ist. Um Φ(0,5) zu berechnen, zeichnen wir die standardmäßige normale Glockenkurve und platzieren z = 0,5 leicht rechts vom Mittelwert. Anschließend schattieren wir den gesamten Bereich links von diesem Z-Score. Φ(0,5) stellt die Fläche des schattierten Bereichs dar. Denken Sie daran, dass die Gesamtwahrscheinlichkeit unter der Glockenkurve immer 1 beträgt, sodass wir die schattierte Fläche als Prozentsatz der Gesamtfläche interpretieren können.

Lassen Sie uns nun die Umkehrung des normalen CDF untersuchen, die als Φ^(-1) oder „Phi-Inverse“ bezeichnet wird. Dieser Vorgang kehrt die vorherige Berechnung um. Anstatt ihm einen Z-Score zuzuführen und eine Wahrscheinlichkeit zu erhalten, geben wir eine Wahrscheinlichkeit ein und erhalten den entsprechenden Z-Score zurück. Beispielsweise ist Φ^(-1)(0,5) 0, weil Φ(0) 0,5 ist. Die Hälfte der Wahrscheinlichkeit liegt in der Standardnormalverteilung links von z = 0. Ebenso ist Φ^(-1)(0,6915) 0,5, weil Φ(0,5) 0,6915 ist, und Φ^(-1)(0,1587) ist -1, weil Φ(-1) 0,1587 ist. Wir kehren im Wesentlichen die Ein- und Ausgänge dieser beiden Funktionen um.

Um dieses Konzept weiter zu veranschaulichen, betrachten wir ein Beispiel. Angenommen, wir möchten den Z-Score ermitteln, der das 90. Perzentil in einer Standardnormalverteilung erfasst. Dieser Z-Score stellt ein Ergebnis dar, das mehr als 90 % der Ergebnisse ausmacht, wenn wir wiederholt aus dieser Verteilung schöpfen. Um dies zu bestimmen, verwenden wir Φ^(-1) und berechnen Φ^(-1)(0,90), was ungefähr 1,28 ergibt. Somit ist 1,28 der Z-Score, der dem 90. Perzentil in der Standardnormalverteilung entspricht.

Mit dem Z-Score für eine bestimmte Wahrscheinlichkeit oder ein bestimmtes Perzentil können wir nun problemlos den entsprechenden Wert in jeder Normalverteilung ermitteln. Stellen Sie sich ein Beispiel vor, in dem die Ergebnisse eines standardisierten Tests normalverteilt sind, mit einem Mittelwert von 1060 und einer Standardabweichung von 195. Um die Punktzahl zu bestimmen, die erforderlich ist, um 95 % der Ergebnisse zu übertreffen, ermitteln wir zunächst das 95. Perzentil. Unter Verwendung von Φ^(-1)(0,95) oder qnorm(0,95) in R erhalten wir ungefähr 1,64 als Z-Score. Bei der Interpretation dieses Ergebnisses muss ein Schüler eine Punktzahl erreichen, die 1,64 Standardabweichungen über dem Mittelwert liegt, um eine 95-prozentige Chance zu haben, eine zufällig ausgewählte Punktzahl zu übertreffen.

Um den tatsächlichen Score zu berechnen, verwenden wir die Formel x = μ + zσ, wobei x den benötigten Score darstellt, μ der Mittelwert (1060), z der z-Score (1,64) und σ die Standardabweichung (195) ist. . Wenn wir diese Werte einsetzen, stellen wir fest, dass der Schüler eine Punktzahl von etwa 1379,8 erreichen muss. Wenn der Schüler also eine Punktzahl um 1380 erreicht, liegt er im 95. Perzentil und bietet eine 95-prozentige Chance, eine zufällig ausgewählte Punktzahl im Test zu übertreffen.

Es ist wichtig zu beachten, dass es sich bei den aus der Normal- und Umkehrnormalverteilung ermittelten Werten häufig um Näherungswerte handelt, da sie irrational sein können. Während es möglich ist, inverse Normalberechnungen mithilfe von Tabellen durchzuführen, ist es üblicher und bequemer, für diese Berechnungen Technologie zu verwenden. In R lautet der Befehl für die Umkehrnormale beispielsweise qnorm. Um den Kehrwert einer Wahrscheinlichkeit zu finden, geben wir qnorm gefolgt von der gewünschten Wahrscheinlichkeit ein. Um beispielsweise den Kehrwert von 0,6915 zu berechnen, verwenden wir qnorm(0,6915) und erhalten ungefähr 0,5. In ähnlicher Weise verwenden wir für den Kehrwert von 0,1587 qnorm(0,1587) und erhalten ungefähr -1.

Der Einsatz von Technologie für diese Berechnungen ist im 21. Jahrhundert vorzuziehen, da er im Vergleich zur Verwendung manueller Tabellen genaue Ergebnisse liefert und Zeit spart. Durch den Einsatz von Tools wie R können wir mühelos inverse Normalberechnungen durchführen, indem wir die Wahrscheinlichkeit angeben und den entsprechenden Z-Score erhalten.

Zusammenfassend lässt sich sagen, dass inverse Normalberechnungen es uns ermöglichen, den Z-Score zu bestimmen, der einer bestimmten Wahrscheinlichkeit oder einem bestimmten Perzentil in einer Normalverteilung entspricht. Wir können die Umkehrnormalfunktion wie Φ^(-1) oder qnorm in R verwenden, um diese Werte zu erhalten. Diese Informationen helfen uns dann, fundierte Entscheidungen zu treffen und verschiedene statistische Analysen durchzuführen.

 

Inverse Normalberechnungen mit R


Inverse Normalberechnungen mit R

Heute werden wir R verwenden, um einige inverse Normalberechnungen durchzuführen. Wir müssen drei Probleme lösen.

Aufgabe 1: Finden Sie das 98. Perzentil der Standardnormalverteilung. Mit anderen Worten: Wir wollen den Z-Score ermitteln, der über 98 % der Wahrscheinlichkeit in der Standardnormalverteilung liegt. In R können wir den Befehl qnorm verwenden. Da es sich um die Standardnormalverteilung (Mittelwert = 0, Standardabweichung = 1) handelt, können wir das Perzentil direkt als Argument eingeben. Daher berechnen wir qnorm(0,98) und erhalten einen Z-Score von ungefähr 2,05.

Aufgabe 2: Finden Sie den Wert von x, der 40 % der Fläche unter einer Normalverteilung mit Mittelwert 12 und Varianz 3 erfasst. Wir können damit beginnen, die Glockenkurve mit den angegebenen Parametern zu visualisieren. Wir wollen einen x-Wert finden, der einer Fläche von 40 % links davon entspricht. Mit qnorm geben wir die gewünschte Fläche als Dezimalzahl ein, also 0,40. Da es sich jedoch um eine nicht standardmäßige Normalverteilung handelt, müssen wir auch den Mittelwert und die Standardabweichung angeben. Daher berechnen wir qnorm(0,40, Mittelwert = 12, sd = sqrt(3)) und erhalten einen Wert von x, der ungefähr 11,56 entspricht.

Problem 3: Betrachten Sie den jährlichen Pro-Kopf-Verbrauch von Orangen in den Vereinigten Staaten, der ungefähr normalverteilt ist, mit einem Mittelwert von 9,1 Pfund und einer Standardabweichung von 2,7 Pfund. Wenn ein Amerikaner weniger als 85 % seiner Altersgenossen isst, möchten wir ermitteln, wie viel er konsumiert. Hier interessiert uns der Bereich rechts vom angegebenen Perzentil (85 %). Da qnorm Werte mit Flächen auf der linken Seite bereitstellt, müssen wir das Perzentil von 1 subtrahieren, um die Fläche auf der rechten Seite zu erhalten, die 0,15 beträgt. Wir berechnen qnorm(0,15, Mittelwert = 9,1, SD = 2,7), um den entsprechenden Verbrauchswert zu ermitteln. Das Ergebnis sind etwa 6,30 Pfund Orangen pro Jahr.

Durch die Verwendung der qnorm-Funktion in R können wir diese inversen Normalberechnungen effizient durchführen und die gewünschten Ergebnisse für verschiedene statistische Probleme erhalten.

Die Verwendung der qnorm-Funktion in R ermöglicht uns die effiziente Durchführung inverser Normalberechnungen und liefert uns die erforderlichen Z-Scores oder Werte, die bestimmten Perzentilen oder Flächen unter einer Normalverteilung entsprechen.

In Aufgabe 1 wollten wir das 98. Perzentil der Standardnormalverteilung finden. Durch die Verwendung von qnorm(0,98) haben wir einen Z-Score von ungefähr 2,05 erhalten. Dies bedeutet, dass der Wert, der dem 98. Perzentil in der Standardnormalverteilung entspricht, 2,05 Standardabweichungen über dem Mittelwert liegt.

In Aufgabe 2 wollten wir den Wert von x finden, der 40 % der Fläche unter einer Normalverteilung mit Mittelwert 12 und Varianz 3 erfasst. Nachdem wir den Mittelwert und die Standardabweichung in der qnorm-Funktion als qnorm(0,40, Mittelwert = 12, sd = sqrt(3)) haben wir einen x-Wert von ungefähr 11,56 erhalten. Dies bedeutet, dass der Wert von x, der der Erfassung von 40 % der Fläche links davon in der gegebenen Normalverteilung entspricht, ungefähr 11,56 beträgt.

In Problem 3 haben wir den jährlichen Pro-Kopf-Verbrauch von Orangen in den Vereinigten Staaten betrachtet, der einer Normalverteilung mit einem Mittelwert von 9,1 Pfund und einer Standardabweichung von 2,7 Pfund folgt. Wir wollten die Konsummenge einer Person ermitteln, die weniger als 85 % ihrer Altersgenossen isst. Durch die Berechnung von qnorm(0,15, Mittelwert = 9,1, SD = 2,7) haben wir herausgefunden, dass der Konsum bei etwa 6,30 Pfund pro Jahr liegen sollte, damit eine Person weniger als 85 % ihrer Altersgenossen konsumiert.

Insgesamt vereinfacht die qnorm-Funktion in R den Prozess der Durchführung inverser Normalberechnungen, indem sie uns die erforderlichen Z-Scores oder Werte basierend auf bestimmten Perzentilen oder Flächen liefert. Dadurch können wir die Merkmale von Normalverteilungen analysieren und fundierte Entscheidungen treffen.

 

Stichprobenverteilungen


Stichprobenverteilungen

Hallo zusammen, heute werden wir das Konzept der Stichprobenverteilungen von Statistiken diskutieren. Bei der statistischen Inferenz besteht unser Ziel darin, Stichprobenstatistiken zu verwenden, um Populationsparameter abzuschätzen. Allerdings variieren die Stichprobenstatistiken tendenziell von Stichprobe zu Stichprobe, was bedeutet, dass wir bei wiederholter Stichprobenentnahme unterschiedliche Werte für dieselbe Statistik erhalten.

Lassen Sie uns dies anhand eines Beispiels veranschaulichen. Stellen Sie sich vor, wir haben einen Beutel mit nummerierten Chips, und ein Statistiker an der Bordstation zieht zufällig 5 Chips und erhält die Zahlen 24, 11, 10, 14 und 16. Der Stichprobenmittelwert, der als X-Balken bezeichnet wird, wird mit 15 berechnet. Jetzt Wenn wir diesen Vorgang mehrmals wiederholen, erhalten wir wahrscheinlich jedes Mal unterschiedliche Werte für x-bar. In nachfolgenden Stichproben könnten wir beispielsweise 17,8, 18,8 oder 21,6 als Stichprobenmittelwert erhalten. Somit ist die Stichprobenstatistik x-bar das Ergebnis eines Zufallsprozesses und kann als Zufallsvariable betrachtet werden. Es verfügt über eine eigene Wahrscheinlichkeitsverteilung, die wir als Stichprobenverteilung der Statistik bezeichnen.

Lassen Sie uns nun ein konkretes Beispiel durchgehen. Angenommen, wir haben eine Tüte mit drei roten Chips und sechs blauen Chips. Wenn wir zufällig drei Chips mit Ersatz ziehen, möchten wir die Stichprobenverteilung von x ermitteln, die die Anzahl der gezogenen roten Chips darstellt. Es gibt vier mögliche Werte für x: 0, 1, 2 oder 3. Um die mit jedem Wert verbundenen Wahrscheinlichkeiten zu bestimmen, behandeln wir jede einzelne Ziehung als einen Bernoulli-Versuch, bei dem Rot als Erfolg und Blau als Misserfolg gewertet wird. Da wir drei identische Ziehungen mit jeweils einer Drittelwahrscheinlichkeit durchführen, haben wir eine Binomialverteilung mit n = 3 und p = 1/3. Durch die Berechnung der Wahrscheinlichkeiten mithilfe der Binomialverteilungsformel finden wir, dass die Wahrscheinlichkeiten für x = 0, 1, 2 und 3 0,296, 0,444, 0,296 bzw. 0,064 betragen. Diese Wahrscheinlichkeiten definieren die Stichprobenverteilung von x.

Der Mittelwert ist die am häufigsten verwendete Statistik für statistische Schlussfolgerungen, daher wird Ihnen häufig der Ausdruck „Stichprobenverteilung des Stichprobenmittelwerts“ begegnen. Es stellt die Wahrscheinlichkeitsverteilung aller möglichen Werte dar, die der Stichprobenmittelwert annehmen kann, wenn Stichproben gleicher Größe aus derselben Grundgesamtheit gezogen werden. Betrachten wir zum Beispiel noch einmal das Taschenbeispiel, aber dieses Mal sind die Chips von 1 bis 35 nummeriert. Wir wollen die Stichprobenverteilung des Stichprobenmittelwerts beschreiben, die als x-Balken bezeichnet wird, wenn wir Stichproben der Größe n = 5 nehmen ohne Ersatz. Indem wir den Stichprobenvorgang tausendmal wiederholen und jedes Mal den Stichprobenmittelwert berechnen, erhalten wir eine Liste mit tausend Zahlen im Bereich von 15 bis 165. Die meisten dieser Stichprobenmittelwerte liegen im mittleren Bereich, und durch die Erstellung eines Histogramms beobachten wir dass die Stichprobenverteilung ungefähr einer Glockenkurvenform folgt. Dieses Glockenkurvenmuster ist kein Zufall, wie wir in einer zukünftigen Diskussion untersuchen werden.

Die Stichprobenverteilung des Stichprobenmittelwerts weist ein vorhersagbares Zentrum und eine vorhersagbare Streuung auf, was verschiedene statistische Schlussfolgerungen ermöglicht. Insbesondere wenn wir Stichproben der Größe n aus einer großen Grundgesamtheit mit einem Mittelwert von mu und einer Standardabweichung von Sigma ziehen, ist der Mittelwert der Stichprobenmittelwerte (x-Balken) gleich dem Grundgesamtheitsmittelwert (mu). Darüber hinaus entspricht die Standardabweichung der Stichprobenmittelwerte der Populationsstandardabweichung (Sigma) dividiert durch die Quadratwurzel von n. Diese Beziehungen legen nahe, dass der Stichprobenmittelwert eine Schätzung des Populationsmittelwerts darstellt und weniger variabel ist als einzelne Beobachtungen innerhalb der Population.

Um dies zu veranschaulichen, betrachten wir ein Beispiel, bei dem die mittlere Punktzahl bei einem standardisierten Test 1060 und die Standardabweichung 195 beträgt. Angenommen, wir wählen zufällig 100 Schüler aus der Grundgesamtheit aus. In diesem Fall gehen wir davon aus, dass die Grundgesamtheit groß genug ist, sodass eine ersatzlose Stichprobe akzeptabel ist. Die Stichprobenverteilung des Stichprobenmittelwerts, die als x-Balken bezeichnet wird, hat einen Mittelpunkt von 1060 und eine Standardabweichung von 19,5.

Zur Verdeutlichung: Wenn wir eine Stichprobe von 100 Schülern sammeln und deren durchschnittliche Testergebnisse berechnen und diesen Vorgang mehrmals wiederholen würden, würden wir feststellen, dass der Stichprobenmittelwert im Durchschnitt 1060 beträgt. Die Streuung der Stichprobenmittelwerte ist wie angegeben um die Standardabweichung von 19,5 deutlich kleiner wäre als die Standardabweichung der Einzelwerte innerhalb der Grundgesamtheit.

Das Verständnis der Eigenschaften der Stichprobenverteilung, wie etwa ihres Zentrums und ihrer Ausbreitung, ermöglicht es uns, aussagekräftige statistische Schlussfolgerungen zu ziehen. Indem wir die Stichprobenverteilung des Stichprobenmittelwerts nutzen, können wir Populationsparameter schätzen und auf der Grundlage der beobachteten Stichprobenstatistiken Schlussfolgerungen über die Population ziehen.

Insgesamt spielen Stichprobenverteilungen von Statistiken eine entscheidende Rolle bei der statistischen Schlussfolgerung, indem sie Einblicke in die Variabilität von Stichprobenstatistiken und deren Beziehung zu Populationsparametern liefern.

 

Was ist der zentrale Grenzwertsatz?


Was ist der zentrale Grenzwertsatz?

Heute diskutieren wir den Zentralen Grenzwertsatz (CLT), der weithin als einer der wichtigsten Sätze der Statistik gilt. Der CLT beschreibt die Form der Stichprobenverteilung des Stichprobenmittelwerts (x-Balken) und erfordert ein solides Verständnis der Stichprobenverteilungen.

Um die CLT zu verstehen, empfiehlt es sich, sich mit Stichprobenverteilungen vertraut zu machen. Sie können sich ein Video zu Sampling-Verteilungen ansehen, das ich der Einfachheit halber oben verlinkt habe.

Lassen Sie uns nun tiefer in die CLT eintauchen. Angenommen, wir nehmen einfache Zufallsstichproben der Größe „n“ aus einer Grundgesamtheit mit einem Mittelwert (μ) und einer Standardabweichung (σ). Wir wissen möglicherweise nicht viel über die Form der Population, aber wenn „n“ groß genug ist (normalerweise etwa 30), wird die Stichprobenverteilung des Stichprobenmittelwerts einer Normalverteilung nahekommen. Wenn die Grundgesamtheit selbst normalverteilt ist, ist die Stichprobenverteilung von x-bar unabhängig von „n“ genau normal. Darüber hinaus ist der Mittelwert von x-bar immer μ und die Standardabweichung von x-bar ist σ dividiert durch die Quadratwurzel von „n“.

Im Wesentlichen besagt der Zentrale Grenzwertsatz, dass unabhängig von der Stichprobenpopulation bei ausreichend großer Stichprobengröße die Verteilung von x-bar ungefähr normal ist mit einem Mittelwert von μ und einer Standardabweichung von σ dividiert durch die Quadratwurzel von 'n'. Stellen Sie sich vor, Sie nehmen zahlreiche Stichproben gleicher Größe aus der Grundgesamtheit und berechnen den Stichprobenmittelwert für jede Stichprobe. Während einzelne Stichprobenmittelwerte geringfügig variieren können, entspricht ihr Durchschnitt dem Populationsmittelwert, und die Streuung dieser Stichprobenmittelwerte um den Mittelwert wird ungefähr glockenförmig sein, mit einer Standardabweichung, die mit der Standardabweichung der Population in Beziehung steht, aber kleiner als diese ist.

Um dieses Konzept zu veranschaulichen, betrachten wir ein Beispiel. Wir verfügen über eine technische Helpline, bei der die Dauer der Anrufe einer Normalverteilung mit einem Mittelwert (μ) von 2 Minuten und einer Standardabweichung (σ) von 3 Minuten folgt. Angenommen, wir möchten die Wahrscheinlichkeit ermitteln, dass eine zufällig ausgewählte Stichprobe von 40 Anrufen eine mittlere Länge von weniger als 2,5 Minuten hat. Obwohl wir die genaue Verteilung der einzelnen Anruflängen nicht kennen, können wir den zentralen Grenzwertsatz verwenden, da wir den Stichprobenmittelwert von 40 Anrufen untersuchen. Der Stichprobenmittelwert (x-Balken) ist annähernd normalverteilt mit einem Mittelwert von 2 und einer Standardabweichung von 3 geteilt durch die Quadratwurzel von 40 (σ/sqrt(n)).

Um die Wahrscheinlichkeit zu berechnen, bestimmen wir den Z-Score für x-bar = 2,5 in der Verteilung mit Mittelwert 2 und Standardabweichung 3/sqrt(40). Indem wir den Z-Score als (2,5 – 2) / (3 / sqrt(40)) berechnen, finden wir einen Wert von 1,05. Wir können dann eine kumulative Normalverteilungsfunktion (CDF) verwenden, um die Wahrscheinlichkeit zu ermitteln, dass der Z-Score weniger als 1,05 beträgt, was ungefähr 85,3 % ergibt. Dies bedeutet, dass bei der Stichprobe von 40 Anrufen eine Wahrscheinlichkeit von 85,3 % besteht, einen Stichprobenmittelwert von weniger als 2,5 Minuten zu erhalten.

Stellen wir uns in einer weiteren Demonstration einen Zufallszahlengenerator vor, der mit gleicher Wahrscheinlichkeit zufällige ganze Zahlen zwischen 1 und 12 erzeugt. Dieses Szenario ähnelt der zufälligen Auswahl einer Person und der Bestimmung ihres Geburtsmonats. Wenn wir diesem Generator einfache Zufallsstichproben der Größe 2 entnehmen, ihn mehrmals ausführen und den Stichprobenmittelwert berechnen, erhalten wir ein Histogramm mit einer ungefähr Pyramidenform. Die Ergebnisse liegen tendenziell bei etwa 6,5, was auf eine höhere Wahrscheinlichkeit hinweist, Stichprobenmittelwerte nahe 6,5 zu erhalten, verglichen mit Werten näher bei 1 oder 12.

Wenn wir die Stichprobengröße auf 10 erhöhen, beobachten wir ein Histogramm, das einer glockenförmigen Verteilung ähnelt, und die Streuung der Stichprobenmittelwerte nimmt ab. Die meisten Stichprobenmittelwerte liegen mittlerweile zwischen 4 und 9.

Wenn wir die Stichprobengröße weiter auf 100 erhöhen und den Vorgang wiederholen, wird das Histogramm noch glockenförmiger, wobei die meisten Stichprobenmittelwerte zwischen 6 und 7 liegen. Die Standardabweichung der Stichprobenmittelwerte nimmt weiter ab.

Wenn wir schließlich Stichproben der Größe 1000 nehmen, folgt das Histogramm einer nahezu perfekten Normalverteilungskurve. Die Stichprobenmittelwerte gruppieren sich eng um den Mittelwert der Grundgesamtheit, wobei die Mehrheit zwischen 6,25 und 6,75 liegt. Die Standardabweichung der Stichprobenmittelwerte nimmt mit zunehmender Stichprobengröße weiter ab.

Zusammenfassend lässt sich sagen, dass mit zunehmender Stichprobengröße (n) der Stichprobenmittelwert (x-balken) ein zuverlässigerer Schätzer für den Grundgesamtheitsmittelwert (μ) wird. Die Variabilität im Stichprobenmittelwert nimmt ab, was zu einer engeren und glockenförmigeren Stichprobenverteilung führt.

Betrachten wir nun ein Beispiel mit einem Spender für destilliertes Wasser. Der Spender füllt Gallonen Wasser und die abgegebene Menge folgt einer Normalverteilung mit einem Mittelwert von 1,03 Gallonen und einer Standardabweichung von 0,02 Gallonen. Wir möchten die Wahrscheinlichkeit ermitteln, dass eine einzelne abgegebene „Gallone“ tatsächlich weniger als 1 Gallone beträgt.

Um diese Wahrscheinlichkeit zu ermitteln, berechnen wir den Z-Score für x = 1 in der Normalverteilung mit einem Mittelwert von 1,03 und einer Standardabweichung von 0,02. Der Z-Score wird als (1 - 1,03) / 0,02 berechnet, was zu -1,5 führt. Unter Verwendung der normalen kumulativen Verteilungsfunktion (CDF) stellen wir fest, dass die Wahrscheinlichkeit, einen Wert von weniger als 1 Gallone zu erhalten, etwa 6,68 % beträgt.

Betrachten wir nun die Wahrscheinlichkeit, dass der Durchschnitt von 10 Gallonen weniger als 1 Gallone pro Gallone beträgt. Nach dem zentralen Grenzwertsatz wird die Stichprobenverteilung des Stichprobenmittelwerts unabhängig von der Populationsverteilung normal, wenn die Stichprobengröße (n) groß genug ist. In diesem Fall hat die Stichprobenverteilung von x-bar einen Mittelwert von 1,03 (identisch mit dem Populationsmittelwert) und eine Standardabweichung von 0,02/sqrt(10).

Um die Wahrscheinlichkeit zu ermitteln, einen Stichprobenmittelwert von weniger als 1 Gallone zu erhalten, berechnen wir den Z-Score als (1 - 1,03) / (0,02/sqrt(10)), was -4,74 entspricht. Unter Verwendung der kumulativen Normalverteilungsfunktion (CDF) stellen wir fest, dass die Wahrscheinlichkeit, einen Stichprobenmittelwert von weniger als 1 Gallone zu erhalten, etwa 0,0001 % beträgt.

Zusammenfassend lässt sich sagen, dass es zwar eher unwahrscheinlich ist (ungefähr 7 %), dass eine einzelne Gallone zu wenig gefüllt ist, es aber äußerst ungewöhnlich wäre, wenn der Mittelwert von 10 Gallonen weniger als 1 Gallone pro Gallone beträgt.

Was schließlich die Stichprobengröße betrifft, legt der Zentrale Grenzwertsatz nahe, dass die Stichprobenverteilung von x-bar einer Normalverteilung für große Stichprobengrößen nahekommt. Was jedoch eine „große“ Stichprobengröße ausmacht, ist subjektiv und hängt von der Schiefe der Bevölkerungsverteilung und dem Vorhandensein von Ausreißern ab. Im Allgemeinen kann bei einer Stichprobe aus einer ziemlich symmetrischen Verteilung ohne extreme Ausreißer eine kleinere Stichprobengröße ausreichen, damit der zentrale Grenzwertsatz angewendet werden kann.

 

Berechnung von Wahrscheinlichkeiten mithilfe des zentralen Grenzwertsatzes: Beispiele


Berechnung von Wahrscheinlichkeiten mithilfe des zentralen Grenzwertsatzes: Beispiele

Hallo zusammen, in der heutigen Sitzung werden wir an einigen Problemen im Zusammenhang mit der Berechnung von Wahrscheinlichkeiten mithilfe des Zentralen Grenzwertsatzes arbeiten. Wir müssen zwei Probleme lösen. Lass uns anfangen!

Problem 1: Das Gewicht der Tüten einer bestimmten Süßwarenmarke folgt einer Normalverteilung mit einem Mittelwert von 45 Gramm und einer Standardabweichung von 1,5 Gramm. Wir müssen die Wahrscheinlichkeit ermitteln, dass eine zufällig ausgewählte Tüte weniger als 44 Gramm Süßigkeiten enthält.

Um dieses Problem zu lösen, verwenden wir die Normalverteilung und berechnen den Z-Score. Der Z-Score wird ermittelt, indem der Mittelwert (45) vom Wert (44) subtrahiert und durch die Standardabweichung (1,5) dividiert wird. Dies ergibt einen Z-Score von -0,67.

Als nächstes verwenden wir die kumulative Normalverteilungsfunktion (CDF), um die Wahrscheinlichkeit zu ermitteln, in der Standardnormalverteilung einen Wert von weniger als -0,67 zu erhalten. Die Wahrscheinlichkeit beträgt ungefähr 0,252, was bedeutet, dass die Wahrscheinlichkeit, dass eine zufällig ausgewählte Tüte weniger als 44 Gramm Süßigkeiten enthält, bei 25,2 % liegt.

Problem 2: Wir betrachten die Wahrscheinlichkeit, dass fünf zufällig ausgewählte Tüten ein durchschnittliches Gewicht von weniger als 44 Gramm Süßigkeiten haben. Für dieses Problem müssen wir den zentralen Grenzwertsatz anwenden.

Nach dem zentralen Grenzwertsatz wird die Stichprobenverteilung des Stichprobenmittelwerts unabhängig von der Bevölkerungsverteilung ungefähr normal, wenn die Stichprobengröße groß genug ist (normalerweise 30 oder mehr). In diesem Fall entspricht der Mittelwert der Stichprobenverteilung (x-Balken) dem Grundgesamtheitsmittelwert (45) und die Standardabweichung ist die Grundgesamtheitsstandardabweichung (1,5) dividiert durch die Quadratwurzel der Stichprobengröße ( √5).

Um die Wahrscheinlichkeit zu ermitteln, berechnen wir den Z-Score, indem wir den Mittelwert (45) vom gewünschten Wert (44) subtrahieren und ihn durch die Standardabweichung (√(1,5^2/5)) dividieren. Dies ergibt einen Z-Score von -1,49.

Unter Verwendung des normalen CDF stellen wir fest, dass die Wahrscheinlichkeit, einen Probenmittelwert von weniger als 44 Gramm zu erhalten, etwa 0,068 oder 6,8 % beträgt. Daher besteht eine Wahrscheinlichkeit von etwa 6,8 %, dass fünf zufällig ausgewählte Tüten ein durchschnittliches Gewicht von weniger als 44 Gramm Süßigkeiten haben.

Abschließend berücksichtigen wir die Wahrscheinlichkeit, dass 25 zufällig ausgewählte Tüten ein durchschnittliches Gewicht von weniger als 44 Gramm Süßigkeiten haben. Da die Stichprobengröße größer ist (25), können wir immer noch den zentralen Grenzwertsatz anwenden.

Mit dem gleichen Verfahren wie zuvor berechnen wir den Z-Score für einen Stichprobenmittelwert von 44 Gramm mit einer Standardabweichung von 1,5/√25. Dies ergibt einen Z-Score von -3,33.

Unter Anwendung des normalen CDF stellen wir fest, dass die Wahrscheinlichkeit, einen Probenmittelwert von weniger als 44 Gramm zu erhalten, etwa 0,004 oder 0,4 % beträgt. Daher besteht nur eine Wahrscheinlichkeit von 0,4 %, dass 25 zufällig ausgewählte Tüten ein durchschnittliches Gewicht von weniger als 44 Gramm Süßigkeiten haben.

Zusammenfassend lässt sich sagen, dass der Zentrale Grenzwertsatz eine zuverlässige Näherung für diese Wahrscheinlichkeiten liefert, selbst bei einer relativ kleinen Stichprobengröße von 7. Die berechneten Wahrscheinlichkeiten liegen bemerkenswert nahe an den genauen Werten, die aus der ursprünglichen Wahrscheinlichkeitsverteilung erhalten wurden.

 

Einführung von Konfidenzintervallen


Einführung von Konfidenzintervallen

Hallo zusammen, heute beschäftigen wir uns mit dem Thema Konfidenzintervalle. Während wir dies diskutieren, ist es wichtig, den Unterschied zwischen einem Parameter und einer Statistik im Auge zu behalten. Lassen Sie uns dieses Konzept kurz überprüfen.

Ein Parameter ist eine Zahl, die eine Bevölkerung beschreibt, beispielsweise das durchschnittliche Anfangsgehalt aller Datenwissenschaftler in den Vereinigten Staaten. Andererseits ist eine Statistik eine Zahl, die eine Stichprobe beschreibt, etwa das durchschnittliche Anfangsgehalt von 10 zufällig ausgewählten Datenwissenschaftlern in den Vereinigten Staaten.

Normalerweise haben wir keinen direkten Zugriff auf Beobachtungsparameter. Da es oft unpraktisch ist, Informationen von einer gesamten Bevölkerung zu sammeln, verlassen wir uns auf Stichprobendaten, die Statistiken liefern. Statistische Inferenz ist der Prozess der Schlussfolgerung von einer Statistik zu einem Parameter.

Eine der grundlegendsten und aussagekräftigsten Formen statistischer Schlussfolgerungen ist das Konfidenzintervall. Um dies alles konkreter zu machen, betrachten wir ein Beispiel. Angenommen, wir befragen zufällig 10 Datenwissenschaftler in den Vereinigten Staaten und stellen fest, dass ihr durchschnittliches Anfangsgehalt 97.000 US-Dollar beträgt. Dieser Wert stellt eine Statistik dar, da er sich nur auf die Datenwissenschaftler in unserer Stichprobe bezieht. Wir möchten jedoch einen Rückschluss auf das durchschnittliche Einstiegsgehalt aller Datenwissenschaftler in den Vereinigten Staaten ziehen, den Parameter, den wir schätzen möchten.

Um den Parameter μ mit dem statistischen x-Balken (Stichprobenmittelwert) zu schätzen, gehen wir davon aus, dass das durchschnittliche Anfangsgehalt aller Datenwissenschaftler in den Vereinigten Staaten 97.000 US-Dollar beträgt. Es ist jedoch wichtig anzuerkennen, dass diese Schätzung höchstwahrscheinlich nicht genau korrekt ist. Es ist unwahrscheinlich, dass der Parameter μ genau 97.000 $ beträgt; er könnte etwas höher oder niedriger sein, oder sogar deutlich.

Da unsere Schätzung nicht genau ist, ist es angebracht, eine Intervallschätzung bereitzustellen, typischerweise in der Form x-bar plus oder minus einer gewissen Fehlermarge. Die entscheidende Frage ist, wie wir diese Fehlerquote bestimmen. Wir müssen bedenken, dass auch bei einer großen Fehlerquote immer die Wahrscheinlichkeit besteht, dass wir falsch liegen.

Stellen Sie sich zum Beispiel ein Szenario vor, in dem wir zufällig eine Stichprobe mit 10 unterbezahlten Datenwissenschaftlern auswählen, während der tatsächliche Parameter (tatsächliches Anfangsgehalt von Datenwissenschaftlern in den Vereinigten Staaten) 150.000 US-Dollar beträgt. Unser Stichprobenmittelwert liegt weiterhin bei 97.000 US-Dollar. Das Beste, was wir hoffen können, ist die Konstruktion eines Konfidenzintervalls, das den wahren Parameter mit hoher Wahrscheinlichkeit erfasst. Das bedeutet, dass das Intervall den wahren Parameter zu einem erheblichen Prozentsatz der Zeit enthalten sollte.

Typischerweise wird ein Konfidenzniveau von 95 % als Standard verwendet, obwohl je nach Anwendung auch andere Werte wie 90 % oder 99 % gewählt werden können. In jedem Fall wird für das Konfidenzniveau ein großes C verwendet. Um dies formal als Wahrscheinlichkeitsaussage auszudrücken, wollen wir eine Fehlerspanne (e) finden, sodass die Wahrscheinlichkeit von x-bar und μ innerhalb von e von liegt einander ist C.

Machen wir unser Beispiel konkreter. Angenommen, die Einstiegsgehälter von Datenwissenschaftlern folgen bekanntermaßen einer Normalverteilung mit einer Bevölkerungsstandardabweichung von 8.000 US-Dollar. Wir möchten eine Fehlerquote (e) finden, die es uns ermöglicht, μ, das durchschnittliche Anfangsgehalt aller Datenwissenschaftler in den Vereinigten Staaten, mit einer Sicherheit von 95 % zu schätzen.

Um dies zu erreichen, verwenden wir die Eigenschaften der Standardnormalverteilung. Wenn wir eine Zufallsvariable x nehmen, die einer Normalverteilung folgt, ist auch der Stichprobenmittelwert (x-bar) normalverteilt. Der Mittelwert der Stichprobenmittelverteilung ist derselbe wie der Mittelwert der Populationsverteilung (μ), die Standardabweichung ist jedoch verringert. In unserem Beispiel beträgt die Standardabweichung des Stichprobenmittelwerts σ/√n, wobei σ die Grundgesamtheitsstandardabweichung und n die Stichprobengröße ist.

Mit diesen Informationen können wir unsere Wahrscheinlichkeitsaussage wie folgt umschreiben: Die Wahrscheinlichkeit, dass x-bar zwischen μ – e und μ + e liegt, ist gleich C. Jetzt können wir dies in Form von Z-Scores darstellen, die die Zahl messen der Standardabweichungen vom Mittelwert. Durch die Standardisierung unseres Intervalls können wir die Standardnormalverteilung (Z-Verteilung) verwenden, um die geeigneten Werte zu bestimmen.

Für ein gegebenes Konfidenzniveau C müssen wir den Z-Score (Z-Stern) so ermitteln, dass die Fläche zwischen -z-Stern und Z-Stern unter der Standardnormalkurve gleich C ist. Zu den üblichen Werten für C gehören 0,95, was einem Z-Stern von 1.960 entspricht. Sobald wir den Z-Stern haben, können wir die Fehlermarge berechnen, indem wir sie mit σ/√n multiplizieren.

Kehren wir zu unserem Beispiel zurück, in dem wir eine Stichprobengröße von n = 10, einen Stichprobenmittelwert von 97.000 $ und eine Grundgesamtheitsstandardabweichung von 8.000 $ haben, können wir ein 95 %-Konfidenzintervall für μ erstellen. Indem wir diese Werte in die allgemeine Form des Konfidenzintervalls einsetzen, finden wir, dass die Intervallschätzung für μ 97.000 $ ± 1.958 $ beträgt.

Zusammenfassend gehen wir davon aus, dass das durchschnittliche Einstiegsgehalt aller Datenwissenschaftler in den Vereinigten Staaten zwischen 92.042 und 101.958 US-Dollar liegen wird, mit einer geschätzten Sicherheit von 95 %. Das heißt, wenn wir diesen Stichprobenprozess wiederholen und Konfidenzintervalle anhand von Stichprobendaten mehrmals erstellen würden, würden wir davon ausgehen, dass unsere Intervalle in etwa 95 % der Fälle den wahren Parameter (μ) erfassen.

 

Konfidenzintervalle für den Mittelwert – Beispiel


Konfidenzintervalle für den Mittelwert – Beispiel

Hallo zusammen, heute werden wir die Konstruktion von Konfidenzintervallen für einen Populationsmittelwert diskutieren, wenn die Populationsstandardabweichung bekannt ist. Darüber hinaus untersuchen wir die Faktoren, die die Größe der Fehlerquote beeinflussen können, anhand eines Beispiels im Zusammenhang mit einer Badezimmerwaage für zu Hause.

Bei Verwendung einer Personenwaage kann davon ausgegangen werden, dass die Messwerte normal um das tatsächliche Gewicht der zu wiegenden Person herum verteilt sind. Es ist jedoch nicht davon auszugehen, dass diese Messwerte absolut genau sind und leicht nach oben oder unten schwanken können. Nehmen wir in diesem Beispiel an, dass wir Zugriff auf Informationen über die Populationsstandardabweichung der Skala haben, die 1,2 Pfund beträgt.

Unser Hauptinteresse liegt in der Konstruktion eines Konfidenzintervalls für das wahre Gewicht der zu wiegenden Person, das wir als μ bezeichnen. Um dies zu erreichen, wiegen wir eine Person wiederholt auf der Waage, berechnen den Stichprobenmittelwert dieser Wägungen und verwenden die Formel μ = x-bar ± z-star * σ / √n. Hier stellt x-bar den Stichprobenmittelwert dar, n ist die Stichprobengröße, σ ist die Populationsstandardabweichung und z-star ist der kritische Z-Wert, der dem gewünschten Konfidenzniveau (C) entspricht.

Um unser Beispiel konkreter zu machen, nehmen wir an, wir wiegen einen Statistiker fünfmal auf der Waage und erhalten ein Durchschnittsgewicht von 153,2 Pfund. Dies dient als unser Stichprobenmittelwert. Nun wollen wir ein 90 %-Konfidenzintervall für das wahre Gewicht des Statistikers erstellen und gehen dabei von einer Standardabweichung von 1,2 Pfund für die Waage aus. Durch Einsetzen dieser Werte in die Formel ermitteln wir, dass die Intervallschätzung 153,2 ± 0,88 Pfund beträgt.

Da wir ein Konfidenzniveau von 90 % gewählt haben, können wir davon ausgehen, dass dieses Intervall in etwa 90 % der Fälle das wahre Gewicht des Statistikers erfasst.

Schauen wir uns nun die Struktur der Fehlerquote genauer an. Die Fehlermarge folgt der Formel z-star * σ / √n, wobei es drei Schlüsselkomponenten gibt: den kritischen Wert z-star (bezogen auf das Konfidenzniveau), die Populationsstandardabweichung σ (die die Streuung in der Population widerspiegelt) und die Stichprobengröße n.

Indem wir eine dieser drei Komponenten modifizieren, können wir die Größe der Fehlerspanne vorhersehbar beeinflussen. Wenn wir das Konfidenzniveau erhöhen, erhöht sich auch die Fehlerquote, da der entsprechende Z-Stern-Wert größer wird. Ebenso führt eine Erhöhung der Grundgesamtheitsstandardabweichung σ zu einer größeren Fehlerspanne, da die Daten eine größere Variabilität aufweisen, wodurch der Stichprobenmittelwert weniger zuverlässig wird. Andererseits verringert eine Erhöhung der Stichprobengröße n die Fehlerquote, da der Stichprobenmittelwert ein genauerer Prädiktor für den Grundgesamtheitsmittelwert wird.

Um diese Effekte zu veranschaulichen, schauen wir uns noch einmal unser Beispiel für ein 90 %-Konfidenzintervall mit einer Standardabweichung von 1,2 Pfund und einer Stichprobengröße von 5 an. Wenn wir das Konfidenzniveau auf 95 % erhöhen, beträgt der Z-Stern-Wert 1,960, was zu einer größeren Marge führt Fehler von 1,05 Pfund. Wenn wir zu einem Konfidenzniveau von 90 % zurückkehren, aber die Standardabweichung auf 1,5 Pfund erhöhen, erhöht sich die Fehlermarge auf 1,1 Pfund. Wenn wir schließlich die Standardabweichung bei 1,2 Pfund belassen, aber die Stichprobengröße auf 10 verdoppeln, sinkt die Fehlermarge auf 0,62 Pfund, was auf ein engeres Konfidenzintervall hinweist.

Es ist wichtig zu beachten, dass die Änderung des Konfidenzniveaus und der Stichprobengröße zwar praktische Anpassungen sind, die Änderung der Standardabweichung jedoch normalerweise außerhalb unserer Kontrolle liegt, da sie die inhärente Variabilität der Grundgesamtheit widerspiegelt.

Zusammenfassend lässt sich sagen, dass Konfidenzintervalle eine Reihe plausibler Werte für den interessierenden Populationsparameter liefern. Die Fehlermarge, die vom Konfidenzniveau, der Standardabweichung der Grundgesamtheit und der Stichprobengröße beeinflusst wird, hilft uns, die Präzision und Zuverlässigkeit unserer Schätzungen zu verstehen. Durch Erhöhen des Konfidenzniveaus wird das Intervall erweitert, um ein höheres Maß an Konfidenz bei der Erfassung des wahren Parameters zu erreichen. Eine größere Populationsstandardabweichung führt aufgrund der größeren Variabilität der Daten zu einem größeren Intervall. Umgekehrt schmälert eine Vergrößerung der Stichprobengröße das Intervall, da dadurch mehr Informationen bereitgestellt und die Genauigkeit der Schätzung erhöht wird.

In dem von uns besprochenen Beispiel können zwei realistische Änderungen vorgenommen werden: die Anpassung des Konfidenzniveaus und die Änderung der Stichprobengröße. Diese Änderungen ermöglichen es uns, den Grad der Sicherheit und die Menge der für die Schätzung verwendeten Daten zu kontrollieren. Allerdings liegt die Standardabweichung der Skala nicht in unserem Einflussbereich, sodass eine Änderung weniger realistisch ist.

Für die Interpretation statistischer Ergebnisse ist es von entscheidender Bedeutung, die Faktoren zu verstehen, die die Fehlerspanne und die Konfidenzintervalle beeinflussen. Es ermöglicht uns, fundierte Entscheidungen zu treffen und auf der Grundlage der Präzision und Zuverlässigkeit unserer Schätzungen aussagekräftige Schlussfolgerungen zu ziehen.