Programmier-Tutorial - Seite 11

 

Ordentliche Daten


Ordentliche Daten

Hallo zusammen, heute besprechen wir saubere Daten, ein besonders praktisches und gängiges Format in datenwissenschaftlichen Anwendungen. Während es verschiedene Möglichkeiten gibt, Informationen in einer Tabellenkalkulation aufzuzeichnen, folgt das Aufräumen von Daten drei einfachen Prinzipien, um deren Organisation und Nützlichkeit sicherzustellen.

Erstens repräsentiert jede Zeile in aufgeräumten Daten eine und nur eine Beobachtung. Das bedeutet, dass in jeder Zeile alle Messungen und Details für eine einzelne Versuchseinheit erfasst werden.

Zweitens repräsentiert jede Spalte genau eine Variable. Variablen sind die gemessenen Attribute aller Versuchseinheiten, und jede Spalte konzentriert sich auf ein bestimmtes Merkmal oder einen bestimmten Aspekt.

Schließlich sollte die gesamte Tabelle aus genau einer Art von Beobachtung bestehen. Dadurch wird sichergestellt, dass sich alle Daten in der Tabelle auf dieselbe Art von Experiment oder Studie beziehen.

Ein wesentlicher Vorteil ordentlicher Daten ist die einfache Erweiterbarkeit. Wenn Sie neue Beobachtungen oder Datenpunkte erhalten, beispielsweise neue Probanden in einer medizinischen Studie, können Sie einfach unten in der Tabelle eine neue Zeile hinzufügen. Wenn Sie zusätzliche Variablen einschließen möchten, können Sie auf ähnliche Weise rechts neben den vorhandenen neue Spalten hinzufügen.

Schauen wir uns ein paar Beispiele an. Der in R verfügbare Datensatz „mtcars“ ist ein aufgeräumter Datensatz. Jede Zeile stellt ein einzelnes Auto dar und jede Spalte stellt eine bestimmte Eigenschaft des Autos dar. Idealerweise sollten ordentliche Datensätze von einem Datenwörterbuch begleitet werden, das die Bedeutung jeder Variablen erklärt und Informationen über die Maßeinheiten bereitstellt. Das Datenwörterbuch kann auch Metadaten zum Datensatz enthalten, beispielsweise die Aufzeichnungsdetails.

Andererseits ist der Datensatz „Diamonds“ im Paket „ggplot2“ ein weiteres Beispiel für aufgeräumte Daten. Jede Zeile entspricht einem einzelnen Diamanten im Rundschliff und jede Spalte stellt ein Merkmal des Diamanten dar.

Allerdings sind nicht alle Datensätze aufgeräumt. Beispielsweise ist der Datensatz „construction“ im Paket „tidyverse“ nicht aufgeräumt, da zwei Variablen, die Anzahl der Einheiten und die Region, über mehrere Spalten verteilt sind.

Es ist wichtig zu beachten, dass unordentliche Daten nicht unbedingt schlecht sind, da Tabellenkalkulationen in der realen Welt oft ihre eigenen Konventionen für bestimmte Zwecke haben. Wenn es jedoch um Datenwissenschaft und die Untersuchung von Beziehungen zwischen Variablen in einer großen Anzahl von Beobachtungen geht, sind aufgeräumte Daten für die Visualisierung und Modellierung oft bequemer.

Abschließend möchte ich Kontingenztabellen erwähnen, die ein gängiges Format für nicht aufgeräumte Daten sind. Kontingenztabellen zeigen die Anzahl verschiedener Kombinationen kategorialer Variablen an. Obwohl sie nützlich sein können, kann die Umwandlung in übersichtliche Daten mit separaten Spalten für jede Variable und ihre jeweilige Anzahl die Daten besser verwaltbar und einfacher zu analysieren machen.

Zusammenfassend lässt sich sagen, dass aufgeräumte Daten den Prinzipien einer Beobachtung pro Zeile, einer Variablen pro Spalte und einer Art von Beobachtung in der gesamten Tabelle folgen. Durch die Einhaltung dieser Prinzipien stellt Tidy Data ein strukturiertes und organisiertes Format bereit, das die Datenexploration, Visualisierung und Modellierung in datenwissenschaftlichen Anwendungen erleichtert.

 

Experimente und Beobachtungsstudien


Experimente und Beobachtungsstudien

Hallo zusammen, heute besprechen wir Experimente und Beobachtungsstudien, die beiden grundlegenden Arten von Forschungsstudien in der Statistik. Es ist entscheidend, den Unterschied zwischen ihnen zu verstehen. Lassen Sie uns jeden Typ und seine Hauptmerkmale untersuchen.

Experimente: In einem Experiment werden verschiedene Teile der Probe unterschiedlich behandelt und die daraus resultierenden Variationen beobachtet. Das Hauptziel besteht darin, Ursache und Wirkung zu bestimmen. Wenn es unterschiedliche Ergebnisse zwischen den Behandlungsgruppen gibt, versuchen wir, diese Unterschiede den spezifischen Behandlungen zuzuschreiben. Bei experimentellen Studien geht es um die aktive Beeinflussung und Manipulation der Variablen.

Beobachtungsstudien: Bei Beobachtungsstudien hingegen messen Forscher Merkmale der interessierenden Population, ohne zu versuchen, die Antworten in irgendeiner Weise zu beeinflussen. Die häufigste Art von Beobachtungsstudie ist eine Stichprobenerhebung, bei der Forscher Daten durch Beobachtung und Aufzeichnung von Informationen sammeln. Der Fokus liegt auf dem Verständnis von Zusammenhängen und Mustern innerhalb der beobachteten Daten.

Sehen wir uns einige Beispiele an, um zwischen Experimenten und Beobachtungsstudien zu unterscheiden:

Eine Gruppe von Ärzten untersucht die Wirkung eines neuen cholesterinsenkenden Medikaments, indem sie es ihren Patienten mit hohem Blutdruck verabreicht. Dies ist ein Experiment, da die Ärzte eine Behandlung anwenden und die Ergebnisse analysieren.

Ein Primatologe beobachtet 10 Schimpansen in ihrem natürlichen Lebensraum und macht detaillierte Notizen zu ihrem Sozialverhalten. Hierbei handelt es sich um eine Beobachtungsstudie, da der Primatologe lediglich das Verhalten beobachtet und aufzeichnet, ohne es zu beeinflussen.

Ein Polsterer kontaktiert 500 Männer und 500 Frauen und befragt jeden Einzelnen nach seinem bevorzugten Kandidaten für eine bevorstehende Wahl. Dies ist ein weiteres Beispiel für eine Beobachtungsstudie. Der Meinungsforscher sammelt Daten, ohne die Teilnehmer oder ihre Antworten zu manipulieren.

Beobachtungsstudien können vergleichend sein, wie im vorherigen Beispiel, bei dem Männer und Frauen zu Analysezwecken getrennt kontaktiert werden. Da jedoch keine Behandlung erfolgt, handelt es sich weiterhin um eine Beobachtungsstudie.

Bestimmte Eigenschaften zeichnen ein gutes Experiment aus. Es sollte randomisiert, kontrolliert und reproduzierbar sein:

  • Durch die Randomisierung wird sichergestellt, dass Forschungsteilnehmer nach dem Zufallsprinzip verschiedenen Behandlungsgruppen zugeordnet werden. Weder die Forscher noch die Probanden entscheiden, wer welche Behandlungen erhält. Dies trägt dazu bei, Verzerrungen und verwirrende Variablen zu minimieren.
  • Kontrolle bedeutet, dass die Behandlungsgruppen bis auf die spezifischen Behandlungen, die sie erhalten, möglichst identisch sind. Die Einrichtung einer Kontrollgruppe ermöglicht genaue Vergleiche und hilft bei der Feststellung von Ursache-Wirkungs-Beziehungen.
  • Unter Replikation versteht man die Fähigkeit, das Experiment zu wiederholen und ähnliche Ergebnisse zu erzielen. Wiederholbare Experimente sind für die Validierung der Ergebnisse und die Sicherstellung der Zuverlässigkeit der Studie unerlässlich.

In Experimenten werden häufig Vergleiche zwischen zwei oder mehr Behandlungsgruppen durchgeführt, wobei eine Gruppe als Kontrolle dient. Die Kontrollgruppe bietet eine Basis für den Vergleich mit den Gruppen, die spezifische Interventionen erhalten.

Um den Placebo-Effekt anzugehen, bei dem Probanden auf Behandlungen ansprechen, auch wenn diese keine messbare Wirkung haben, nehmen die Experimentatoren ein Placebo in die Kontrollgruppe auf. Placebos sind Behandlungen, von denen bekannt ist, dass sie keine wirkliche Wirkung haben, wie zum Beispiel eine Zuckerpille oder eine nicht damit zusammenhängende Lektion für pädagogische Studien.

Zusätzlich zur Randomisierung und Kontrolle ist es von Vorteil, wenn die Zuordnung der Probanden zu den Behandlungsgruppen nach Möglichkeit doppelblind erfolgt. Das bedeutet, dass weder den Probanden noch den Datensammlern bekannt ist, wer zu welcher Behandlungsgruppe gehört. Doppelblindheit trägt dazu bei, Verzerrungen zu beseitigen und sorgt für unvoreingenommene Beobachtungen und Messungen.

Es sind drei wichtige experimentelle Designs zu berücksichtigen:

  • Vollständig randomisiertes Design: Die Probanden werden nach dem Zufallsprinzip verschiedenen Behandlungsgruppen zugeordnet, ohne dass zusätzliche Gruppierungen oder Merkmale berücksichtigt werden.
  • Randomisiertes Blockdesign: Die Probanden werden zunächst anhand spezifischer Merkmale wie Alter oder Geschlecht in Gruppen eingeteilt und dann innerhalb jedes Blocks nach dem Zufallsprinzip Behandlungsgruppen zugewiesen. Dieses Design ermöglicht es Forschern, separat zu analysieren, wie sich Behandlungen auf verschiedene Gruppen auswirken.
  • Matched-Pair-Design: Probanden werden auf der Grundlage ihrer Ähnlichkeit gepaart und dann nach dem Zufallsprinzip verschiedenen Behandlungsgruppen zugeordnet. Dieses Design ermöglicht direkte Vergleiche zwischen Paaren zur Beurteilung der Behandlungseffekte.

Das Verständnis dieser Designtypen hilft Forschern, Experimente effektiv zu planen und aus den Daten aussagekräftige Schlussfolgerungen zu ziehen. Durch die Implementierung geeigneter experimenteller Designs können Forscher die Validität und Zuverlässigkeit ihrer Ergebnisse verbessern.

Zusammenfassend sind Experimente und Beobachtungsstudien zwei grundlegende Arten von Forschungsstudien in der Statistik. Bei Experimenten werden verschiedene Behandlungen angewendet und deren Auswirkungen beobachtet, um Ursache und Wirkung zu ermitteln. Beobachtungsstudien hingegen konzentrieren sich auf die Beobachtung und Messung von Merkmalen, ohne die Reaktionen aktiv zu beeinflussen.

Ein gutes Experiment sollte Randomisierung, Kontrolle und Reproduzierbarkeit beinhalten. Die Randomisierung gewährleistet eine unvoreingenommene Zuordnung der Probanden zu den Behandlungsgruppen, die Kontrolle minimiert Störvariablen und die Replikation ermöglicht die Überprüfung der Ergebnisse. Darüber hinaus sind die Einbeziehung einer Kontrollgruppe und die Berücksichtigung des Placeboeffekts wichtige Aspekte der Versuchsplanung.

Verschiedene experimentelle Designs, wie etwa das vollständig randomisierte Design, das randomisierte Blockdesign und das Matched-Pair-Design, bieten Flexibilität bei der Behandlung spezifischer Forschungsfragen und der Berücksichtigung unterschiedlicher Studienszenarien.

Durch das Verständnis der Unterschiede zwischen Experimenten und Beobachtungsstudien und die Verwendung geeigneter experimenteller Designs können Forscher gründliche Studien durchführen, aussagekräftige Schlussfolgerungen ziehen und zur Wissenserweiterung in ihren jeweiligen Fachgebieten beitragen.

Denken Sie daran, bei der Planung einer Forschungsstudie die Forschungsfrage, die Art der Variablen und die verfügbaren Ressourcen sorgfältig abzuwägen, um den am besten geeigneten Ansatz zu bestimmen – sei es ein Experiment oder eine Beobachtungsstudie.

 

Einführung in die statistische Stichprobenerhebung


Einführung in die statistische Stichprobenerhebung

Guten Tag allerseits! Heute tauchen wir ein in die faszinierende Welt der statistischen Stichprobenziehung. Im Idealfall würde die Durchführung einer Forschungsstudie das Sammeln von Daten der gesamten interessierenden Bevölkerung umfassen, ähnlich einer Volkszählung. In der Praxis ist dies jedoch oft nicht praktikabel oder unmöglich. Betrachten Sie die folgenden Forschungsfragen: Wie hoch ist die durchschnittliche Lebenserwartung von Tauben in New York? Ist ein neues Medikament wirksam bei der Senkung des LDL-Cholesterins bei Patienten über 45? Wie viel Prozent der Wähler befürworten die Leistung des Präsidenten? In jedem Fall ist es nicht möglich, Daten über die gesamte Bevölkerung zu sammeln. Daher wenden wir uns einem handhabbareren Ansatz zu: dem Sampling.

Bei der Stichprobenziehung wird eine Teilmenge oder Stichprobe aus der Grundgesamtheit ausgewählt, um die gesamte Grundgesamtheit darzustellen und Rückschlüsse auf sie zu ziehen. Allerdings sind nicht alle Probenahmemethoden gleichermaßen zuverlässig. Lassen Sie uns ein paar falsche Herangehensweisen bei der Stichprobenerhebung besprechen. Erstens sollte anekdotischen Beweisen, die aus persönlichen Aussagen von Personen bestehen, die dem Forscher bekannt sind, mit Skepsis begegnet werden. Wenn Sie sich beispielsweise ausschließlich auf Aussagen wie „Diese Pille hat bei meiner ganzen Familie gewirkt“ oder „Ich habe heute mit drei Leuten gesprochen, die den Präsidenten gutheißen“ verlassen, kann dies zu voreingenommenen Ergebnissen führen. Ebenso kann eine praktische Stichprobenziehung, bei der Daten aus leicht zugänglichen Quellen gesammelt werden, wie etwa einer politischen Umfrage in einem nahegelegenen Park oder einer psychologischen Studie mit Studenten des Professors, aufgrund der nicht zufälligen Auswahl der Teilnehmer zu Verzerrungen führen.

Um die Validität unserer Ergebnisse sicherzustellen, ist die Verwendung einer Zufallsstichprobe von entscheidender Bedeutung. Bei einer Zufallsstichprobe wird durch ein Zufallsverfahren ermittelt, welche Personen aus der Grundgesamtheit einbezogen werden, wobei jedes Mitglied die gleiche Chance hat, ausgewählt zu werden. Das Ziel einer Zufallsstichprobe besteht darin, Stichprobenverzerrungen zu vermeiden, die auftreten, wenn die aus der Stichprobe abgeleitete Statistik den Populationsparameter systematisch über- oder unterschätzt. Es ist unbedingt zu beachten, dass aus Zufallsstichproben abgeleitete Statistiken immer noch Schwankungen aufweisen, da einzelne Stichproben aufgrund des Zufallsauswahlverfahrens von der Grundgesamtheit abweichen können. Im Durchschnitt entspricht die Statistik jedoch dem Bevölkerungsparameter.

Lassen Sie uns einige Arten der Zufallsstichprobe untersuchen. Der einfachste und intuitivste Ansatz ist eine einfache Zufallsstichprobe (SRS), bei der jede Stichprobe gleicher Größe die gleiche Chance hat, ausgewählt zu werden. Dies wird typischerweise dadurch erreicht, dass man eine Liste der Bevölkerungsmitglieder erhält, ihnen Nummern zuordnet und einen Zufallszahlengenerator verwendet, um die gewünschte Anzahl von Individuen auszuwählen. In einer geschichteten Stichprobe wird die Bevölkerung anhand wichtiger Merkmale wie Alter, Geschlecht oder Rasse in Gruppen oder Schichten eingeteilt. Anschließend wird aus jeder Gruppe eine einfache Zufallsstichprobe gezogen, was eine separate Analyse verschiedener Untergruppen innerhalb der Bevölkerung ermöglicht. Bei einer Clusterstichprobe wird die Population in natürlich vorkommende oder ähnliche Gruppen oder Cluster unterteilt. Es wird eine Zufallsstichprobe von Clustern ausgewählt und jedes Mitglied der ausgewählten Cluster wird in die Stichprobe einbezogen. Bei der mehrstufigen Stichprobenziehung werden diese Techniken kombiniert, indem Cluster ausgewählt werden, dann innerhalb jedes Clusters Zufallsstichproben entnommen werden und der Vorgang bei Bedarf wiederholt wird.

Wenden wir diese Konzepte nun auf einige Beispiele an und identifizieren wir die verwendeten Stichprobenmethoden. Im ersten Beispiel kontaktiert ein Meinungsforscher zufällig 400 Männer und 400 Frauen und befragt sie nach ihrem bevorzugten Kandidaten für eine bevorstehende Wahl. Hierbei handelt es sich um ein Beispiel einer geschichteten Stichprobe, da dabei Informationen sowohl über Männer als auch über Frauen gesammelt werden, während innerhalb jeder Gruppe eine einfache Zufallsstichprobe entnommen wird. Im zweiten Beispiel wählen Forscher nach dem Zufallsprinzip 50 weiterführende Schulen aus und führen für alle Schüler dieser Schulen eine Mathematikprüfung durch. Hierbei handelt es sich um eine Clusterstichprobe, bei der die Randomisierung auf Schulebene erfolgt und eine Zählung innerhalb der ausgewählten Schulen durchgeführt wird.

Im dritten Beispiel wählt ein Autohändler anhand einer Kundenliste zufällig 200 frühere Autokäufer aus und kontaktiert jeden einzelnen für eine Zufriedenheitsumfrage. Dies ist ein typisches Beispiel für eine einfache Zufallsstichprobe, da jede Gruppe von 200 Kunden die gleiche Chance hat, ausgewählt zu werden. Schließlich wählt eine medizinische Gruppe nach dem Zufallsprinzip 35 US-Krankenhäuser aus und entnimmt dann eine Zufallsstichprobe von 50 Patienten aus jedem Krankenhaus, um die Kosten ihrer Behandlung zu ermitteln. Dieses Szenario zeigt ein mehrstufiges Beispiel. Zunächst werden Cluster (Krankenhäuser) nach dem Zufallsprinzip ausgewählt, gefolgt von einer einfachen Zufallsstichprobe innerhalb jedes ausgewählten Krankenhauses.

Bevor wir zum Schluss kommen, ist es erwähnenswert, eine andere Stichprobenmethode zu erwähnen, die als systematische Stichprobe bekannt ist. Obwohl es sich nicht um eine Form der Zufallsstichprobe handelt, kann sie unter bestimmten Umständen als Ersatz verwendet werden. Bei einer systematischen Stichprobe werden Mitglieder der Bevölkerung nach einem vorgegebenen Muster ausgewählt. Beispielsweise könnte ein Lebensmittelgeschäft jede 20. Person, die das Geschäft verlässt, befragen, um die Kundenzufriedenheit zu ermitteln. Eine systematische Stichprobe kann genauso effektiv sein wie eine Zufallsstichprobe, wenn die Grundgesamtheit homogen ist, d. h. es gibt keine relevanten Muster darin. Es muss jedoch darauf geachtet werden, dass das Stichprobenmuster nicht mit vorhandenen Mustern in der Grundgesamtheit übereinstimmt, da dies zu Verzerrungen führen könnte.

Zusammenfassend lässt sich sagen, dass statistische Stichproben ein wichtiges Instrument sind, wenn es unpraktisch oder unmöglich ist, Daten von einer gesamten Bevölkerung zu sammeln. Zufällige Stichprobenmethoden wie einfache Zufallsstichproben, geschichtete Stichproben, Clusterstichproben und mehrstufige Stichproben tragen dazu bei, Stichprobenverzerrungen zu verringern und die Wahrscheinlichkeit zu erhöhen, repräsentative und unvoreingenommene Ergebnisse zu erhalten. Während Zufallsstichproben zu Variabilität führen, stimmen die daraus abgeleiteten Statistiken im Durchschnitt mit den Populationsparametern überein. Das Verständnis der Stärken und Grenzen verschiedener Probenahmemethoden ist für die Durchführung zuverlässiger und genauer Forschungsstudien von entscheidender Bedeutung.

 

Bias und Variabilität in der Statistik


Bias und Variabilität in der Statistik

Hallo an alle! Heute beschäftigen wir uns mit den Konzepten von Bias und Variabilität in der Statistik. Das übergeordnete Ziel der statistischen Inferenz besteht darin, auf der Grundlage von Stichprobendaten Rückschlüsse auf Populationen zu ziehen. Um dies zu erreichen, verwenden wir häufig Statistiken, bei denen es sich um numerische Beschreibungen von Stichproben handelt, um die entsprechenden Parameter, bei denen es sich um numerische Beschreibungen von Populationen handelt, zu schätzen.

Um dies zu veranschaulichen, betrachten wir ein Beispiel. Angenommen, eine Umfrage unter 1.200 Wählern ergibt, dass Kandidat A mit 8 Prozentpunkten Vorsprung vor Kandidat B liegt. Wir können diesen 8-Punkte-Unterschied als Statistik betrachten, als Schätzung, mit welchem Vorsprung Kandidat A voraussichtlich gewinnen wird. Andererseits stellt das tatsächliche Ergebnis der Wahl, also der tatsächliche Unterschied in der Unterstützung zwischen den Kandidaten, den Parameter dar.

In einigen Fällen stimmen die Statistik und der Parameter perfekt überein. In den meisten Fällen unterscheiden sie sich jedoch in gewissem Maße. Beispielsweise könnte der tatsächliche Ausgang der Wahl zeigen, dass Kandidat A mit 7,8 Prozentpunkten gewinnt. Solche Abweichungen können zwar zufällig auftreten, können jedoch ein Problem bei der Beurteilung der Qualität einer Statistik darstellen.

Dies führt uns zum Konzept der Voreingenommenheit. Eine als P-Hat dargestellte Statistik gilt als unverzerrt, wenn sie im Durchschnitt gleich dem entsprechenden Parameter ist, der als P bezeichnet wird. Mit anderen Worten: Eine gute Statistik sollte den Parameter nicht systematisch über- oder unterschätzen. Es ist wichtig zu beachten, dass wir den Begriff „Voreingenommenheit“ hier in einem technischen Sinne verwenden und nichts mit Vorurteilen oder Diskriminierung zu tun haben.

Mehrere häufige Ursachen für Voreingenommenheit können sich auf Umfragen auswirken. Stichprobenverzerrungen liegen vor, wenn nicht alle Mitglieder der Bevölkerung die gleiche Chance haben, in eine Zufallsstichprobe aufgenommen zu werden. Wenn bei einer Telefonumfrage beispielsweise Mobiltelefone ausgeschlossen werden, kann es sein, dass die Ergebnisse zugunsten älterer Personen verzerrt werden und möglicherweise von den Ansichten der Gesamtbevölkerung abweichen. Ein Non-Response-Bias entsteht, wenn diejenigen, die sich weigern, an einer Umfrage teilzunehmen, sich von denen unterscheiden, die dies tun, was zu potenziellen Verzerrungen in den gesammelten Daten führt.

Asymmetrische Fragen oder voreingenommene Formulierungen können dazu führen, dass die Befragten auf eine bestimmte Art und Weise antworten, was zu einer Verzerrung der Ergebnisse führen kann. Eine Tendenz zur sozialen Erwünschtheit tritt auf, wenn die Befragten dazu neigen, Antworten zu geben, die sozial akzeptabel sind oder positiv bewertet werden. Wenn Einzelpersonen beispielsweise nach ihren Zahnhygienepraktiken gefragt werden, überschätzen sie aufgrund sozialer Erwünschtheit möglicherweise die Häufigkeit des Zähneputzens.

In experimentellen Studien kann eine Verzerrung auf Faktoren wie mangelnde Kontrolle oder Verblindung zurückzuführen sein. Wenn sich die Versuchsgruppen über die angewandte Behandlung hinaus unterscheiden, kann dies zu einer Verzerrung der Ergebnisse führen. Die Randomisierung ist entscheidend, um Einheitlichkeit zu gewährleisten und Verzerrungen zu reduzieren.

Während eine unverzerrte Statistik darauf abzielt, den Parameter genau zu schätzen, erklärt Variabilität die Tendenz von Statistiken, über verschiedene Zufallsstichproben hinweg zu variieren. Selbst bei einer unvoreingenommenen Stichprobenmethode ist es wahrscheinlich, dass jede Zufallsstichprobe allein aufgrund des Zufalls eine andere Statistik liefert. Es ist wichtig zu beachten, dass Variabilität keine Form der Verzerrung ist. Nur weil eine Umfrage den Wahlausgang nicht genau vorhersagte, heißt das nicht zwangsläufig, dass sie fehlerhaft war.

Um den Unterschied zwischen Voreingenommenheit und Variabilität zu veranschaulichen, stellen Sie sich vor, Sie werfen Pfeile ins Schwarze. Eine geringe Variabilität und eine geringe Voreingenommenheit würden bedeuten, dass Ihre Darts das Ziel konstant treffen und sich eng um das Bullauge konzentrieren. Eine hohe Variabilität, aber eine geringe Voreingenommenheit würde zu verstreuten Pfeilen führen, die immer noch um das Bullauge herum zentriert sind. Umgekehrt würden eine hohe Variabilität und eine hohe Voreingenommenheit dazu führen, dass die Pfeile weit verstreut sind und das Schwarze Auge ständig verfehlen. Allerdings ist es selbst im schlimmsten Fall möglich, dass eine Studie einmal ins Schwarze trifft, was darauf hindeutet, dass es trotz hoher Verzerrung und Variabilität gelegentlich zu korrekten Ergebnissen kommen kann.

Das Verständnis von Bias und Variabilität ist für die Bewertung der Qualität von Statistiken und die genaue Interpretation von Forschungsergebnissen von entscheidender Bedeutung.

 

Konstruieren von Häufigkeitsverteilungen


Konstruieren von Häufigkeitsverteilungen

Hallo an alle! Heute werden wir uns mit der Erstellung von Häufigkeitsverteilungen befassen, um quantitative Daten zusammenzufassen und zu analysieren. Wenn wir eine Reihe numerischer Beobachtungen haben, ist es wichtig, die Form, den Mittelpunkt und die Verteilung der Daten zu verstehen. Um dies zu erreichen, wird es nicht ausreichen, nur auf die Daten zu starren. Wir müssen es auf sinnvolle Weise zusammenfassen, und hier kommen Häufigkeitsverteilungen ins Spiel.

Bei einer Häufigkeitsverteilung werden die Daten in mehrere Klassen oder Intervalle unterteilt und dann bestimmt, wie viele Beobachtungen in jede Klasse fallen. Betrachten wir ein Beispiel, in dem wir einen Wertebereich von 11 bis 25 haben. Um eine Häufigkeitsverteilung zu erstellen, können wir diesen Bereich in fünf Klassen unterteilen und die Anzahl der Beobachtungen in jeder Klasse zählen.

In der für die Intervallnotation verwendeten Notation zeigt eine harte Klammer auf der linken Seite an, dass der linke Endpunkt in jedem Intervall enthalten ist, während eine weiche Klammer auf der rechten Seite anzeigt, dass der rechte Endpunkt nicht enthalten ist. Das bedeutet, dass die Grenzwerte wie 14, 17, 20 und 23 immer in die nächsthöhere Klasse fallen. Darüber hinaus sind die Klassenbreiten alle gleich, in diesem Fall jeweils drei Einheiten.

Durch die Untersuchung der Häufigkeitsverteilung können wir bereits einige Erkenntnisse über die Daten gewinnen. Der Mittelpunkt der Daten scheint bei etwa 18 Jahren zu liegen und fällt in die Klasse der 17- bis 20-Jährigen, die eine höhere Häufigkeit aufweist. Der Rest der Daten zeigt eine relative Symmetrie um diese zentrale Spitze.

Lassen Sie uns nun einen Schritt-für-Schritt-Prozess zur Erstellung einer Häufigkeitsverteilung durchgehen. Zunächst müssen wir die Anzahl der zu verwendenden Klassen festlegen. Obwohl es keine strenge Regel gibt, liegt ein guter Ausgangspunkt normalerweise zwischen 5 und 20 Unterrichtsstunden. Wenn wir zu wenige Klassen verwenden, erfassen wir nicht genügend Details in der Verteilung, was uns daran hindert, die Daten zu verstehen. Andererseits führt die Verwendung zu vieler Klassen zu einer geringen Anzahl pro Klasse, was es schwierig macht, die Form der Daten zu erkennen.

Sobald wir die Anzahl der Klassen ermittelt haben, fahren wir mit der Berechnung der Klassenbreite fort. Dazu berechnen wir den Bereich der Daten, indem wir den Minimalwert vom Maximalwert subtrahieren. Dann dividieren wir den Bereich durch die Anzahl der Klassen. Es ist wichtig, die Klassenbreite aufzurunden, um sicherzustellen, dass alle Beobachtungen in eine der Klassen fallen. Das Abrunden kann dazu führen, dass einige Datenpunkte aus der Verteilung ausgeschlossen werden.

Als nächstes ermitteln wir die unteren Grenzen für jede Klasse. Wir beginnen mit dem Minimalwert als unterer Grenze der ersten Klasse. Dann addieren wir die Klassenbreite, um die untere Grenze der zweiten Klasse zu erhalten, und so weiter. Die Obergrenze jeder Klasse liegt knapp unter der Untergrenze der nächsten Klasse.

Schließlich zählen wir, wie viele Beobachtungen in jede Klasse fallen, indem wir den Datensatz untersuchen. Betrachten wir beispielsweise ein Szenario, in dem wir eine Häufigkeitsverteilung mithilfe von acht Klassen für einen bestimmten Datensatz erstellen. Wir berechnen den Bereich der Daten, der 115,5 – 52,0 = 63,5 beträgt. Wenn wir diesen Bereich durch acht teilen, erhalten wir eine Klassenbreite von 7,9, die wir auf 8,0 aufrunden. Ausgehend vom Mindestwert 52 addieren wir 8,0, um die unteren Grenzen für jede Klasse zu erhalten: 52, 60, 68 usw.

Indem wir den Datensatz durchgehen und die Beobachtungen zählen, die in jede Klasse fallen, erhalten wir die Häufigkeiten. Es ist wichtig zu beachten, dass sich die Klassen nicht überlappen dürfen und ihre Breite gleich bleiben sollte. Dadurch wird sichergestellt, dass jede Beobachtung einer einzelnen Klasse zugeordnet wird.

Um unser Verständnis der Häufigkeitsverteilung zu verbessern, können wir die Tabelle erweitern, indem wir Spalten für Klassenmittelpunkte, relative Häufigkeiten und kumulative Häufigkeiten hinzufügen. Klassenmittelpunkte stellen den Durchschnittswert innerhalb jedes Intervalls dar. Wir berechnen sie, indem wir den Durchschnitt der unteren und oberen Grenzen jeder Klasse bilden. Beispielsweise ist der Mittelpunkt für die Klasse von 52 bis 60 (52 + 60) / 2 = 56, und für die Klasse von 60 bis 68 ist er (60 + 68) / 2 = 64 und so weiter.

Relative Häufigkeiten geben Aufschluss über den Anteil der Beobachtungen innerhalb jeder Klasse im Verhältnis zur Gesamtgröße des Datensatzes. Um die relativen Häufigkeiten zu berechnen, teilen wir die Häufigkeit jeder Klasse durch die Gesamtgröße des Datensatzes. Wenn wir beispielsweise die Häufigkeit 11 durch die Datensatzgröße 50 dividieren, erhalten wir eine relative Häufigkeit von 0,22. Ebenso ergibt die Division von 8 durch 50 eine relative Häufigkeit von 0,16.

Kumulative Häufigkeiten werden durch Summieren der Häufigkeiten für jedes Intervall und alle davor liegenden Intervalle ermittelt. Die kumulative Häufigkeit für das erste Intervall von 52 bis 60 bleibt dieselbe wie seine Häufigkeit, die 11 beträgt. Um die kumulative Häufigkeit für das nächste Intervall zu ermitteln, addieren wir seine Häufigkeit (8) zur kumulativen Häufigkeit des vorherigen Intervalls. Beispielsweise beträgt die kumulative Häufigkeit für das zweite Intervall von 60 bis 68 11 + 8 = 19. Wir setzen diesen Prozess für jedes Intervall fort und summieren die Häufigkeiten und vorherigen kumulativen Häufigkeiten, um die kumulativen Häufigkeiten für nachfolgende Intervalle zu erhalten.

Es ist wichtig zu beachten, dass die Summe aller Häufigkeiten der Gesamtgröße des Datensatzes entsprechen sollte (in diesem Fall 50). Die Summe der relativen Häufigkeiten sollte immer 1 sein, was die Gesamtheit des Datensatzes angibt. Schließlich sollte der letzte Wert in der Spalte der kumulativen Häufigkeiten mit der Größe des Datensatzes übereinstimmen.

Die Erweiterung der Häufigkeitsverteilungstabelle um Spalten für Klassenmittelpunkte, relative Häufigkeiten und kumulative Häufigkeiten trägt zu einem umfassenderen Verständnis der Datenverteilung bei. Es ermöglicht uns, die zentralen Tendenzen, Proportionen und kumulativen Proportionen der Daten auf organisiertere und aufschlussreichere Weise zu beobachten.

Zusammenfassend umfasst die Erstellung einer Häufigkeitsverteilung die Aufteilung der Daten in Klassen, die Bestimmung der Klassenbreite, die Berechnung der Untergrenzen, das Zählen der Beobachtungen in jeder Klasse und die Analyse der resultierenden Häufigkeiten. Das Erweitern der Tabelle um zusätzliche Informationen wie Klassenmittelpunkte, relative Häufigkeiten und kumulative Häufigkeiten kann unser Verständnis der Eigenschaften des Datensatzes weiter verbessern.

 

Histogramme, Häufigkeitspolygone und Ogiven


Histogramme, Häufigkeitspolygone und Ogiven

Hallo zusammen, heute tauchen wir in die Welt der grafischen Darstellung von Daten ein. Wir werden Histogramme, Häufigkeitspolygone und Ogiven untersuchen, die allesamt visuelle Darstellungen von Verteilungen einzelner Variablen sind. Während wir diese verschiedenen Anzeigetypen untersuchen, verwenden wir als Beispiel die erweiterte Häufigkeitsverteilung, die wir im vorherigen Video erstellt haben. Um Ihr Gedächtnis aufzufrischen, haben wir mit einem Datensatz begonnen, der aus 50 Werten im Bereich von etwa 52 bis 116 bestand. Wir haben den Datensatz in acht Klassen gleicher Breite unterteilt und die Anzahl der Werte in jeder Klasse bestimmt, um die Häufigkeitsverteilung zu erstellen.

Beginnen wir mit der wichtigsten und am häufigsten verwendeten visuellen Darstellung eines Datensatzes mit einer Variablen: dem Häufigkeitshistogramm. In einem Histogramm tragen wir die Datenwerte auf der horizontalen Achse und die Häufigkeiten auf der vertikalen Achse ein. Insbesondere beschriften wir die Klassenmittelpunkte, z. B. 56, 64, 72 usw., auf der horizontalen Achse. Über jedem Mittelpunkt zeichnen wir einen Balken, dessen Höhe der Häufigkeit dieser Klasse entspricht. Wenn die Häufigkeiten für die ersten Klassen beispielsweise 11, 8, 9 usw. betragen, haben die Balken die entsprechenden Höhen.

Es ist wichtig zu beachten, dass Histogramme die Häufigkeit anhand der Fläche darstellen. Eine größere Fläche bedeutet eine größere Datenmenge. Wenn wir uns das Diagramm ansehen, wird unser Blick automatisch auf Bereiche mit mehr Daten gelenkt, was uns ein intuitives Verständnis für die Form, den Mittelpunkt und die Ausbreitung des Datensatzes vermittelt. In diesem Histogramm können wir beispielsweise sehen, dass sich die Daten eher um 56 als um 112 gruppieren. Darüber hinaus ist es erwähnenswert, dass wir beim Zeichnen eines Histogramms im Gegensatz zu einem Balkendiagramm keine Lücken zwischen benachbarten Klassen lassen wobei typischerweise Lücken zwischen Balken vorhanden sind, die kategoriale Variablen darstellen.

Manchmal werden Histogramme so gezeichnet, dass die horizontale Achse mit den Endpunkten der Klassen statt mit den Mittelpunkten beschriftet ist, und das ist vollkommen akzeptabel. Das Diagramm vermittelt die gleichen Informationen, unabhängig davon, welcher Etikettierungsansatz verwendet wird. Eine andere Möglichkeit besteht darin, die relative Häufigkeit anstelle der Häufigkeit im Histogramm darzustellen, was zu einer ähnlichen Form führen sollte. Der einzige Unterschied wäre eine Änderung der Skalierung der horizontalen Achse, um den relativen Frequenzwerten Rechnung zu tragen.

Eine weitere dem Histogramm ähnliche visuelle Darstellungsmethode ist das Häufigkeitspolygon. Hier tragen wir weiterhin die Datenwerte auf der horizontalen Achse ein und stellen die Häufigkeiten auf der vertikalen Achse dar. Anstatt jedoch Balken zu zeichnen, zeichnen wir einen Punkt für jede Klasse ein. Diese Punkte entsprechen den Mittelpunkten auf der horizontalen Achse und ihren jeweiligen Frequenzen auf der vertikalen Achse. Diese Punkte verbinden wir dann mit Linien. Um sicherzustellen, dass das Polygon vollständig erscheint, fügen wir einen zusätzlichen Punkt unterhalb des ersten Mittelpunkts und einen weiteren über dem letzten Mittelpunkt hinzu, die sich jeweils um eine Klassenbreite erstrecken.

Schließlich können wir die Daten mithilfe einer Ogive darstellen, die kumulative Häufigkeiten anzeigt. Bei der Konstruktion einer Ogive tragen wir die Grenzen der Oberschicht auf der horizontalen Achse und die kumulativen Häufigkeiten auf der vertikalen Achse ein. Wir beginnen mit einem Punkt auf der horizontalen Achse, der der ersten unteren Klassengrenze entspricht. Der Zweck der Ogive besteht darin, für jeden gegebenen x-Wert anzuzeigen, wie viele Datenpunkte in unserer Verteilung unter diesen Wert fallen.

Ich hoffe, dass dies die Konzepte der grafischen Darstellung von Daten mithilfe von Histogrammen, Frequenzpolygonen und Ogiven verdeutlicht. Diese visuellen Darstellungen liefern wertvolle Einblicke in die Verteilung von Einzelvariablen-Datensätzen.

 

Ihre erste RStudio-Sitzung


Ihre erste RStudio-Sitzung

Hallo zusammen, in der heutigen Sitzung freuen wir uns, unser Studio zum ersten Mal zu öffnen. Unser Hauptaugenmerk liegt auf der Erkundung der Grundfunktionen und der Einarbeitung in diese Umgebung. Wenn Sie unser Studio zum ersten Mal öffnen, werden Ihnen drei verschiedene Fensterbereiche auffallen. In diesem Video konzentrieren wir uns jedoch hauptsächlich auf die Registerkarte „Konsole“ im Fensterbereich ganz links. Wir werden jedoch im weiteren Verlauf kurz auf die anderen Bereiche eingehen und uns eine ausführlichere Diskussion für zukünftige Videos sparen.

Sehen wir uns zunächst die Konsolenregisterkarte an, die in R als wissenschaftlicher Taschenrechner fungiert. Sie können grundlegende Rechenoperationen wie Addition, Subtraktion, Multiplikation und Division ausführen. Wenn wir beispielsweise 8 plus 12 berechnen, ist das Ergebnis 20. Es ist wichtig zu beachten, dass das Ergebnis ohne die eckigen Klammern angezeigt wird, was wir später in diesem Video erklären werden. Darüber hinaus können Sie zur besseren Lesbarkeit Leerzeichen hinzufügen, da R Leerzeichen bei der Eingabe in der Befehlszeile ignoriert.

R bietet eine Vielzahl integrierter Funktionen, beispielsweise die Quadratwurzelfunktion. Beispielsweise ist die Quadratwurzel von 9 3. Ebenso können Sie trigonometrische Operationen, Absolutwertberechnungen und mehr durchführen. Die Funktionsnamen sind normalerweise intuitiv, aber falls Sie sich nicht sicher sind, hilft Ihnen eine schnelle Google-Suche dabei, die richtige Syntax zu finden.

Eine hilfreiche Funktion in RStudio ist die Möglichkeit, frühere Befehle mithilfe der Aufwärtspfeiltaste abzurufen. Dadurch können Sie einen vorherigen Befehl abrufen und bei Bedarf Änderungen vornehmen. Wenn Sie beispielsweise die Quadratwurzel aus 10 statt aus 9 berechnen möchten, können Sie die Aufwärtspfeiltaste drücken, die 9 löschen und 10 eingeben, um ungefähr 3,162278 zu erhalten.

Standardmäßig zeigt R rechts vom Dezimalpunkt eine Genauigkeit von sechs Stellen an. Sie können diese Einstellung jedoch im Menü „Einstellungen“ entsprechend Ihren Bedürfnissen anpassen.

Kommen wir nun zur Definition von Variablen. In R können Sie Variablen Werte zuweisen, indem Sie den Zuweisungsoperator verwenden, bei dem es sich um einen Linkspfeil ( <- ) oder ein Gleichheitszeichen ( = ) handelt. Es wird empfohlen, für Zuweisungen den Pfeil nach links zu verwenden. Definieren wir beispielsweise eine Variable mit dem Namen „x“ und setzen sie auf 3. Nach der Zuweisung wird auf der Registerkarte „Umgebung“ im oberen rechten Bereich „x = 3“ angezeigt, um uns an die Zuweisung zu erinnern. Wenn wir einfach den Variablennamen „x“ in die Konsole eingeben und die Eingabetaste drücken, gibt R seinen Wert aus, der in diesem Fall 3 ist.

Sie können arithmetische Operationen mit Variablen ausführen, genau wie mit numerischen Werten. Wenn wir beispielsweise 3 plus x berechnen, ist das Ergebnis 6. R respektiert die Reihenfolge der Operationen, sodass Ausdrücke wie 1 plus 2 mal x 7 statt 9 ergeben.

R wird leistungsfähiger, wenn wir Variablen als Vektoren zuweisen. Um einen Vektor zu erstellen, verwenden wir die Verkettungsfunktion (c), gefolgt von Klammern und den Werten, die wir einschließen möchten. Weisen wir beispielsweise den Vektor „y“ den Werten 1, 5, 6 und 9 zu. Nachdem Sie den Vektor definiert haben, werden durch Eingabe von „y“ und Drücken der Eingabetaste seine Werte angezeigt: 1, 5, 6 und 9. Nun wir kann arithmetische Operationen am Vektor durchführen, wie zum Beispiel das Addieren von 2 zu jedem Element (y + 2) oder das Anwenden mathematischer Funktionen wie der Quadratwurzel (sqrt(y)).

Neben arithmetischen Operationen können wir auch Vektoren zusammenfassen. Wir können zum Beispiel den Median (median(y)) oder die Summe (sum(y)) des Vektors berechnen. R bietet zahlreiche Funktionen zum Bearbeiten von Vektoren. Wenn Sie sich bei einer bestimmten Funktion nicht sicher sind, liefert eine schnelle Google-Suche die erforderlichen Informationen. Es gibt zwei zusätzliche Funktionen in RStudio, die ich erwähnen möchte, bevor wir fortfahren. Der erste ist der

Registerkarte „Verlauf“ oben in der Konsole. Wenn Sie darauf klicken, können Sie auf eine Liste Ihrer letzten Befehle zugreifen. Sie können durch den Verlauf scrollen, um frühere Befehle zu überprüfen und wiederzuverwenden, was eine zeitsparende Funktion sein kann. Selbst wenn Sie RStudio beenden und später zurückkehren, ist der Befehlsverlauf weiterhin verfügbar.

Um einen Befehl aus dem Verlauf wiederzuverwenden, doppelklicken Sie einfach darauf und er wird in der Konsole angezeigt. Anschließend können Sie alle erforderlichen Änderungen vornehmen und den Befehl erneut bewerten. Mit dieser Funktion können Sie Ihre vorherigen Befehle problemlos erneut aufrufen und ändern.

Die zweite Funktion, die ich hervorheben möchte, ist die Möglichkeit, Variablen Namen zu geben, die aus mehr als einem Buchstaben bestehen. Nehmen wir zum Beispiel an, wir möchten eine Variable mit dem Namen „Zahlen“ erstellen und ihr die Werte 1, 2, 3, 4, 5 und 6 zuweisen. Dies können wir tun, indem wir „Zahlen <- c(1, 2, 3) eingeben , 4, 5, 6)“ in der Konsole. Sobald die Zuweisung erfolgt ist, können wir verschiedene Operationen an der Variablen durchführen, beispielsweise die Berechnung der Quadratwurzel von „Zahlen“ (sqrt(numbers)).

Kommen wir nun zum Laden eines Datensatzes und erkunden einige der Aktionen, die wir mit den geladenen Daten durchführen können. Im unteren rechten Bereich von RStudio finden Sie einen Dateibrowser. Navigieren Sie zum Speicherort Ihres Datensatzes und wählen Sie ihn aus. Wählen wir beispielsweise den Datensatz „Körper“. Klicken Sie auf die Schaltfläche „Datensatz importieren“, um den Datensatz in RStudio zu importieren.

Während des Importvorgangs wird eine Vorschau des Tabellenformats des Datensatzes angezeigt. Im oberen rechten Bereich wird auf der Registerkarte „Umgebung“ ein neues Objekt mit dem Namen „body_data“ angezeigt. Dieses Objekt stellt einen Datenrahmen mit 300 Beobachtungen und 15 Variablen dar. Im Wesentlichen handelt es sich um eine Tabelle mit 300 Zeilen und 15 Spalten. Sie können mit dem Datensatz interagieren, indem Sie Spalten sortieren, horizontal scrollen, um weitere Spalten anzuzeigen, und ihn ähnlich wie eine Excel-Datei behandeln.

Um mit bestimmten Variablen im Datenrahmen arbeiten zu können, müssen wir sie mithilfe der Dollarzeichen-Notation ($) angeben. Wenn wir beispielsweise an der Variable „age“ interessiert sind, können wir „body_data$age“ in die Konsole eingeben. RStudio stellt eine Liste der verfügbaren Variablen bereit, sobald Sie mit der Eingabe beginnen. Wenn Sie die Eingabetaste drücken, wird eine Liste aller Altersgruppen im Datensatz in der Reihenfolge angezeigt, in der sie angezeigt werden.

Sobald wir eine bestimmte Variable wie „body_data$age“ isoliert haben, können wir wie jede andere Variable Operationen daran ausführen. Beispielsweise können wir das Durchschnittsalter aller Personen im Datensatz berechnen, indem wir „mean(body_data$age)“ in die Konsole eingeben. In diesem Fall wird das Durchschnittsalter mit 47,0 Jahren ermittelt.

Zusätzlich zum Mittelwert können Sie mit den entsprechenden Funktionen andere Statistiken wie Standardabweichung, Median, Summe, Minimum, Maximum und mehr untersuchen. Wir werden uns in zukünftigen Videos eingehender mit diesen Datenmanipulationstechniken befassen und die Leistungsfähigkeit von R für statistische Analysen erkunden.

Damit ist unser Überblick über die Öffnung unseres Studios, die Grundfunktionen und die Arbeit mit Variablen und Datensätzen abgeschlossen. Seien Sie gespannt auf zukünftige Videos, in denen wir erweiterte Funktionen und Techniken in RStudio erkunden werden.

 

Histogramme und Häufigkeitspolygone in R


Histogramme und Häufigkeitspolygone in R

Hallo zusammen, im heutigen Video erstellen wir mit dem Befehl qplot optisch ansprechende Histogramme und Häufigkeitspolygone in R. Es gibt verschiedene Möglichkeiten, Grafiken in R zu erstellen, aber ich persönlich glaube, dass das Paket ggplot2 die schönsten Anzeigen liefert. Zu Beginn verwenden wir den Befehl qplot in ggplot2.

Für unsere Demonstration werden wir mit dem „Faithful“-Datensatz arbeiten, der in R integriert ist. Dieser Datensatz besteht aus 272 Beobachtungen der Eruptionszeit und der Wartezeit zwischen Eruptionen in Minuten vom Old Faithful-Geysir im Yellowstone-Nationalpark, USA .

Um Histogramme und Häufigkeitspolygone für die Variable „waiting“ zu zeichnen, müssen wir zuerst das Paket ggplot2 installieren. Wenn Sie es noch nicht installiert haben, können Sie dies tun, indem Sie „install.packages('ggplot2')“ eingeben. Nach der Installation müssen Sie das Paket jedes Mal laden, wenn Sie eine neue Sitzung starten, indem Sie „library(ggplot2)“ eingeben.

Konzentrieren wir uns nun auf die Handlung. Um ein Histogramm zu erstellen, geben wir die Variable auf der x-Achse mit dem Argument „x“ an, etwa so: „qplot(x = waiting, data = true, geom = ‚histogram‘)“. Dadurch wird ein Histogramm generiert, das besser aussieht als das, das mit dem hist-Befehl von base R erstellt wurde.

Es gibt jedoch einige Verbesserungen, die wir vornehmen können. Beginnen wir mit dem Hinzufügen von Beschriftungen und einem Haupttitel zum Diagramm. Wir können die Argumente „xlab“ für die Beschriftung der X-Achse, „ylab“ für die Beschriftung der Y-Achse und „main“ für den Haupttitel verwenden. Zum Beispiel: „qplot(x = Warten, Daten = treu, Geom = ‚Histogramm‘, xlab = ‚Wartezeit‘, ylab = ‚Frequenz‘, Haupt = ‚Old Faithful‘)“.

Als Nächstes befassen wir uns mit dem Erscheinungsbild der Balken. Standardmäßig kann es so aussehen, als würden die Balken zusammenlaufen. Um sie zu unterscheiden, können wir mithilfe des Arguments „color“ eine Rahmenfarbe hinzufügen, z. B. „color = ‚darkblue‘“. Darüber hinaus können wir die Füllfarbe der Balken mithilfe des Arguments „fill“ ändern, z. B. „fill = ‚lightblue‘“.

Wenn wir nun ein Häufigkeitspolygon anstelle eines Histogramms erstellen möchten, können wir das Argument „geom“ in „geom = 'freqpoly'“ ändern. Dadurch wird das Häufigkeitspolygon unter Verwendung derselben Variablen auf der x-Achse dargestellt. Denken Sie daran, das Argument „fill“ zu entfernen, da es in diesem Fall nicht anwendbar ist.

Möglicherweise möchten Sie auch die Anzahl der Bins im Histogramm mithilfe des Arguments „bins“ anpassen. Standardmäßig verwendet R 30 Bins, Sie können ihn jedoch in einen anderen Wert ändern, z. B. „Bins = 20“, um mehr oder weniger Bins zu haben.

Abschließend möchte ich eine alternative Möglichkeit zur Angabe der Daten erwähnen. Anstatt die „$“-Notation zu verwenden, können Sie den Datensatz direkt mit dem Argument „data“ angeben, z. B. „qplot(x = waiting, data = true, geom = ‚histogram‘)“. Dies kann nützlich sein, wenn Sie mit mehreren Variablen arbeiten.

Damit ist unser Tutorial zum Erstellen von Histogrammen und Häufigkeitspolygonen in R mit dem Befehl qplot abgeschlossen. Probieren Sie verschiedene Einstellungen aus und experimentieren Sie mit ihnen, um optisch ansprechende und informative Grafiken zu erstellen.

 

Stamm- und Blattdiagramme


Stamm- und Blattdiagramme

Hallo zusammen, in der heutigen Diskussion werden wir das Konzept der Stamm-Blatt-Diagramme untersuchen. Stamm-Blatt-Diagramme bieten eine einfache und informative Möglichkeit, die Verteilung einer einzelnen Variablen zu visualisieren. Sie sind besonders effektiv bei kleinen Datensätzen, da sie alle Informationen ohne Verlust bei der Visualisierung behalten. Um sie besser zu verstehen, schauen wir uns einige Beispiele an.

Ein typisches Stammdiagramm besteht aus einem vertikalen Balken, wobei jede Ziffer rechts vom Balken einen Datenpunkt darstellt. Diese Ziffern stellen die letzte signifikante Ziffer jeder Beobachtung dar, während die Werte links vom Balken die höherwertigen Ziffern darstellen. In der gegebenen Verteilung sind die Anfangswerte beispielsweise 27, 29 und 32.

Beachten Sie den Schlüssel oben, wo der Dezimalpunkt eine Ziffer rechts vom Schrägstrich steht. Stamm-Blatt-Diagramme enthalten Dezimalzahlen nicht direkt; Stattdessen gibt der Schlüssel den Stellenwert an. Auf diese Weise können wir zwischen 27, 2,7 oder 0,27 unterscheiden.

Lassen Sie uns nun ein Stamm-Blatt-Diagramm für den folgenden Datensatz erstellen. Hier dient die Zehntelstelle als Blätter und die beiden Ziffern links vom Dezimalpunkt als Stängel. Die ersten paar Einträge lauten also 34,3, 34,9, und dann geht es weiter mit dem nächsten Stamm, 35/1 (der Dezimalpunkt stimmt mit dem Schrägstrich überein).

Die komplette Handlung sieht wie folgt aus: 34,3 34/9 und so weiter.

Es ist wichtig zu beachten, dass jeder Stamm zwischen dem ersten und dem letzten eingeschlossen ist, auch wenn keine entsprechenden Blätter vorhanden sind. Dadurch können wir die Form der Daten unvoreingenommen beobachten. Beispielsweise liegen die Werte 39,0 und 39,1 nicht unmittelbar neben 37,5, so dass dazwischen etwas Platz bleibt.

Bei der Erstellung eines Stamm-Blatt-Diagramms können jedoch zwei potenzielle Schwierigkeiten auftreten. Erstens, wenn die Daten zu viele signifikante Zahlen enthalten, wie im gegebenen Beispiel, würde die Verwendung der letzten Ziffer als Blatt zu über 400 Stämmen führen. Um dies zu vermeiden, wird empfohlen, die Daten zu runden. In diesem Fall ergibt das Runden auf den nächsten Hundert eine angemessene Anzahl von Stämmen.

Das zweite Problem tritt auf, wenn zu viele Datenpunkte pro Stamm vorhanden sind, wie in einem anderen Beispiel gezeigt. Um dieses Problem zu lösen, erscheint es angemessen, die Tausendstelstelle für Blätter und die Zehntel- und Hundertstelstelle für Stängel zu verwenden. Dies würde jedoch nur drei Stämme ergeben (2.1, 2.2 und 2.3). Obwohl technisch korrekt, zeigt dieses Diagramm nicht die gewünschte Verteilungsform.

Um dieses Problem zu lösen, können wir die Stiele teilen. Indem wir jeden Stamm duplizieren und die erste Hälfte den Endziffern (Blättern) von 0 bis 4 und die zweite Hälfte den Ziffern von 5 bis 9 zuweisen, können wir eine bessere Darstellung erhalten. Beispielsweise würde Stamm 2.1 in 2.10 bis 2.14 (erste Hälfte) und 2.15 bis 2.18 (zweite Hälfte) aufgeteilt. Dadurch wird die vorherige Schwierigkeit behoben und eine informativere Ansicht der Daten bereitgestellt.

Dieses zusätzliche Detail kann aufschlussreich sein, wie in diesem Beispiel zu sehen ist, in dem die geteilten Stämme eine symmetrische Verteilung hervorheben, im Gegensatz zur vorherigen Darstellung, die rechtsschief erschien. Stamm- und Blattdiagramme bieten wertvolle Einblicke in die Datenverteilung und bewahren gleichzeitig alle wesentlichen Informationen.

 

Stamm- und Blattdiagramme in R


Stamm- und Blattdiagramme in R

Hallo an alle! Heute erkunden wir die faszinierende Welt der Stängel-Blatt-Plots. Ein Stamm-Blatt-Diagramm, auch Stammdiagramm genannt, ist eine visuelle Darstellung von Daten für eine einzelne Variable. Es eignet sich besonders gut für kleine Datensätze, da es Einblicke in die Form, den Mittelpunkt und die Verteilung der Daten bietet. Um unser Verständnis zu verbessern, werden wir zwei Beispiele durcharbeiten.

Lassen Sie uns zunächst in den integrierten „treuen“ Datensatz eintauchen. Dieser Datensatz besteht aus 272 Beobachtungen der Eruptionslänge und Wartezeit für den berühmten Old Faithful-Geysir in den Vereinigten Staaten. Alle Messungen werden in Sekunden aufgezeichnet. In R heißt der grundlegende Befehl zum Erstellen eines Stammdiagramms praktischerweise „Stamm“. Wir müssen den Namen der Variablen angeben, die wir aus dem „treuen“ Datensatz analysieren möchten. Beginnen wir mit der Wartezeitvariablen.

Beachten Sie den Schlüssel oben im Stammdiagramm. Der Dezimalpunkt wird eine Ziffer rechts vom Schrägstrich positioniert. Indem wir uns das Stammdiagramm ansehen, können wir die ersten paar Werte im Datensatz identifizieren, nämlich 43 und 45. Insbesondere teilt R die Stämme automatisch auf, um einen Wertebereich aufzunehmen. Beispielsweise sind die 40er-Werte in den Bereich 40–44 im ersten Stamm und 45–49 im zweiten Stamm usw. unterteilt.

Wenn wir die automatische Stammaufteilung außer Kraft setzen möchten, können wir das Argument „scale“ verwenden. Mit diesem Argument können wir die Höhe des Stammdiagramms anpassen, indem wir einen Skalierungsfaktor angeben. In diesem Fall können wir die Höhe der Stiele halbieren, indem wir „Skalierung = 0,5“ festlegen, um eine Spaltung der Stiele zu verhindern. Auch wenn es die optische Attraktivität nicht steigert, dient es doch als wertvolle Veranschaulichung für die Verwendung des „Maßstabs“-Arguments.

Kommen wir nun zum zweiten Beispiel. Wir verfügen über einen Datensatz, der 20 Beobachtungen von Reaktionszeiten in Millisekunden auf einen visuellen Reiz durch Teilnehmer einer Forschungsstudie umfasst. Wie zuvor beginnen wir mit einem einfachen Stammdiagramm. In diesem Fall liegt der Dezimalpunkt zwei Stellen rechts vom Schrägstrich. Beispielsweise steht „3/1“ für „310“.

Bitte beachten Sie, dass es in diesem Diagramm zu Rundungen kommt. Der Mindestwert im Datensatz beträgt tatsächlich 309, was zu einem leichten Informationsverlust führt. Wie im vorherigen Beispiel können wir die Standardeinstellungen mit dem Befehl „scale“ ändern. Experimentieren wir damit, indem wir den Skalierungsfaktor anpassen. Beispielsweise bietet die Einstellung „Skalierung = 0,5“ im Vergleich zu unserem ursprünglichen Stammdiagramm möglicherweise noch weniger Einblick in die Form des Datensatzes. Wenn wir jedoch die Länge des Stammdiagramms verdoppeln, können wir die Verteilung der Daten besser verstehen.

In dieser geänderten Darstellung werden Sie feststellen, dass die Stämme von einstelligen zu zweistelligen übergegangen sind. Wenn wir beispielsweise die ersten paar im Datensatz dargestellten Werte lesen, sehen wir 307 und 309. Darüber hinaus ist der nächste aufgelistete Stamm „32“ statt „31“. Dieses Vorkommnis entsteht, weil die Daten, die mit „30“ und „31“ beginnen, zu einem einzigen Stamm zusammengefasst werden. Folglich besteht ein potenzieller Informationsverlust. Allerdings vermehren sich die Blätter der Reihe nach weiter.

Um das Überspringen von Werten in den Stämmen zu vermeiden und alle Daten ohne Auslassungen zu erfassen, müssen wir den Skalierungsfaktor weiter anpassen. In diesem Fall können wir das Stammdiagramm fünfmal länger machen als die Originalversion. Auf diese Weise können wir ein Stammdiagramm erstellen, das alle Daten ohne Stammüberspringen enthält und mit unserer gewünschten Darstellung übereinstimmt.

Obwohl diese endgültige Anzeige den gesamten Datensatz umfasst, ist sie aufgrund ihrer übermäßigen Länge möglicherweise nicht die optimale Wahl. Es wird schwierig, die Form, Muster und zugrunde liegenden Trends im Datensatz zu erkennen. Unter Berücksichtigung der Alternativen sind die besten Optionen für ein klares und informatives Stammdiagramm entweder die Option ohne Überschreiben der Stammaufteilung oder das ursprüngliche Stammdiagramm, mit dem wir begonnen haben.

Durch die Wahl einer dieser Optionen schaffen wir ein Gleichgewicht zwischen der Erfassung des Wesens der Daten und der Beibehaltung einer prägnanten und visuell interpretierbaren Darstellung. Es ist wichtig, sich daran zu erinnern, dass der Zweck eines Stamm-Blatt-Diagramms darin besteht, Intuition und Einblick in die Verteilung von Daten zu vermitteln und es uns zu ermöglichen, zentrale Tendenzen, Variationen und Ausreißer zu identifizieren.

Zusammenfassend lässt sich sagen, dass Stamm-Blatt-Diagramme wertvolle Werkzeuge zur Analyse kleiner Datensätze sind. Sie bieten eine einfache und visuelle Möglichkeit, die Form, den Mittelpunkt und die Verteilung der Daten zu erfassen. Durch Experimentieren mit dem Skalierungsfaktor und der Stammaufteilung können wir die Darstellung an unsere spezifischen Anforderungen anpassen. Es ist jedoch von entscheidender Bedeutung, ein Gleichgewicht zwischen der Erfassung des vollständigen Datensatzes und der Aufrechterhaltung einer klaren Darstellung zu finden, die die Datenanalyse und -interpretation erleichtert.

Nachdem wir nun Stängel-Blatt-Diagramme anhand von zwei Beispielen untersucht haben, haben wir wertvolle Einblicke in deren Verwendung und Anpassung gewonnen. Mit diesem Wissen können wir Stamm- und Blattdiagramme auf andere Datensätze anwenden, um deren verborgene Geschichten zu entschlüsseln und fundierte Entscheidungen auf der Grundlage der Datenanalyse zu treffen.

Grund der Beschwerde: