프로그래밍 자습서 - 페이지 11

 

깔끔한 데이터


깔끔한 데이터

안녕하세요 여러분, 오늘 우리는 데이터 사이언스 애플리케이션에서 특히 편리하고 일반적인 형식인 타이디 데이터에 대해 논의할 것입니다. 스프레드시트에 정보를 기록하는 다양한 방법이 있지만 깔끔한 데이터는 구성과 유용성을 보장하기 위해 세 가지 간단한 원칙을 따릅니다.

첫째, 정돈된 데이터의 각 행은 하나의 관측치를 나타냅니다. 이는 각 행이 단일 실험 단위에 대한 모든 측정 및 세부 정보를 캡처함을 의미합니다.

둘째, 각 열은 하나의 변수만 나타냅니다. 변수는 모든 실험 단위에서 측정된 속성이며 각 열은 특정 특성 또는 측면에 중점을 둡니다.

마지막으로 전체 스프레드시트는 정확히 한 가지 유형의 관찰로 구성되어야 합니다. 이렇게 하면 스프레드시트의 모든 데이터가 동일한 유형의 실험 또는 연구와 관련됩니다.

정돈된 데이터의 중요한 장점 중 하나는 확장이 쉽다는 것입니다. 의료 실험의 새로운 주제와 같은 새로운 관찰 또는 데이터 포인트를 얻은 경우 스프레드시트 하단에 새 행을 추가하기만 하면 됩니다. 마찬가지로 추가 변수를 포함하려는 경우 기존 열 오른쪽에 새 열을 추가할 수 있습니다.

몇 가지 예를 살펴보겠습니다. R에서 사용할 수 있는 "mtcars" 데이터 세트는 깔끔한 데이터 세트입니다. 각 행은 단일 자동차를 나타내고 각 열은 자동차의 특정 특성을 나타냅니다. 이상적으로 깔끔한 데이터 세트에는 각 변수의 의미를 설명하고 측정 단위에 대한 정보를 제공하는 데이터 사전이 수반되어야 합니다. 데이터 사전에는 기록 세부 사항과 같은 데이터 세트에 대한 메타데이터도 포함될 수 있습니다.

반면에 "ggplot2" 패키지의 "diamonds" 데이터 세트는 깔끔한 데이터의 또 다른 예입니다. 각 행은 하나의 라운드 컷 다이아몬드에 해당하고 각 열은 다이아몬드의 특성을 나타냅니다.

그러나 모든 데이터 세트가 깔끔한 것은 아닙니다. 예를 들어, "tidyverse" 패키지의 "construction" 데이터 세트는 단위 수와 지역이라는 두 변수가 여러 열에 분산되어 있기 때문에 깔끔하지 않습니다.

정돈되지 않은 데이터가 반드시 나쁜 것은 아니라는 점에 유의해야 합니다. 실제 스프레드시트에는 종종 특정 목적을 위한 고유한 규칙이 있기 때문입니다. 그러나 데이터 과학 및 많은 수의 관찰 중에서 변수 간의 관계를 탐색할 때 깔끔한 데이터가 시각화 및 모델링에 더 편리한 경우가 많습니다.

정리하자면 정리되지 않은 데이터의 일반적인 형식인 분할표에 대해 언급하고 싶습니다. 분할표에는 범주형 변수의 다양한 조합에 대한 개수가 표시됩니다. 유용할 수 있지만 각 변수 및 해당 개수에 대한 별도의 열이 있는 깔끔한 데이터로 변환하면 데이터를 보다 관리하기 쉽고 분석하기 쉽게 만들 수 있습니다.

요약하면 깔끔한 데이터는 스프레드시트 전체에서 행당 하나의 관찰, 열당 하나의 변수 및 하나의 관찰 유형의 원칙을 따릅니다. 이러한 원칙을 준수함으로써 깔끔한 데이터는 데이터 과학 애플리케이션에서 데이터 탐색, 시각화 및 모델링을 용이하게 하는 구조화되고 조직화된 형식을 제공합니다.

Tidy data
Tidy data
  • 2022.06.08
  • www.youtube.com
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
 

실험 및 관찰 연구


실험 및 관찰 연구

안녕하세요 여러분, 오늘 우리는 통계학 연구의 두 가지 기본 유형인 실험과 관찰 연구에 대해 논의할 것입니다. 그들 사이의 차이점을 이해하는 것이 중요합니다. 각 유형과 주요 특징을 살펴보겠습니다.

실험: 실험에서는 샘플의 다른 부분에 다른 처리를 적용하고 결과 변화를 관찰합니다. 주요 목표는 원인과 결과를 결정하는 것입니다. 치료 그룹 간에 뚜렷한 결과가 있는 경우 이러한 차이를 특정 치료에 기인하는 것을 목표로 합니다. 실험적 연구는 변수에 능동적으로 영향을 미치고 조작하는 것을 포함합니다.

관찰 연구: 반면에 관찰 연구는 어떤 식으로든 반응에 영향을 미치려고 시도하지 않고 관심 모집단의 특성을 측정하는 연구자를 포함합니다. 관찰 연구의 가장 일반적인 유형은 연구자가 정보를 관찰하고 기록하여 데이터를 수집하는 표본 조사입니다. 초점은 관찰된 데이터 내의 관계 및 패턴을 이해하는 데 있습니다.

실험과 관찰 연구를 구별하기 위해 몇 가지 예를 살펴보겠습니다.

의사 그룹이 고혈압 환자에게 새로운 콜레스테롤 저하 약물을 투여하여 그 효과를 연구합니다. 이것은 의사가 치료를 적용하고 결과를 분석하기 때문에 실험입니다.

영장류학자는 자연 서식지에서 10마리의 침팬지를 관찰하고 그들의 사회적 행동에 대해 자세히 기록합니다. 이것은 영장류학자가 행동에 영향을 미치지 않고 단지 행동을 관찰하고 기록하기 때문에 관찰 연구입니다.

업홀스터가 남성 500명과 여성 500명을 접촉하여 다가오는 선거에서 각 개인이 선호하는 후보에 대해 묻습니다. 이것은 관찰 연구의 또 다른 예입니다. 여론 조사원은 참가자나 응답을 조작하지 않고 데이터를 수집합니다.

관찰 연구는 분석 목적으로 남성과 여성이 별도로 접촉하는 이전 예와 같이 비교될 수 있습니다. 그러나 적용된 치료법이 없기 때문에 관찰 연구로 남아 있습니다.

특정 특성은 좋은 실험을 정의합니다. 무작위화, 제어 및 복제 가능해야 합니다.

  • 무작위화는 연구 대상이 다른 치료 그룹에 무작위로 할당되도록 합니다. 연구원도 피험자도 누가 어떤 치료를 받을지 결정하지 않습니다. 이것은 편향과 교란 변수를 최소화하는 데 도움이 됩니다.
  • 통제는 치료 그룹이 받는 특정 치료를 제외하고 가능한 한 동일하다는 것을 의미합니다. 대조군을 설정하면 정확한 비교가 가능하고 원인과 결과 관계를 설정하는 데 도움이 됩니다.
  • 복제는 실험을 반복하여 유사한 결과를 얻을 수 있는 능력을 의미합니다. 재현 가능한 실험은 결과를 검증하고 연구의 신뢰성을 보장하는 데 필수적입니다.

실험에서 종종 두 개 이상의 치료 그룹 간에 비교가 이루어지며 한 그룹이 대조군 역할을 합니다. 통제 그룹은 특정 중재를 받는 그룹과 비교하기 위한 기준선을 제공합니다.

피험자가 측정 가능한 효과가 없더라도 치료에 반응하는 플라시보 효과를 해결하기 위해 실험자는 대조군에 플라시보를 포함합니다. 위약은 설탕 알약이나 교육 연구를 위한 관련 없는 수업과 같이 실제 효과가 없는 것으로 알려진 치료법입니다.

무작위화 및 통제 외에도 가능할 때마다 이중 맹검으로 처리 그룹에 피험자를 할당하는 것이 유리합니다. 이는 피험자도 데이터 수집자도 누가 어떤 치료 그룹에 속해 있는지 알지 못한다는 것을 의미합니다. 이중 눈가림은 편견을 제거하고 편향되지 않은 관찰 및 측정을 보장합니다.

고려해야 할 세 가지 중요한 실험 설계가 있습니다.

  • 완전 무작위 설계: 피험자는 추가 그룹화나 특성을 고려하지 않고 서로 다른 치료 그룹에 무작위로 할당됩니다.
  • 무작위 블록 설계: 피험자는 먼저 연령이나 성별과 같은 특정 특성에 따라 그룹으로 나눈 다음 각 블록 내 치료 그룹에 무작위로 할당됩니다. 이 설계를 통해 연구원은 치료가 다른 그룹에 개별적으로 영향을 미치는 방식을 분석할 수 있습니다.
  • Matched Pair Design: 피험자는 유사성에 따라 짝을 이룬 다음 다른 치료 그룹에 무작위로 할당됩니다. 이 디자인은 치료 효과를 평가하기 위해 쌍 사이의 직접적인 비교를 가능하게 합니다.

이러한 디자인 유형을 이해하면 연구원이 실험을 효과적으로 계획하고 데이터에서 의미 있는 결론을 도출하는 데 도움이 됩니다. 적절한 실험 설계를 구현함으로써 연구원은 연구 결과의 타당성과 신뢰성을 향상시킬 수 있습니다.

요약하면, 실험과 관찰 연구는 통계에서 연구 연구의 두 가지 기본 유형입니다. 실험에는 다양한 치료법을 적용하고 그 효과를 관찰하여 원인과 결과를 결정하는 것이 포함됩니다. 반면 관찰 연구는 반응에 적극적으로 영향을 미치지 않고 특성을 관찰하고 측정하는 데 중점을 둡니다.

좋은 실험은 무작위화, 제어 및 반복 가능성을 통합해야 합니다. 무작위화는 피험자를 치료 그룹에 편견 없이 할당하고, 통제는 교란 변수를 최소화하며, 복제를 통해 결과를 확인할 수 있습니다. 또한 대조군을 포함하고 위약 효과를 고려하는 것은 실험 설계의 중요한 측면입니다.

완전 무작위 설계, 무작위 블록 설계 및 일치 쌍 설계와 같은 다양한 실험 설계는 특정 연구 질문을 해결하고 다양한 연구 시나리오를 수용하는 데 있어 유연성을 제공합니다.

실험과 관찰 연구의 차이점을 이해하고 적절한 실험 설계를 채택함으로써 연구자는 엄격한 연구를 수행하고 의미 있는 결론을 도출하며 해당 분야의 지식 발전에 기여할 수 있습니다.

연구를 계획할 때 연구 질문, 변수의 특성, 사용 가능한 리소스를 신중하게 고려하여 실험이든 관찰 연구이든 가장 적합한 접근 방식을 결정해야 합니다.

Experiments and Observational Studies
Experiments and Observational Studies
  • 2020.07.02
  • www.youtube.com
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
 

통계 샘플링 소개


통계 샘플링 소개

좋은 하루 되세요! 오늘 우리는 통계 샘플링의 매혹적인 세계를 탐구하고 있습니다. 이상적인 시나리오에서 연구 조사를 수행하는 것은 인구 조사와 유사하게 관심 있는 전체 모집단에서 데이터를 수집하는 것입니다. 그러나 실제로 이것은 종종 비실용적이거나 불가능합니다. 다음 연구 질문을 고려하십시오. 뉴욕에서 비둘기의 평균 수명은 얼마입니까? 45세 이상 환자의 LDL 콜레스테롤 감소에 새로운 약물이 효과적입니까? 유권자의 몇 퍼센트가 대통령의 성과를 지지합니까? 각각의 경우에 전체 모집단에서 데이터를 수집하는 것은 불가능합니다. 따라서 보다 관리하기 쉬운 접근 방식인 샘플링으로 전환합니다.

샘플링에는 전체 모집단을 대표하고 결론을 도출하기 위해 모집단에서 하위 집합 또는 표본을 선택하는 작업이 포함됩니다. 그러나 모든 샘플링 방법이 똑같이 신뢰할 수 있는 것은 아닙니다. 샘플링에 대한 몇 가지 잘못된 접근 방식에 대해 논의해 보겠습니다. 첫째, 연구자에게 알려진 개인의 개인적인 증언으로 구성된 일화적 증거는 회의적이어야 합니다. 예를 들어, "이 약은 온 가족에게 효과가 있었습니다." 또는 "오늘 대통령을 승인하는 세 사람과 이야기했습니다."와 같은 진술에만 의존하면 편향된 결과를 초래할 수 있습니다. 마찬가지로, 가까운 공원에서 실시한 정치 여론조사나 교수의 학생들을 대상으로 한 심리학 연구와 같이 쉽게 접근할 수 있는 출처에서 데이터를 수집하는 편리한 샘플링은 참가자의 비무작위 선택으로 인한 편향을 가져올 수 있습니다.

연구 결과의 타당성을 보장하려면 무작위 표본을 사용하는 것이 중요합니다. 무작위 표본에서 무작위 프로세스는 모집단에서 어떤 개인이 포함되는지 결정하며 각 구성원은 선택될 기회가 동일합니다. 무작위 표본의 목표는 표본에서 파생된 통계가 체계적으로 모집단 매개변수를 과대평가하거나 과소평가할 때 발생하는 표본 편향을 피하는 것입니다. 무작위 선택 프로세스로 인해 개별 샘플이 모집단과 다를 수 있으므로 무작위 샘플에서 파생된 통계는 여전히 가변성을 나타냅니다. 그러나 평균적으로 통계는 모집단 모수와 같습니다.

임의 샘플링의 몇 가지 유형을 살펴보겠습니다. 가장 간단하고 직관적인 접근 방식은 SRS(Simple Random Sample)로, 동일한 크기의 모든 샘플이 선택될 확률이 동일합니다. 이것은 일반적으로 모집단 구성원 목록을 얻고 번호를 할당하고 난수 생성기를 사용하여 원하는 수의 개인을 선택함으로써 달성됩니다. 계층화된 표본에서 모집단은 연령, 성별 또는 인종과 같은 중요한 특성에 따라 그룹 또는 계층으로 나뉩니다. 그런 다음 각 그룹에서 단순 무작위 표본을 추출하여 모집단 내의 여러 하위 그룹을 별도로 분석할 수 있습니다. 군집 표본에서 모집단은 자연적으로 발생하거나 유사한 그룹 또는 군집으로 나뉩니다. 클러스터의 임의 샘플이 선택되고 선택한 클러스터의 모든 구성원이 샘플에 포함됩니다. 다단계 샘플링은 클러스터를 선택한 다음 각 클러스터 내에서 임의 샘플을 취하고 필요한 경우 프로세스를 반복하여 이러한 기술을 결합합니다.

이제 이러한 개념을 몇 가지 예에 적용하고 사용된 샘플링 방법을 식별해 보겠습니다. 첫 번째 예에서 여론 조사원은 400명의 남성과 400명의 여성에게 무작위로 연락하여 다가오는 선거에서 선호하는 후보에 대해 질문합니다. 이것은 각 그룹 내에서 단순 무작위 샘플을 취하면서 남성과 여성 모두에 대한 정보를 수집하기 때문에 층화 샘플링의 한 예입니다. 두 번째 예에서 연구원은 50개의 고등학교를 무작위로 선택하고 해당 학교 내의 모든 학생에게 수학 능력 시험을 실시합니다. 이는 학교 수준에서 무작위 추출이 발생하고 선택된 학교 내에서 인구 조사가 수행되는 클러스터 샘플을 나타냅니다.

세 번째 예에서 자동차 대리점은 고객 목록을 사용하여 이전 자동차 구매자 200명을 무작위로 선택하고 만족도 조사를 위해 각각 연락합니다. 이는 200명의 고객으로 구성된 각 그룹이 선택될 확률이 동일하기 때문에 단순 임의 표본의 전형적인 예입니다. 마지막으로 의료 그룹은 35개의 미국 병원을 무작위로 선택한 다음 각 병원에서 50명의 환자를 무작위 표본으로 추출하여 치료 비용을 조사합니다. 이 시나리오는 다단계 샘플을 보여줍니다. 처음에는 클러스터(병원)를 무작위로 선택한 다음 선택한 각 병원 내에서 단순 무작위 표본을 추출합니다.

결론을 내리기 전에 체계적 표본으로 알려진 또 다른 표본 추출 방법을 언급할 가치가 있습니다. 랜덤 샘플링의 한 형태는 아니지만 특정 상황에서 대용으로 사용할 수 있습니다. 체계적인 표본에서 모집단의 구성원은 미리 결정된 패턴을 사용하여 선택됩니다. 예를 들어 식료품점은 고객 만족도를 측정하기 위해 매장을 나가는 20번째 사람마다 설문조사를 할 수 있습니다. 체계적 표본은 모집단이 동질적일 때 무작위 표본만큼 효과적일 수 있습니다. 즉, 모집단 내에 관련 패턴이 없습니다. 그러나 샘플링 패턴이 모집단의 기존 패턴과 일치하지 않도록 주의해야 합니다. 이로 인해 편향이 발생할 수 있습니다.

요약하면, 통계 샘플링은 전체 모집단에서 데이터를 수집하는 것이 비실용적이거나 불가능한 경우에 필수적인 도구입니다. 단순 무작위 표본, 층화 표본, 군집 표본 및 다단계 표본과 같은 무작위 표본 추출 방법은 표본 편향을 완화하고 대표적이고 편향되지 않은 결과를 얻을 가능성을 높이는 데 도움이 됩니다. 무작위 표본은 변동성을 가져오지만 무작위 표본에서 파생된 통계는 평균적으로 모집단 매개변수와 일치합니다. 신뢰할 수 있고 정확한 연구를 수행하려면 다양한 샘플링 방법의 강점과 한계를 이해하는 것이 중요합니다.

Introduction to Statistical Sampling
Introduction to Statistical Sampling
  • 2020.07.06
  • www.youtube.com
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
 

통계의 편향과 변동성


통계의 편향과 변동성

여러분, 안녕하세요! 오늘은 통계의 편향과 변동성에 대해 알아보겠습니다. 통계적 추론의 가장 중요한 목표는 샘플 데이터를 기반으로 모집단에 대한 결론을 도출하는 것입니다. 이를 달성하기 위해 우리는 종종 표본의 수치적 설명인 통계를 사용하여 모집단의 수치적 설명인 해당 매개변수를 추정합니다.

이를 설명하기 위해 예를 들어 보겠습니다. 1,200명의 유권자를 대상으로 한 설문조사에서 A 후보가 B 후보를 8% 포인트 앞서고 있다고 가정합니다. 우리는 이 8포인트 차이를 A 후보가 이길 것으로 예상되는 추정치인 통계로 볼 수 있습니다. 반면 후보 간 진정한 지지도 차이인 선거의 실제 결과는 변수를 대변한다.

경우에 따라 통계와 매개변수가 완벽하게 일치합니다. 그러나 대개는 어느 정도 다를 것입니다. 예를 들어 실제 선거 결과는 A 후보가 7.8% 포인트 차로 승리하는 것으로 나타날 수 있습니다. 이러한 편차는 임의의 기회로 인해 발생할 수 있지만 통계의 품질을 평가할 때 문제를 일으킬 수 있습니다.

이것은 우리를 편향의 개념으로 이끈다. P-hat으로 표시되는 통계는 평균적으로 P로 표시되는 해당 매개변수와 같으면 편향되지 않은 것으로 간주됩니다. 즉, 좋은 통계는 체계적으로 매개변수를 과대평가하거나 과소평가해서는 안 됩니다. 여기서 "편견"이라는 용어는 편견이나 차별과 관련 없이 기술적인 의미로 사용하고 있다는 점에 유의해야 합니다.

편견의 몇 가지 일반적인 원인은 설문조사에 영향을 미칠 수 있습니다. 표본 편향은 모집단의 모든 구성원이 무작위 표본에서 선택될 기회가 동일하지 않을 때 발생합니다. 예를 들어, 전화 설문 조사에서 휴대 전화를 제외하는 경우 전체 모집단의 견해와 잠재적으로 다른 노인 개인에 대한 결과가 왜곡될 수 있습니다. 무응답 편향은 설문조사 참여를 거부하는 사람과 참여하는 사람이 다를 때 발생하여 수집된 데이터에 잠재적인 편향이 생길 수 있습니다.

비대칭 질문이나 편향된 문구는 응답자가 특정 방식으로 답변하도록 영향을 미쳐 결과에 편향을 가져올 수 있습니다. 사회적 바람직성 편향은 응답자가 사회적으로 수용 가능하거나 긍정적으로 보이는 답변을 제공하려는 경향이 있을 때 발생합니다. 예를 들어 개인에게 치과 위생 관행에 대해 질문하면 사회적 바람직성 편향으로 인해 양치질 횟수를 과대 평가할 수 있습니다.

실험 연구에서 편향은 제어 부족이나 맹검과 같은 요인에서 비롯될 수 있습니다. 실험 그룹이 적용되는 처리 외에 다른 경우 결과에 편향이 생길 수 있습니다. 무작위화는 균일성을 보장하고 편견을 줄이는 데 중요합니다.

편향되지 않은 통계는 매개변수를 정확하게 추정하는 것을 목표로 하지만 가변성은 통계가 여러 임의 샘플에서 달라지는 경향을 설명합니다. 편향되지 않은 샘플링 방법을 사용하더라도 각 무작위 샘플은 우연만으로 인해 다른 통계를 생성할 수 있습니다. 가변성은 편견의 한 형태가 아니라는 점에 유의하는 것이 중요합니다. 여론 조사가 선거 결과를 정확하게 예측하지 못했다고 해서 반드시 결함이 있다는 의미는 아닙니다.

편향과 가변성의 차이를 시각화하는 데 도움이 되도록 과녁에 다트를 던지는 것을 상상해 보십시오. 변동성이 낮고 편향이 낮다는 것은 다트가 과녁 주위에 촘촘하게 밀집된 목표물을 일관되게 맞추는 것을 의미합니다. 변동성은 높지만 바이어스가 낮으면 여전히 과녁 중심에 분산된 다트가 생성됩니다. 반대로, 높은 변동성과 높은 편향은 다트가 광범위하게 분산되어 지속적으로 과녁을 놓칠 수 있습니다. 그러나 최악의 시나리오에서도 한 연구가 과녁을 한 번 명중시킬 수 있으며 이는 높은 편향과 가변성에도 불구하고 때때로 올바른 결과가 발생할 수 있음을 나타냅니다.

편견과 변동성을 이해하는 것은 통계의 품질을 평가하고 연구 결과를 정확하게 해석하는 데 필수적입니다.

Bias and Variability in Statistics
Bias and Variability in Statistics
  • 2020.07.02
  • www.youtube.com
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
 

빈도 분포 구성


빈도 분포 구성

여러분, 안녕하세요! 오늘은 정량적 데이터를 요약하고 분석하기 위한 도수 분포를 구성하는 방법에 대해 알아보겠습니다. 일련의 수치 관찰이 있는 경우 데이터의 모양, 중심 및 산포를 이해하는 것이 중요합니다. 이를 달성하기 위해 단순히 데이터를 응시하는 것만으로는 충분하지 않습니다. 의미 있는 방식으로 요약해야 하며, 여기서 빈도 분포가 작용합니다.

도수 분포는 데이터를 여러 클래스 또는 간격으로 나눈 다음 각 클래스에 속하는 관측치 수를 결정하는 것과 관련됩니다. 11에서 25까지의 값 범위가 있는 예를 고려해 보겠습니다. 도수 분포를 만들기 위해 이 범위를 5개의 클래스로 나누고 각 클래스의 관측치 수를 계산할 수 있습니다.

간격 표기에 사용되는 표기법에서 왼쪽의 단단한 괄호[는 왼쪽 끝점이 각 간격에 포함됨을 나타내고, 오른쪽의 부드러운 괄호 ]는 오른쪽 끝점이 포함되지 않음을 나타냅니다. 14, 17, 20, 23과 같은 경계 값은 항상 다음 상위 등급으로 들어간다는 의미입니다. 또한 클래스 너비는 모두 동일하며 이 경우에는 각각 3단위입니다.

빈도 분포를 조사함으로써 이미 데이터에 대한 통찰력을 얻을 수 있습니다. 데이터의 중심은 18 부근으로 나타나며 빈도가 높은 17~20 등급에 속합니다. 나머지 데이터는 이 중앙 스파이크 주변의 상대적인 대칭을 보여줍니다.

이제 주파수 분포를 구성하는 단계별 프로세스를 살펴보겠습니다. 먼저 사용할 클래스 수를 결정해야 합니다. 엄격한 규칙은 없지만 좋은 출발점은 일반적으로 5개에서 20개 클래스 사이입니다. 너무 적은 수의 클래스를 사용하면 분포에서 충분한 세부 정보를 캡처하지 못하여 데이터를 이해하는 능력이 저하됩니다. 반면에 너무 많은 클래스를 사용하면 클래스당 카운트가 낮아져 데이터의 형태를 식별하기 어렵습니다.

클래스 수를 결정하면 클래스 너비 계산을 진행합니다. 이를 위해 최대값에서 최소값을 빼서 데이터 범위를 계산합니다. 그런 다음 범위를 클래스 수로 나눕니다. 모든 관찰이 클래스 중 하나에 속하도록 클래스 너비를 반올림하는 것이 중요합니다. 내림으로 인해 일부 데이터 포인트가 분포에서 제외될 수 있습니다.

다음으로 각 클래스의 하한선을 찾습니다. 우리는 최소값을 첫 번째 클래스의 하한선으로 시작합니다. 그런 다음 클래스 너비를 추가하여 두 번째 클래스의 아래쪽 경계를 얻는 식입니다. 각 클래스의 상위 경계는 다음 클래스의 하위 경계 바로 아래에 있습니다.

마지막으로 데이터 세트를 검사하여 각 클래스에 속하는 관측치 수를 계산합니다. 예를 들어, 주어진 데이터 세트에 대해 8개의 클래스를 사용하여 빈도 분포를 구성하는 시나리오를 생각해 봅시다. 데이터의 범위는 115.5 - 52.0 = 63.5로 계산합니다. 이 범위를 8로 나누면 클래스 너비가 7.9가 되고 반올림하여 8.0이 됩니다. 최소값 52에서 시작하여 8.0을 추가하여 각 클래스의 하한값(52, 60, 68 등)을 얻습니다.

데이터 세트를 살펴보고 각 클래스에 해당하는 관측값을 세어 주파수를 얻습니다. 클래스가 겹치지 않아야 하고 너비가 동일하게 유지되어야 한다는 점에 유의하는 것이 중요합니다. 이렇게 하면 각 관찰이 단일 클래스에 할당됩니다.

빈도 분포에 대한 이해를 높이기 위해 클래스 중간점, 상대 빈도 및 누적 빈도에 대한 열을 추가하여 테이블을 확장할 수 있습니다. 클래스 중간점은 각 간격 내의 평균 값을 나타냅니다. 각 클래스의 하한 및 상한 경계의 평균을 취하여 계산합니다. 예를 들어, 52에서 60까지의 클래스에 대한 중간점은 (52 + 60) / 2 = 56이고 60에서 68까지의 클래스에 대한 중간점은 (60 + 68) / 2 = 64입니다.

상대 빈도는 데이터 세트의 전체 크기와 관련된 각 클래스 내 관찰 비율에 대한 통찰력을 제공합니다. 상대 빈도를 계산하기 위해 각 클래스의 빈도를 데이터 세트의 총 크기로 나눕니다. 예를 들어 빈도 11을 데이터 세트 크기 50으로 나누면 상대 빈도 0.22가 됩니다. 마찬가지로 8을 50으로 나누면 상대 빈도는 0.16이 됩니다.

누적 빈도는 각 구간의 빈도와 그 이전의 모든 구간의 빈도를 합산하여 얻습니다. 52에서 60까지의 첫 번째 간격에 대한 누적 빈도는 빈도(11)와 동일하게 유지됩니다. 다음 간격에 대한 누적 빈도를 찾기 위해 이전 간격의 누적 빈도에 해당 빈도(8)를 더합니다. 예를 들어, 60에서 68까지의 두 번째 간격에 대한 누적 빈도는 11 + 8 = 19입니다. 각 간격에 대해 이 프로세스를 계속하여 빈도와 이전 누적 빈도를 합산하여 후속 간격에 대한 누적 빈도를 얻습니다.

모든 빈도의 합이 데이터 세트의 총 크기(이 경우 50)와 같아야 한다는 점에 유의해야 합니다. 상대 빈도의 합은 항상 1이어야 하며 이는 전체 데이터 세트를 나타냅니다. 마지막으로 누적 빈도 열의 마지막 값은 데이터 세트의 크기와 일치해야 합니다.

클래스 중간점, 상대 빈도 및 누적 빈도에 대한 열로 빈도 분포 테이블을 확장하면 데이터 분포를 보다 포괄적으로 이해하는 데 도움이 됩니다. 이를 통해 보다 체계적이고 통찰력 있는 방식으로 데이터의 중심 경향, 비율 및 누적 비율을 관찰할 수 있습니다.

요약하면, 빈도 분포를 구성하는 작업에는 데이터를 클래스로 나누고, 클래스 너비를 결정하고, 하한을 계산하고, 각 클래스의 관측값을 세고, 결과 빈도를 분석하는 작업이 포함됩니다. 클래스 중간점, 상대 빈도 및 누적 빈도와 같은 추가 정보로 테이블을 확장하면 데이터 세트의 특성에 대한 이해를 더욱 높일 수 있습니다.

Constructing Frequency Distributions
Constructing Frequency Distributions
  • 2020.07.04
  • www.youtube.com
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
 

히스토그램, 빈도 다각형 및 Ogives


히스토그램, 빈도 다각형 및 Ogives

안녕하세요 여러분, 오늘 우리는 그래프 데이터의 세계로 뛰어들고 있습니다. 단일 변수 분포의 시각적 표현인 히스토그램, 빈도 다각형 및 ogives를 탐색할 것입니다. 이러한 다양한 유형의 디스플레이를 탐색하면서 이전 비디오에서 생성한 확장된 주파수 분포를 예로 사용합니다. 기억을 되살리기 위해 약 52에서 116까지의 50개 값으로 구성된 데이터 세트로 시작했습니다. 데이터 세트를 동일한 너비의 8개 클래스로 나누고 각 클래스의 값 수를 결정하여 도수 분포를 구성했습니다.

단일 변수 데이터 세트의 가장 중요하고 일반적으로 사용되는 시각적 표현인 주파수 히스토그램부터 시작하겠습니다. 히스토그램에서 데이터 값을 가로축에, 빈도를 세로축에 표시합니다. 특히 56, 64, 72 등과 같은 클래스 중간점을 가로축에 레이블을 지정합니다. 각 중간점 위에 높이가 해당 클래스의 빈도에 해당하는 막대를 그립니다. 예를 들어, 처음 몇 클래스의 빈도가 11, 8, 9 등인 경우 막대는 각각의 높이를 갖게 됩니다.

히스토그램은 영역을 사용하여 빈도를 나타냅니다. 더 많은 영역은 더 많은 양의 데이터를 나타냅니다. 플롯을 볼 때 더 많은 데이터가 있는 영역으로 자연스럽게 시선이 쏠리므로 데이터 세트의 모양, 중심 및 분포를 직관적으로 이해할 수 있습니다. 예를 들어, 이 히스토그램에서 데이터가 112개보다 56개 정도에 군집할 가능성이 더 높다는 것을 알 수 있습니다. 또한 히스토그램을 그릴 때 막대 차트와 달리 인접한 클래스 사이에 간격을 두지 않는다는 점을 언급할 가치가 있습니다. 여기에서 일반적으로 범주형 변수를 나타내는 막대 사이에 간격이 있습니다.

때로는 히스토그램이 중간점 대신 클래스의 끝점으로 레이블이 지정된 가로 축으로 그려지는데 이는 완벽하게 허용됩니다. 그래프는 어떤 라벨링 방식을 사용하든 관계없이 동일한 정보를 전달합니다. 또 다른 옵션은 히스토그램에 빈도 대신 상대 빈도를 표시하는 것입니다. 그러면 유사한 모양이 생성됩니다. 유일한 차이점은 상대 빈도 값을 수용하기 위해 수평 축의 스케일링이 변경된다는 것입니다.

히스토그램과 유사한 또 다른 시각적 표시 방법은 빈도 다각형입니다. 여기서는 가로축에 데이터 값을 표시하고 세로축에 빈도를 나타냅니다. 그러나 막대를 그리는 대신 각 클래스에 대한 점을 그립니다. 이러한 점은 가로축의 중간점과 세로축의 해당 주파수에 해당합니다. 그런 다음 이 점들을 선으로 연결합니다. 다각형이 완성된 것처럼 보이도록 첫 번째 중간점 아래에 추가 점을 추가하고 마지막 중간점 위에 또 다른 점을 추가합니다. 각 점은 클래스 너비만큼 확장됩니다.

마지막으로 누적 빈도를 표시하는 ogive를 사용하여 데이터를 나타낼 수 있습니다. ogive를 구성할 때 가로축에 상위 클래스 경계를 표시하고 세로축에 누적 주파수를 표시합니다. 첫 번째 하위 클래스 경계에 해당하는 가로축의 한 점에서 시작합니다. ogive의 목적은 주어진 x 값에 대해 분포에서 해당 값 아래로 떨어지는 데이터 포인트 수를 표시하는 것입니다.

이것이 히스토그램, 주파수 다각형 및 ogives를 사용하여 데이터를 그래프로 나타내는 개념을 명확히 하였기를 바랍니다. 이러한 시각적 디스플레이는 단일 변수 데이터 세트의 분포에 대한 귀중한 통찰력을 제공합니다.

Histograms, Frequency Polygons, and Ogives
Histograms, Frequency Polygons, and Ogives
  • 2020.07.05
  • www.youtube.com
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
 

첫 번째 RStudio 세션


첫 번째 RStudio 세션

안녕하세요 여러분, 오늘 세션에서 처음으로 스튜디오를 열게 되어 기쁩니다. 우리의 주요 초점은 기본 기능을 탐색하고 이 환경에서 편안하게 작업하는 것입니다. 스튜디오를 처음 열면 세 개의 다른 창이 표시되지만 이 비디오에서는 주로 맨 왼쪽 창의 콘솔 탭에 집중합니다. 그러나 진행하면서 다른 창에 대해 간략하게 언급하고 향후 비디오에서 더 자세한 논의를 저장합니다.

시작하려면 R에서 공학용 계산기 역할을 하는 콘솔 탭을 살펴보겠습니다. 더하기, 빼기, 곱하기 및 나누기와 같은 기본적인 산술 연산을 수행할 수 있습니다. 예를 들어 8 더하기 12를 계산하면 답은 20입니다. 답은 이 비디오의 뒷부분에서 설명할 대괄호 없이 표시된다는 점에 유의하는 것이 중요합니다. 또한 R은 명령줄에 공백을 입력할 때 공백을 무시하므로 가독성을 위해 공백을 추가할 수 있습니다.

R은 제곱근 함수와 같은 다양한 내장 함수를 제공합니다. 예를 들어 9의 제곱근은 3입니다. 마찬가지로 삼각법 연산, 절대값 계산 등을 수행할 수 있습니다. 함수 이름은 일반적으로 직관적이지만 확실하지 않은 경우 빠른 Google 검색을 통해 올바른 구문을 찾을 수 있습니다.

RStudio의 유용한 기능 중 하나는 위쪽 화살표 키를 사용하여 이전 명령을 불러오는 기능입니다. 이를 통해 이전 명령을 검색하고 필요한 경우 편집할 수 있습니다. 예를 들어 9 대신 10의 제곱근을 계산하려면 위쪽 화살표 키를 누르고 9를 삭제한 다음 10을 입력하면 대략 3.162278이 됩니다.

기본적으로 R은 소수점 오른쪽에 6자리 정확도를 표시합니다. 그러나 필요에 따라 기본 설정 메뉴에서 이 설정을 조정할 수 있습니다.

이제 변수 정의로 이동하겠습니다. R에서는 왼쪽 화살표( <- ) 또는 등호( = )인 할당 연산자를 사용하여 변수에 값을 할당할 수 있습니다. 과제는 왼쪽 화살표를 사용하는 것이 좋습니다. 예를 들어 "x"라는 변수를 정의하고 이를 3으로 설정합니다. 할당 후 오른쪽 상단 창의 환경 탭에 할당을 상기시키기 위해 "x = 3"이 표시됩니다. 콘솔에 단순히 변수 이름 "x"를 입력하고 Enter 키를 누르면 R은 해당 값을 인쇄합니다. 이 경우에는 3입니다.

숫자 값과 마찬가지로 변수를 사용하여 산술 연산을 수행할 수 있습니다. 예를 들어 3 더하기 x를 계산하면 결과는 6입니다. R은 연산 순서를 따르므로 1 더하기 2 x x와 같은 식은 9가 아닌 7로 평가됩니다.

R은 변수를 벡터로 할당할 때 더욱 강력해집니다. 벡터를 생성하려면 연결 함수(c)와 괄호 및 포함하려는 값을 사용합니다. 예를 들어 벡터 "y"를 값 1, 5, 6, 9에 할당해 보겠습니다. 벡터를 정의한 후 "y"를 입력하고 Enter 키를 누르면 값이 1, 5, 6, 9로 표시됩니다. 이제 우리는 각 요소에 2를 더하거나(y + 2) 제곱근(sqrt(y))과 같은 수학 함수를 적용하는 것과 같이 벡터에서 산술 연산을 수행할 수 있습니다.

산술 연산 외에도 벡터를 요약할 수도 있습니다. 예를 들어 벡터의 중앙값(median(y)) 또는 합계(sum(y))를 계산할 수 있습니다. R은 벡터를 조작하는 수많은 기능을 제공하며 특정 기능에 대해 확신이 서지 않는 경우 빠른 Google 검색을 통해 필요한 정보를 얻을 수 있습니다. 계속 진행하기 전에 언급하고 싶은 RStudio의 추가 기능이 두 가지 있습니다. 첫 번째는

콘솔 상단에 있는 History 탭. 그것을 클릭하면 가장 최근 명령 목록에 액세스할 수 있습니다. 기록을 스크롤하여 이전 명령을 검토하고 재사용할 수 있으므로 시간을 절약할 수 있습니다. RStudio를 종료하고 나중에 다시 돌아와도 명령 기록은 계속 사용할 수 있습니다.

기록에서 명령을 재사용하려면 해당 명령을 두 번 클릭하면 콘솔에 나타납니다. 그런 다음 필요한 편집을 수행하고 명령을 다시 평가할 수 있습니다. 이 기능을 사용하면 이전 명령을 쉽게 다시 방문하고 수정할 수 있습니다.

강조하고 싶은 두 번째 기능은 하나 이상의 문자로 구성된 변수 이름을 지정하는 기능입니다. 예를 들어 "숫자"라는 변수를 만들고 값 1, 2, 3, 4, 5, 6을 할당한다고 가정해 보겠습니다. "숫자 <- c(1, 2, 3 , 4, 5, 6)" 콘솔에서. 할당이 완료되면 "숫자"(sqrt(숫자))의 제곱근을 계산하는 것과 같이 변수에 대해 다양한 작업을 수행할 수 있습니다.

이제 데이터 세트를 로드하고 로드된 데이터로 수행할 수 있는 몇 가지 작업을 살펴보겠습니다. RStudio의 오른쪽 아래 창에서 파일 브라우저를 찾을 수 있습니다. 데이터 세트의 위치로 이동하여 선택합니다. 예를 들어 "body" 데이터 세트를 선택해 보겠습니다. "데이터 세트 가져오기" 버튼을 클릭하여 데이터 세트를 RStudio로 가져옵니다.

가져오기 프로세스 중에 데이터 세트의 스프레드시트 형식 미리보기가 표시됩니다. 오른쪽 위 창의 환경 탭에 "body_data"라는 새 개체가 표시됩니다. 이 개체는 300개의 관측값과 15개의 변수가 있는 데이터 프레임을 나타냅니다. 기본적으로 300개의 행과 15개의 열이 있는 테이블입니다. 열을 정렬하고 가로로 스크롤하여 더 많은 열을 보고 Excel 파일과 유사하게 취급하여 데이터 세트와 상호 작용할 수 있습니다.

데이터 프레임에서 특정 변수로 작업하려면 달러 기호($) 표기법을 사용하여 변수를 지정해야 합니다. 예를 들어 "age" 변수에 관심이 있는 경우 콘솔에 "body_data$age"를 입력할 수 있습니다. 입력을 시작하면 RStudio가 사용 가능한 변수 목록을 제공합니다. Enter 키를 누르면 데이터 세트의 모든 연령 목록이 나타나는 순서대로 표시됩니다.

"body_data$age"와 같은 특정 변수를 분리하면 다른 변수와 마찬가지로 작업을 수행할 수 있습니다. 예를 들어 콘솔에 "mean(body_data$age)"를 입력하여 데이터 세트에 있는 모든 개인의 평균 연령을 계산할 수 있습니다. 이 경우 평균 연령은 47.0으로 결정됩니다.

평균 외에도 적절한 함수를 사용하여 표준 편차, 중앙값, 합계, 최소값, 최대값 등과 같은 다른 통계를 탐색할 수 있습니다. 통계 분석을 위한 R의 힘을 탐구하면서 향후 비디오에서 이러한 데이터 조작 기술에 대해 더 깊이 탐구할 것입니다.

이것으로 스튜디오 열기, 기본 기능, 변수 및 데이터 세트 작업에 대한 개요를 마칩니다. RStudio의 고급 기능과 기술을 살펴보는 향후 동영상을 기대해 주세요.

Your First RStudio Session
Your First RStudio Session
  • 2020.08.16
  • www.youtube.com
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
 

R의 히스토그램 및 빈도 다각형


R의 히스토그램 및 빈도 다각형

안녕하세요 여러분, 오늘 비디오에서는 qplot 명령을 사용하여 R에서 시각적으로 매력적인 히스토그램과 빈도 다각형을 만들 것입니다. R에서 그래픽을 만드는 다양한 방법이 있지만 개인적으로 ggplot2 패키지가 가장 보기 좋은 디스플레이를 생성한다고 생각합니다. 시작하려면 ggplot2에서 qplot 명령을 사용합니다.

시연을 위해 R에 내장된 "충실한" 데이터 세트로 작업할 것입니다. 이 데이터 세트는 미국 옐로스톤 국립공원의 올드 페이스풀 간헐천에서 분출 시간과 분출 사이의 대기 시간에 대한 272개의 관찰로 구성됩니다. .

"waiting" 변수에 대한 히스토그램과 빈도 다각형을 그리려면 먼저 ggplot2 패키지를 설치해야 합니다. 아직 설치하지 않은 경우 "install.packages('ggplot2')"를 입력하여 설치할 수 있습니다. 일단 설치되면 "library(ggplot2)"를 입력하여 새 세션을 시작할 때마다 패키지를 로드해야 합니다.

이제 플로팅에 집중합시다. 히스토그램을 만들려면 "qplot(x = 대기, 데이터 = 충실, geom = '히스토그램')"과 같이 "x" 인수를 사용하여 x축에 변수를 지정합니다. 이렇게 하면 기본 R의 hist 명령으로 생성된 것보다 보기 좋은 히스토그램이 생성됩니다.

그러나 우리가 할 수 있는 몇 가지 개선 사항이 있습니다. 그래프에 레이블과 기본 제목을 추가하여 시작하겠습니다. x축 레이블에 "xlab", y축 레이블에 "ylab", 기본 제목에 "main" 인수를 사용할 수 있습니다. 예: "qplot(x = 대기, 데이터 = 충실, geom = '히스토그램', xlab = '대기 시간', ylab = '빈도', 기본 = 'Old Faithful')".

다음으로 막대의 모양을 살펴보겠습니다. 기본적으로 막대가 함께 실행되는 것처럼 보일 수 있습니다. 구분하기 위해 "color = 'darkblue'"와 같이 "color" 인수를 사용하여 테두리 색상을 추가할 수 있습니다. 또한 "fill = 'lightblue'"와 같이 "fill" 인수를 사용하여 막대의 채우기 색상을 변경할 수 있습니다.

이제 히스토그램 대신 빈도 다각형을 생성하려면 "geom" 인수를 "geom = 'freqpoly'"로 변경할 수 있습니다. 이것은 x축에서 동일한 변수를 사용하여 빈도 다각형을 플로팅합니다. 이 경우에는 적용할 수 없으므로 "채우기" 인수를 제거해야 합니다.

"bins" 인수를 사용하여 히스토그램의 빈 수를 조정할 수도 있습니다. 기본적으로 R은 30개의 bin을 사용하지만 "bins = 20"과 같이 다른 값으로 변경하여 더 많거나 적은 bin을 가질 수 있습니다.

마지막으로 데이터를 지정하는 다른 방법을 언급하고 싶습니다. "$" 표기법을 사용하는 대신 "qplot(x = 대기, 데이터 = 충실, geom = '히스토그램')"과 같이 "데이터" 인수를 사용하여 데이터 세트를 직접 지정할 수 있습니다. 이는 여러 변수로 작업할 때 유용할 수 있습니다.

이것으로 qplot 명령을 사용하여 R에서 히스토그램 및 빈도 다각형을 생성하는 방법에 대한 자습서를 마무리합니다. 다양한 설정을 자유롭게 탐색하고 실험하여 시각적으로 매력적이고 유익한 그래픽을 만드십시오.

Histograms and Frequency Polygons in R
Histograms and Frequency Polygons in R
  • 2020.07.09
  • www.youtube.com
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
 

줄기-잎 그림


줄기-잎 그림

안녕하세요 여러분, 오늘 토론에서 우리는 줄기-잎 그림의 개념을 탐구할 것입니다. 줄기-잎 그림은 단일 변수의 분포를 시각화하는 간단하고 유익한 방법을 제공합니다. 시각화 중에 손실 없이 모든 정보를 유지하므로 소규모 데이터 세트에 특히 효과적입니다. 더 잘 이해하기 위해 몇 가지 예를 살펴보겠습니다.

일반적인 스템 플롯은 세로 막대로 구성되며 막대 오른쪽의 각 숫자는 데이터 포인트를 나타냅니다. 이 숫자는 각 관측치의 마지막 유효 숫자를 나타내고 막대 왼쪽의 값은 더 높은 자릿수를 나타냅니다. 예를 들어 주어진 분포에서 초기 값은 27, 29 및 32입니다.

맨 위에 있는 키에 주목하십시오. 여기서 소수점은 슬래시 오른쪽에 있는 한 자리입니다. 줄기-잎 그림은 소수점을 직접 포함하지 않습니다. 대신 키는 자릿값을 나타냅니다. 이렇게 하면 27, 2.7 또는 0.27을 구별할 수 있습니다.

이제 다음 데이터 세트에 대한 줄기-잎 그림을 구성해 보겠습니다. 여기서 십분의 일 자리가 잎이 되고, 소수점 왼쪽 두 자리가 줄기가 됩니다. 따라서 처음 몇 개의 항목은 34.3, 34.9이고 다음 어간인 35/1(소수점은 슬래시와 정렬됨)으로 진행합니다.

전체 플롯은 다음과 같습니다. 34.3 34/9 등등.

해당 잎이 없더라도 첫 번째와 마지막 사이의 모든 줄기가 포함된다는 점에 유의하는 것이 중요합니다. 이를 통해 편향되지 않은 방식으로 데이터의 형태를 관찰할 수 있습니다. 예를 들어 값 39.0과 39.1은 37.5 바로 옆에 있지 않으므로 그 사이에 약간의 공간이 있습니다.

그러나 줄기-잎 그림을 구성할 때 두 가지 잠재적인 어려움이 발생할 수 있습니다. 첫째, 주어진 예에서와 같이 데이터에 유효 숫자가 너무 많이 포함된 경우 마지막 숫자를 잎으로 사용하면 400개 이상의 줄기가 생성됩니다. 이를 방지하려면 데이터를 반올림하는 것이 좋습니다. 이 경우 가장 가까운 백 단위로 반올림하면 적절한 수의 줄기가 제공됩니다.

두 번째 문제는 다른 예에서 볼 수 있듯이 줄기당 데이터 포인트가 너무 많을 때 발생합니다. 이를 해결하기 위해 잎에는 천분의 일 자리를 사용하고 줄기에는 십분의 일과 백분의 일 자리를 사용하는 것이 적절해 보입니다. 그러나 이렇게 하면 3개의 스템(2.1, 2.2 및 2.3)만 생성됩니다. 기술적으로는 정확하지만 이 플롯은 원하는 분포 모양을 나타내지 못합니다.

이 문제를 극복하기 위해 줄기를 나눌 수 있습니다. 각 줄기를 복제하고 전반부를 0에서 4까지의 마지막 숫자(잎)에 할당하고 후반부를 5에서 9까지의 숫자에 할당하면 더 나은 표현을 얻을 수 있습니다. 예를 들어 줄기 2.1은 2.10에서 2.14(전반부) 및 2.15에서 2.18(후반부)로 분할됩니다. 이것은 이전의 어려움을 해결하고 보다 유익한 데이터 보기를 제공합니다.

이 추가 세부 사항은 오른쪽으로 치우쳐 표시되었던 이전 디스플레이와 달리 분할 줄기가 대칭 분포를 강조 표시하는 이 예에서 볼 수 있듯이 드러날 수 있습니다. 줄기-잎 그림은 모든 필수 정보를 보존하면서 데이터 분포에 대한 귀중한 통찰력을 제공합니다.

Stem-and-Leaf Plots
Stem-and-Leaf Plots
  • 2020.07.10
  • www.youtube.com
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

R의 줄기-잎 그림


R의 줄기-잎 그림

여러분, 안녕하세요! 오늘 우리는 줄기와 잎 그림의 매혹적인 세계를 탐험할 것입니다. 줄기 그림이라고도 하는 줄기-잎 그림은 단일 변수에 대한 데이터를 시각적으로 표현한 것입니다. 데이터의 모양, 중심 및 확산에 대한 통찰력을 제공하므로 소규모 데이터 세트에 특히 적합합니다. 이해를 돕기 위해 두 가지 예를 살펴보겠습니다.

먼저 내장된 "충실한" 데이터 세트에 대해 자세히 살펴보겠습니다. 이 데이터 세트는 미국의 유명한 Old Faithful 간헐천에 대한 분출 길이와 대기 시간에 대한 272개의 관찰로 구성되어 있습니다. 모든 측정값은 초 단위로 기록됩니다. R에서 줄기 그림을 만드는 기본 명령은 편리하게 "줄기"라고 합니다. "충실한" 데이터 세트에서 분석하려는 변수의 이름을 지정해야 합니다. 대기 시간 변수부터 시작하겠습니다.

스템 플롯의 맨 위에 있는 키를 관찰하십시오. 소수점은 슬래시 오른쪽으로 한 자리에 위치합니다. 스템 플롯을 보면 데이터 세트의 첫 번째 값인 43과 45를 식별할 수 있습니다. 특히 R은 스템을 자동으로 분할하여 값 범위를 수용합니다. 예를 들어, 40대는 첫 번째 줄기에서 40-44, 두 번째 줄기에서 45-49의 범위로 나뉩니다.

자동 어간 분할을 무시하려면 "scale" 인수를 활용할 수 있습니다. 이 인수를 사용하면 배율 인수를 지정하여 줄기 그림의 높이를 조정할 수 있습니다. 이 경우 줄기 갈라짐을 방지하기 위해 "축척 = 0.5"를 설정하여 줄기 높이를 절반으로 줄일 수 있습니다. 시각적 매력을 향상시키지는 못하지만 "축척" 인수를 사용하는 데 유용한 예시 역할을 합니다.

이제 두 번째 예를 살펴보겠습니다. 연구 조사 참가자의 시각적 자극에 대한 반응 시간(밀리초)에 대한 20개의 관찰로 구성된 데이터 세트가 있습니다. 이전과 마찬가지로 기본 줄기 그림으로 시작합니다. 이 경우 소수점은 슬래시 오른쪽 두 자리입니다. 예를 들어 "3/1"은 "310"을 나타냅니다.

이 플롯에서는 일부 반올림이 발생합니다. 데이터 세트의 최소값은 실제로 309이므로 약간의 정보 손실이 발생합니다. 이전 예와 마찬가지로 "scale" 명령을 사용하여 기본 설정을 수정할 수 있습니다. 배율 인수를 조정하여 실험해 보겠습니다. 예를 들어 "척도 = 0.5"로 설정하면 원래 줄기 그림에 비해 데이터 세트의 모양에 대한 직관력이 훨씬 떨어질 수 있습니다. 그러나 줄기 그림의 길이를 두 배로 늘리면 데이터 분포를 더 잘 이해할 수 있습니다.

이 수정된 플롯에서 줄기가 한 자릿수에서 두 자릿수로 전환되었음을 알 수 있습니다. 예를 들어 데이터 세트에 표시된 처음 몇 개의 값을 읽으면 307과 309가 관찰됩니다. 또한 다음에 나열된 어간은 "31"이 아니라 "32"입니다. 이 발생은 "30" 및 "31"로 시작하는 데이터가 단일 스템으로 결합되기 때문에 발생합니다. 따라서 잠재적인 정보 손실이 있습니다. 그러나 잎은 순서대로 계속 증가합니다.

스템에서 값을 건너뛰지 않고 누락 없이 모든 데이터를 캡처하려면 배율 인수를 추가로 조정해야 합니다. 이 경우 원래 버전보다 줄기 그림을 5배 더 길게 만들 수 있습니다. 이를 통해 줄기를 건너뛰지 않고 원하는 표현에 맞춰 모든 데이터를 포함하는 줄기 그림을 얻을 수 있습니다.

이 최종 디스플레이는 전체 데이터 세트를 포함하지만 과도한 길이로 인해 최적의 선택이 아닐 수 있습니다. 데이터 세트의 모양, 패턴 및 기본 추세를 인식하는 것이 어려워집니다. 대안을 고려할 때 명확하고 유익한 스템 플롯을 위한 최상의 옵션은 스템 분할을 재정의하지 않거나 우리가 시작한 원래 스템 플롯입니다.

이러한 옵션 중 하나를 선택하여 데이터의 본질을 포착하는 것과 간결하고 시각적으로 해석 가능한 표현을 유지하는 것 사이의 균형을 맞춥니다. 줄기-잎 그림의 목적은 데이터 분포에 대한 직관과 통찰력을 제공하여 중심 경향, 변형 및 특이치를 식별할 수 있도록 하는 것임을 기억하는 것이 중요합니다.

따라서 결론적으로 줄기-잎 그림은 작은 데이터 세트를 분석하는 데 유용한 도구입니다. 데이터의 모양, 중심 및 분산을 파악할 수 있는 간단하고 시각적인 수단을 제공합니다. 배율 인수와 스템 분할을 실험함으로써 특정 요구 사항을 충족하도록 플롯을 조정할 수 있습니다. 그러나 전체 데이터 세트를 캡처하는 것과 데이터 분석 및 해석을 용이하게 하는 명확한 표현을 유지하는 것 사이에서 균형을 유지하는 것이 중요합니다.

이제 두 가지 예를 통해 줄기-잎 그림을 살펴보았으므로 사용법 및 사용자 지정에 대한 귀중한 통찰력을 얻었습니다. 이 지식으로 무장한 우리는 다른 데이터 세트에 줄기-잎 그림을 적용하여 숨겨진 이야기를 풀고 데이터 분석을 기반으로 정보에 입각한 결정을 내릴 수 있습니다.

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...