안녕하세요 여러분, 오늘 우리는 관찰 내용을 효과적으로 전달하기 위한 어휘 구축에 중점을 두고 데이터 세트 형태의 질적 설명에 대해 논의할 것입니다. 히스토그램, 빈도 다각형, 스템 플롯과 같은 다양한 그래픽 표현을 탐색하고 그 특성에 대해 논의합니다. 몇 가지 예를 살펴보겠습니다.
먼저 히스토그램을 살펴보겠습니다. 이 경우 그래프는 왼쪽 절반이 오른쪽 절반과 유사한 대칭 모양을 나타냅니다. 실제 데이터는 완벽한 대칭을 거의 나타내지 않지만 특정 값을 정확히 지적하기보다는 전체 모양을 설명하는 데 중점을 둡니다. 대칭 분포의 또 다른 유형은 데이터 값이 빈 전체에 고르게 분포되는 균일 그래프입니다. 결과적으로 가로로 평평한 모양이 되어 값이 각 그룹에 포함될 가능성이 동일함을 나타냅니다.
이제 대칭이 아닌 데이터 세트를 살펴보겠습니다. 히스토그램 대신 변화에 대한 스템 플롯을 고려할 것입니다. 이 스템 플롯 예에서 비대칭 모양을 관찰할 수 있습니다. 92도 부근에 있는 중심을 중심으로 양쪽의 분포가 같지 않음을 알 수 있습니다. 또한 비대칭의 방향을 식별할 수 있습니다. 이 경우 중앙에서 멀리 떨어진 더 높은 숫자 쪽으로 더 긴 꼬리가 있습니다. 이는 오른쪽으로 치우친 분포를 나타냅니다.
반면에 왼쪽으로 치우친 줄기 그림이 있습니다. 값이 작을수록 꼬리가 길어지는 반면 데이터는 값이 클수록 더 집중됩니다. 데이터 세트에 대한 포괄적인 이해를 제공하기 위해 비대칭의 방향을 정확하게 설명하는 것이 중요합니다.
마지막으로, 처음에는 160 또는 170 정도의 큰 단일 이상값으로 인해 오른쪽으로 치우친 것처럼 보일 수 있는 데이터 세트를 고려해 보겠습니다. 그러나 이 이상값을 무시하면 분포가 상당히 대칭적인 모양을 나타내어 종형 곡선과 유사할 수 있습니다. 이상값은 오류, 예외적인 경우 또는 별도의 분석이 필요한 현상을 나타낼 수 있으므로 이를 식별하는 것이 중요합니다. 데이터의 전체 모양을 설명할 때 이상치를 인정해야 하지만 크게 고려해서는 안 됩니다.
데이터 세트 모양을 설명하는 어휘를 개발함으로써 데이터에서 관찰된 주요 특성과 패턴을 효과적으로 전달할 수 있습니다. 데이터 세트의 모양을 이해하면 해당 속성을 해석하는 데 도움이 되며 의미 있는 통찰력을 얻을 수 있습니다.
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
안녕하세요 여러분, 오늘은 평균, 중앙값, 최빈값의 개념에 대해 논의하고 중심 경향의 척도로서의 해석에 초점을 맞춥니다. 각 척도에는 고유한 유용성이 있으며 이를 이해하는 것이 중요합니다. 정의를 빠르게 살펴보겠습니다.
평균은 데이터 세트의 수치 평균을 나타냅니다. 집합의 모든 값을 합산하고 합계를 값 수로 나누어 계산합니다. 평균은 일반적으로 특히 샘플을 다룰 때 그 위에 선이 있는 X-바 또는 X로 표시됩니다.
중앙값은 데이터를 정확히 반으로 나눈 값입니다. 중앙값을 찾으려면 가장 낮은 데이터에서 가장 높은 데이터로 정렬하십시오. 홀수 값이 있는 경우 중앙값은 중간 값입니다. 값이 짝수인 경우 중간 값 두 개를 평균하여 중앙값을 찾습니다. 중앙값은 종종 대문자 M으로 표시됩니다.
모드는 단순히 데이터 세트에서 가장 일반적인 값입니다. 둘 이상의 값이 동일한 빈도를 갖는 경우 분포에 여러 모드가 있을 수 있지만 모든 데이터의 빈도가 동일한 경우 분포에 모드가 없다고 합니다.
예를 들어 보겠습니다. 16개의 값이 있는 데이터 세트가 있다고 가정합니다. 평균은 모든 값을 합산하고 16으로 나누어 계산합니다. 이 경우 평균은 67.9375입니다. 중간값은 값이 짝수이므로 가운데 두 값의 평균을 구하여 65.5가 됩니다. 가장 일반적인 값인 최빈값은 65입니다.
중심 경향의 각 척도에는 그래픽 해석도 있습니다. 히스토그램에서 모드는 가장 빈번한 값을 나타내는 히스토그램의 가장 높은 지점입니다. 중앙값은 히스토그램을 반으로 나누어 영역을 균등하게 나눈 값입니다. 평균은 히스토그램이 균형을 이룰 수 있는 값입니다.
히스토그램의 예를 고려하십시오. 모드는 히스토그램이 가장 높은 x-값을 식별하여 결정할 수 있으며 이 경우 3보다 약간 큽니다. 중앙값은 히스토그램의 영역을 반으로 나눈 값으로 약 4.5입니다. 평균은 히스토그램의 균형을 맞추는 값으로 5보다 약간 작습니다.
중심 경향에 대한 세 가지 척도가 필요한 이유는 무엇입니까? 각 측정에는 장점과 단점이 있습니다. 평균은 통계 분석에서 일반적으로 사용되며 직관적입니다. 그러나 이상값의 영향을 많이 받으며 왜곡된 분포에는 적합하지 않을 수 있습니다.
중앙값은 계산하고 이해하기 쉽고 이상값에 민감하지 않습니다. 그러나 데이터 세트의 모든 정보를 활용하지 않으며 통계적 추론에 문제가 있을 수 있습니다.
최빈값은 범주형 변수에 대해서도 중심 경향의 보편적 측정입니다. 그러나 가장 일반적인 값이 반드시 분포의 중간을 나타내는 것은 아니므로 중앙의 척도로서 신뢰도가 떨어집니다.
특이점을 포함하여 시험 점수의 작은 데이터 세트를 고려하십시오. 이 경우 평균 79는 일반적인 학생의 성과를 정확하게 설명하지 않습니다. 94의 중앙값은 더 설명적인 척도입니다. 이상값을 제거하면 중앙값이 변경되지 않은 상태에서 평균이 크게 변경되므로 차이가 더 명확하게 나타납니다.
평균, 중앙값 및 모드 간의 차이점을 이해하면 다양한 시나리오에서 강점과 한계를 고려하여 데이터 세트의 중심 경향을 효과적으로 해석하고 전달할 수 있습니다.
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
오늘 우리는 R의 백분위수와 분위수에 대해 논의할 것입니다. 그 의미를 검토하는 것으로 시작하겠습니다.
백분위수는 데이터 세트 내 값의 상대적 위치를 측정하는 방법입니다. 일반적으로 데이터 세트의 p번째 백분위수는 데이터의 p%보다 큰 값입니다. 예를 들어 50번째 백분위수는 중앙값이고 25번째 백분위수는 1사분위수이며 75번째 백분위수는 3사분위수입니다. 데이터의 75% 위에 있는 값을 나타냅니다.
백분위수를 계산하기 위한 다양한 방법이 존재하며 보편적으로 허용되는 접근 방식은 없습니다. 그러나 희소식은 모든 방법이 매우 유사한 결과를 가져온다는 것입니다. 백분위수를 계산하려면 효율적이고 정확한 계산을 제공하는 R과 같은 기술에 의존하는 것이 가장 좋습니다.
반면 분위수는 본질적으로 백분위수와 동일합니다. 그러나 "백분위수"라는 용어는 십진수 값을 참조할 때 자주 사용되는 반면 "백분위수"는 정수 값과 연결됩니다. 예를 들어, 15번째 백분위수가 있지만 0.15분위수가 있을 수 있습니다. Quantile의 장점은 필요에 따라 많은 소수 자릿수로 값을 표현하여 더 높은 정밀도를 허용한다는 것입니다.
이제 R로 전환하여 분 단위로 측정된 미국의 Old Faithful 간헐천의 분출 길이 및 대기 시간에 대한 정보가 포함된 "faithful" 데이터 세트를 사용하여 백분위수 및 분위수를 계산하는 방법을 살펴보겠습니다.
R에서 백분위수와 분위수를 계산하기 위해 "quantile" 함수를 사용할 수 있습니다. 두 가지 인수가 필요합니다. 먼저 관심 있는 변수를 지정합니다. 이 경우에는 "faithful$waiting"입니다. 다음으로 원하는 분위수를 십진수로 표시합니다. 예를 들어, 35번째 백분위수(0.35 분위수)를 계산하려면 분위수 인수로 0.35를 씁니다. 명령을 실행하면 이 경우 65와 같은 결과를 얻습니다. 이것은 모든 분출의 약 35%가 대기 시간이 65보다 작거나 같다는 것을 의미합니다.
R에서는 분위수 벡터를 제공하여 여러 분위수를 동시에 계산할 수 있습니다. 예를 들어 "c()" 함수를 사용하여 분위수 0.35, 0.70 및 0.95를 지정할 수 있습니다. 결과는 각 분위수(65, 81, 89)를 포함하는 벡터가 됩니다.
또 다른 유용한 명령은 변수 요약을 제공하는 "summary"입니다. 변수 "faithful$waiting"을 명령에 전달하여 1사분위수(25번째 백분위수), 중앙값(50번째 백분위수), 3사분위수(75번째 백분위수) 및 최소값, 최대값 및 평균값을 얻습니다.
이제 반대 질문을 해보자. 데이터 세트 내에 값이 있고 백분위수를 확인하려는 경우 "ecdf" 명령을 사용할 수 있습니다. "faithful$waiting"과 같은 관심 변수를 지정하고 79와 같은 데이터 세트의 특정 값을 제공하면 명령이 해당 값의 백분위수를 반환합니다. 이 예에서 결과는 0.6617647이며 대기 시간 79가 대략 66번째 백분위수에 해당함을 나타냅니다.
백분위수와 분위수를 이해하면 데이터 세트 내에서 값의 상대적 위치를 평가할 수 있으므로 데이터의 분포와 특성에 대한 귀중한 통찰력을 얻을 수 있습니다.
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
오늘은 표본분산과 표준편차의 개념에 대해 알아보도록 하겠습니다. 이 두 측정값은 데이터 세트의 변동성 또는 확산 정도를 이해하는 데 도움이 됩니다. 평균적으로 데이터 세트의 값이 평균에서 얼마나 멀리 떨어져 있는지에 대한 통찰력을 제공합니다.
수식을 살펴보겠습니다. 수식에서 "n"은 총 샘플 크기를 나타내고 "X_i"는 데이터 세트의 값(예: X_1, X_2, X_3 등), "X bar"(X 위에 선이 있음)를 나타냅니다. 표본 평균을 나타냅니다. 일반적으로 R과 같은 기술을 사용하여 이러한 측정값을 계산하지만 특히 이러한 계산을 더 이상 수동으로 수행하지 않기 때문에 기본 개념을 이해하는 것이 중요합니다.
두 측정값의 핵심 구성 요소는 샘플 평균에서 각 값(X_i)의 편차를 나타내는 "X_i 빼기 X 막대"라는 용어입니다. 즉, 각 값이 평균과 양수 또는 음수로 얼마나 다른지 정량화합니다. 이상적으로는 이러한 편차의 평균을 결정하려고 하지만 단순 평균을 취하면 양수 편차와 음수 편차가 서로 상쇄되기 때문에 0이 됩니다. 이 문제를 해결하기 위해 평균을 계산하기 전에 각 편차(X_i 빼기 X bar)를 제곱합니다. 그 결과 평균에서 편차 제곱의 평균을 나타내는 표본 분산에 대한 공식이 생성됩니다.
그러나 분산 공식에서 n 대신 (n-1)로 나누는 것을 눈치채셨을 것입니다. 이에 대한 몇 가지 이유가 있지만 여기에 간단한 이유가 있습니다. 샘플 평균(X bar)을 계산할 때 X_i 값 중 (n-1)만 필요합니다. 이는 X bar가 모든 X_i의 합을 n으로 나눈 값으로 계산되기 때문입니다. 따라서 X 막대가 있으면 X_i 값을 풀 수 있습니다. (n-1)로 나누면 이를 설명하고 모든 n이 아닌 (n-1) 고유 편차의 평균을 계산할 수 있습니다. 이 방법으로 샘플 분산을 의미 있는 변동성 측정값으로 얻습니다.
또 다른 문제는 분산이 원본 데이터와 동일한 척도가 아니므로 추상화된다는 것입니다. 이를 해결하기 위해 샘플 분산의 제곱근을 취하여 샘플 표준 편차에 대한 공식을 생성합니다. 표준 편차는 더 많은 계산이 필요하고 이론적으로 어려울 수 있지만 분산보다 해석하고 시각화하기가 더 쉽습니다. 분산과 표준 편차는 서로 다른 맥락에서 사용됩니다.
값이 4개뿐인 데이터 세트가 있는 예를 살펴보겠습니다. 샘플 분산 및 표준 편차를 계산하기 위해 먼저 4개의 값을 합하고 4로 나누어 평균 121을 얻어 샘플 평균을 계산합니다. 분산 공식을 사용하여 각 값에 대한 편차(X_i 빼기 X bar)를 제곱하고 편차 제곱을 평균하여 3으로 나눕니다(값 수보다 하나 적음). 이것은 220의 분산을 생성합니다. 그러나 이 값은 즉각적인 해석 가능성이 부족합니다. 이를 해결하기 위해 분산의 제곱근을 취하여 표준 편차가 14.8이 됩니다. 이 값은 데이터 세트의 확산을 측정하는 데 더 적합합니다.
기술적으로 R에서 "var" 및 "sd"와 같은 명령을 사용하여 분산 및 표준 편차를 각각 계산할 수 있습니다. 시간을 절약하고 정확한 결과를 제공하므로 이러한 계산에 기술을 활용하는 것이 좋습니다. 대부분의 경우 수동으로 분산 및 표준 편차를 계산할 필요가 없습니다.
또한 대부분의 경우 데이터 값의 약 2/3가 평균의 1 표준 편차 내에 속한다는 점에 유의해야 합니다. 종 모양 분포(정규 분포)의 경우 데이터의 약 68%가 1 표준 편차 내에 있고 약 95%가 2 표준 편차 내에 있으며 거의 모든 데이터(99.7%)가 평균의 3 표준 편차 내에 있습니다. 이것은 경험적 규칙 또는 68-95-99.7 규칙으로 알려져 있습니다.
이를 설명하기 위해 0에서 100 사이의 정수에서 무작위로 선택된 200개의 값으로 구성된 데이터 세트를 고려해 보겠습니다. 이 데이터 세트의 평균은 49.9이고 표준 편차는 27.3입니다. 경험적 규칙을 적용하면 평균보다 1표준편차 위아래로 이동하면 값의 68%, 즉 136개의 값을 캡처합니다. 분포가 종 모양(정규 분포)을 따르는 경우 훨씬 더 정확한 추정을 할 수 있습니다. 이 경우 값의 약 95%(200개 중 190개)는 평균의 2 표준 편차 내에 속하고 거의 모든 값(200개 중 199개)은 평균의 3 표준 편차 내에 속합니다.
경험적 규칙을 사용하여 한 가지 더 예를 들어 결론을 내리겠습니다. 대략적으로 종 모양 분포를 따르는 표준화된 테스트의 점수가 있다고 가정합니다. 평균 점수는 1060이고 표준편차는 195입니다. 경험적 규칙을 적용하면 점수의 약 68%가 865와 1255 사이에 속할 것이라고 추정할 수 있습니다(평균보다 1 표준 편차). 점수의 약 95%는 670에서 1450 사이에 있습니다(평균보다 위와 아래에 2개의 표준 편차). 마지막으로, 점수의 약 99.7%는 475와 1645 범위 내에 있습니다(평균보다 3 표준 편차).
분산과 표준편차를 이해하면 데이터 세트 내의 확산과 변동성을 파악하는 데 도움이 됩니다. 기술은 계산을 용이하게 하지만 데이터를 효과적으로 해석하고 분석하려면 기본 개념을 이해하는 것이 중요합니다. 이러한 측정을 활용하여 귀중한 통찰력을 얻고 데이터의 특성에 따라 정보에 입각한 결정을 내릴 수 있습니다.
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
안녕하세요 여러분, 오늘 토론에서는 표준 점수라고도 하는 z-점수를 살펴보겠습니다. 이 방법을 사용하면 데이터 세트 내에서 값의 상대적 위치를 측정할 수 있습니다.
z-점수는 값이 평균에서 벗어나는 표준 편차의 수를 나타냅니다. 예를 들어, 평균이 50이고 표준 편차가 8인 데이터 세트가 있는 경우 값 62는 z 점수가 1.5입니다. 이것은 62의 값이 평균보다 1.5 표준편차 높다는 것을 의미합니다.
Z-점수는 특히 종 모양 또는 정규 분포를 따르는 대칭 분포가 있는 데이터 세트에서 상대 위치를 평가하는 데 특히 유용합니다. 그러나 왜곡된 데이터 또는 이상값이 포함된 데이터 세트를 처리할 때 평균 및 표준 편차가 데이터의 중심 및 산포를 정확하게 나타내지 않을 수 있습니다. 결과적으로 이러한 경우 z-점수의 유용성이 감소합니다.
z-점수를 계산하는 공식은 다음과 같습니다. z = (x - μ) / σ, 여기서 x는 데이터 세트의 값, μ는 평균, σ는 표준 편차입니다. 평균은 때때로 x-bar로, 표준편차는 s로 나타내지만 공식은 동일하게 유지됩니다.
Z 점수는 서로 다른 데이터 세트에서 값의 상대적 위치를 비교할 때 특히 유용합니다. 이를 설명하기 위해 예를 들어 보겠습니다. 미국 성인 남성의 평균 키는 69.4인치이며 표준 편차는 3.0인치입니다. 반면 미국 성인 여성의 평균 키는 64.2인치이며 표준 편차는 2.7인치입니다. 이제 키가 64.2인치인 남성과 키가 69.4인치인 여성의 상대적인 희소성을 비교할 수 있습니다.
남자의 z-점수를 계산하기 위해 공식 (64.2 - 69.4) / 3.0을 사용합니다. 결과 z-점수는 -1.73이며, 이는 남자의 키가 남자의 평균 키보다 1.73 표준편차 낮다는 것을 나타냅니다. 여성의 경우 z-점수는 (69.4 - 64.2) / 2.7이므로 z-점수는 1.93입니다. 이것은 여성의 키가 여성의 평균 키보다 1.93 표준편차 높다는 것을 의미합니다. 두 z 점수의 절대값을 비교하면 여성의 평균 키에 비해 여성의 키가 더 특이하다는 결론을 내릴 수 있습니다.
z-점수만으로는 "보통" 값과 "비정상" 값을 명확하게 구분할 수 없다는 점에 유의해야 합니다. 일반적인 관례는 평균에서 2 표준 편차 이상 떨어진 값을 비정상적인 것으로 간주하고 3 표준 편차 이상 떨어진 값을 매우 비정상적인 것으로 간주하는 것입니다. 그러나 이것은 경험에 의한 규칙일 뿐이며 결정은 궁극적으로 상황과 데이터의 특정 분포에 따라 달라집니다.
이것을 증명하기 위해 키가 76인치인 남자의 경우를 생각해 봅시다. 동일한 공식과 남성에 대한 주어진 평균 및 표준 편차를 사용하여 z-점수 2.2를 계산합니다. 이 값은 절대값으로 2보다 크므로 관례에 따라 남성의 키가 비정상적이라고 간주합니다.
경험적 규칙은 대략 종 모양의 분포를 다룰 때 지침을 제공합니다. 값의 약 68%는 평균의 1 표준 편차(z-점수 -1과 1 사이)에 속하고, 약 95%는 2 표준 편차(z-점수 -2와 2 사이)에 속하며, 약 99.7%는 3개 안에 속합니다. 표준 편차(-3과 3 사이의 z-점수).
결론적으로 z-점수는 데이터 세트 내 값의 상대적 위치를 평가하는 유용한 방법을 제공합니다. 이는 서로 다른 데이터 세트의 값을 비교하고 특정 값의 희귀성 또는 특이성을 결정하는 데 특히 유용합니다. 그러나 z-점수를 해석할 때 분포의 모양, 특이치 및 데이터의 컨텍스트를 고려하는 것이 중요합니다.
간단한 예를 들어 결론을 내리겠습니다. 대략적으로 종 모양 분포를 따르는 미국의 성인 여성 키 데이터 세트가 있다고 가정합니다. 평균 높이는 64.2인치이고 표준편차는 2.7인치입니다.
경험적 규칙을 사용하여 특정 비율의 여성이 떨어지는 키 범위를 추정할 수 있습니다. 평균의 1 표준 편차 내에서 여성 키의 약 68%가 발견됩니다. 64.2에서 2.7을 빼면 61.5인치가 되고 2.7을 더하면 66.9인치가 됩니다. 따라서 여성 키의 약 68%가 61.5인치에서 66.9인치 사이에 떨어질 것으로 추정할 수 있습니다.
2개의 표준 편차로 확장하면 여성 키의 약 95%가 이 범위 내에 있음을 알 수 있습니다. 평균에서 2.7을 두 번 빼면 58.8인치가 되고 2.7을 두 번 더하면 69.6인치가 됩니다. 따라서 여성 키의 약 95%는 58.8인치에서 69.6인치 사이로 떨어질 것으로 예상할 수 있습니다.
마지막으로 데이터의 약 99.7%를 포함하는 3개의 표준 편차 내에서 평균에서 2.7을 세 번 빼면 56.1인치가 되고, 2.7을 세 번 더하면 71.7인치가 됩니다. 따라서 여성 키의 약 99.7%가 56.1인치에서 71.7인치 사이에 떨어진다고 추정할 수 있습니다.
z-점수와 그 해석을 이해하면 데이터 세트 내 값의 상대적 위치와 희소성을 평가할 수 있어 통계, 연구, 데이터 분석과 같은 다양한 분야에서 귀중한 통찰력을 제공합니다.
z-점수는 데이터 세트의 평균 및 표준 편차를 고려하여 상대 위치의 표준화된 측정값을 제공합니다. 분포를 이해하고 다양한 데이터 세트의 값을 비교하기 위한 강력한 도구입니다.
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
여러분, 안녕하세요! 오늘은 이상값에 대한 5개 숫자 요약 및 1.5배 IQR 테스트의 개념에 대해 자세히 살펴보겠습니다. 데이터 세트의 사분위수를 정의하는 것으로 시작하겠습니다. 사분위수는 데이터 세트를 4개의 동일한 부분으로 나누는 값입니다. 첫 번째 사분위수(Q1)는 데이터의 약 25% 위에 있고, 두 번째 사분위수(Q2)는 데이터의 약 절반(중앙값이라고도 함) 위에 있으며, 세 번째 사분위수(Q3)는 데이터의 약 75% 위에 있습니다. 데이터.
데이터 세트가 고르게 나뉘지 않으면 4등분으로 나누는 것이 정확하지 않을 수 있다는 점에 유의해야 합니다. 첫 번째 및 세 번째 사분위수는 중앙값을 먼저 결정하여 찾을 수 있습니다. Q1과 Q3을 찾기 위해 데이터 세트를 상반부와 하반부로 나누고 이 두 절반의 중앙값을 계산합니다. 상반부의 중앙값은 Q3이고 하반부의 중앙값은 Q1입니다.
이를 설명하기 위해 예제를 살펴보겠습니다. 가장 낮은 값에서 가장 높은 값으로 나열된 17개의 값이 있는 다음 데이터 세트를 고려하십시오. 중앙값 또는 Q2는 중간에 있는 값이며, 이 경우에는 9번째 값입니다(17은 홀수 값이므로). 따라서 중앙값은 42입니다. Q1을 찾기 위해 중앙값보다 작은 8개의 값을 고려합니다. 그것들을 정렬하면 16, 18, 20, 22를 찾습니다. 이것은 짝수 값이므로 중간 두 값의 평균을 취하여 18을 얻습니다. 마찬가지로 Q3의 경우 다음보다 큰 8개의 값을 고려합니다. 중앙값은 45, 48, 50 및 55입니다. 다시 두 중간 값의 평균을 취하면 Q3을 52로 얻습니다.
따라서 이 예에서 사분위수는 Q1 = 18, Q2 = 42 및 Q3 = 52입니다. 데이터 세트의 5개 숫자 요약은 이러한 사분위수와 데이터 세트의 최소값 및 최대값으로 구성됩니다. 우리의 경우 5개 숫자 요약은 5, 18, 42, 52 및 93이며, 여기서 5는 최소값을 나타내고 93은 최대값을 나타냅니다.
또 다른 유용한 척도는 데이터 중간 절반의 확산을 정량화하는 사분위간 범위(IQR)입니다. Q3과 Q1의 차이로 계산됩니다. 이 예에서 IQR은 52 - 18 = 34입니다. IQR은 데이터 세트의 중간 50% 내의 값 범위에 초점을 맞추고 극단적인 값의 영향을 덜 받습니다.
이제 다른 예를 살펴보겠습니다. 아래에 나열된 22명의 학생의 시험 점수가 있다고 가정합니다. 다섯 숫자 요약과 IQR을 사용하여 점수 분포를 설명하려고 합니다. 첫째, 극단값의 영향을 받을 수 있으므로 평균을 중심의 척도로 사용하는 데 주의해야 합니다. 이 경우 평균은 75.3이지만 소수의 학생이 예외적으로 낮은 점수를 받았기 때문에 평균이 일반적인 학생 성과를 정확하게 나타내지 못할 수 있습니다. 마찬가지로 최소값과 최대값(각각 2와 100)의 차이인 범위는 극단값으로 인해 오해의 소지가 있을 수 있습니다.
보다 정확한 설명을 얻기 위해 5자리 요약을 계산합니다. 점수를 정렬하면 최소값은 2이고 최대값은 100입니다. 중앙값(Q2)은 중간에 있는 값이며 이 경우에는 80입니다. 데이터 세트의 아래쪽 절반은 다음보다 작은 8개의 값으로 구성됩니다. 중앙값, 76과 83이 두 개의 중간 값입니다. 평균을 취하면 Q1이 79입니다. 마찬가지로 데이터 세트의 상위 절반의 중앙값은 83이므로 Q3은 83입니다.
따라서 이 데이터 세트에 대한 5개 숫자 요약은 2, 79, 80, 83 및 100입니다. 이 요약에서 점수의 중간 절반이 79와 83 사이에 있음을 관찰합니다. 중앙값.
데이터 세트에서 이상값을 식별하기 위해 1.5배 IQR 테스트를 사용할 수 있습니다. 앞서 계산한 IQR은 83 - 79 = 4입니다. IQR에 1.5를 곱하면 6이 됩니다. Q1에서 6을 빼고 Q3에 6을 더하여 값이 이상치로 간주되지 않는 범위를 설정합니다. 이 경우 73 미만 또는 89 초과 값은 이 규칙에 따라 이상값으로 처리해야 합니다.
이 테스트를 데이터 세트에 적용하면 2와 100이 이상치로 간주되어야 함을 알 수 있습니다. 교수로서 시험 곡선을 결정할 때 이러한 극한 점수를 무시하거나 가중치를 줄이는 것이 좋습니다.
5개 숫자 요약, IQR 및 1.5배 IQR 테스트를 활용하여 점수 분포를 더 잘 이해하고 전체 분석에 영향을 미칠 수 있는 잠재적 이상값을 식별할 수 있습니다.
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
오늘은 박스 플롯(Box Plot)과 위스커 플롯(Box Plot)이라고도 하는 상자 플롯(Box Plot)에 대해 알아보겠습니다. 박스 플롯은 5개 숫자 요약을 기반으로 단일 변수 데이터 세트를 그래픽으로 표현한 것입니다. 더 잘 이해하기 위해 예를 들어 보겠습니다.
5개 숫자 요약과 상자 그림을 구성하려는 데이터 세트가 있다고 가정합니다. 데이터 세트는 34, 42, 48, 51.5, 58입니다. 먼저 숫자를 오름차순으로 정렬하여 최소값(34)과 최대값(58)을 찾습니다. 홀수의 값이 있으므로 중앙값은 중간에 있는 값이며 이 경우에는 48입니다.
다음으로 데이터 세트를 아래쪽 절반과 위쪽 절반의 두 부분으로 나눕니다. 하반부의 중앙값은 42이고 상반부의 중앙값은 51.5입니다. 이러한 값을 각각 제1사분위수(Q1) 및 제3사분위수(Q3)라고 합니다.
5개 숫자 요약을 사용하여 상자 그림을 구성할 수 있습니다. 상자 그림은 Q1과 Q3 사이의 범위를 나타내는 상자로 구성됩니다. 상자의 아래쪽은 Q1에 해당하고 상자의 위쪽은 Q3에 해당하며 상자 내부의 수평선은 중앙값을 나타냅니다. 상자 그림의 "암"은 상자에서 최소값과 최대값(각각 34 및 58)까지 확장됩니다.
박스 플롯의 목적은 데이터 분포를 시각화하는 것입니다. 상자는 데이터 세트의 중간 50%를 나타내고 팔은 나머지 값을 포함합니다. 주어진 예에서는 극단값이 없으므로 상자 그림에 이상값이 표시되지 않습니다.
5개 숫자 요약을 결정하고 1.5배 IQR 테스트를 사용하여 이상값을 테스트하고 상자 그림을 구성하려는 또 다른 예를 고려해 보겠습니다. 데이터 세트는 62, 64, 75, 81.5 및 110입니다.
이 경우 값 110은 상한을 초과하여 이상값으로 분류됩니다. 상자 그림을 구성할 때 이상값이 아닌 가장 극단적인 값까지만 상자 그림의 팔을 그립니다. 이상치 값 110은 별도의 점으로 표시하였으며, 상완은 90까지만 확장되어 이상치가 아닌 범위 내에서 가장 높은 값을 나타냅니다.
박스 플롯은 하나의 범주형 변수와 하나의 정량적 변수를 플로팅하는 것과 같이 그룹 간 데이터를 비교할 때 특히 유용합니다. 종종 side-by-side 박스 플롯이라고 하는 이러한 유형의 플롯은 서로 다른 그룹을 명확하게 시각적으로 비교할 수 있습니다. 예를 들어 setosa, versicolor 및 virginica의 세 가지 종의 꽃잎 너비를 비교하는 유명한 붓꽃 데이터 세트를 고려할 수 있습니다. 박스 플롯을 검토하면 setosa 종은 일반적으로 다른 두 종에 비해 꽃잎이 더 좁다는 것을 관찰할 수 있습니다. 또한 각 그룹 내에서 꽃잎 폭의 퍼짐 차이를 식별할 수 있습니다.
요약하면, 박스 플롯은 5개의 숫자 요약을 간결하게 시각화하고 다른 그룹 간에 쉽게 비교할 수 있도록 합니다. 데이터 세트의 최소값, 1사분위수(Q1), 중앙값, 3사분위수(Q3) 및 최대값을 표시합니다. 상자는 데이터의 중간 50%를 나타내며 상자의 아래쪽은 Q1에 있고 상자의 위쪽은 Q3에 있습니다. 상자 안의 선은 중앙값을 나타냅니다.
상자 그림에는 1.5배 IQR 테스트로 결정된 범위를 벗어나는 값인 이상값을 표시하는 기능도 있습니다. 이상값을 결정하기 위해 IQR(Q3 - Q1)을 계산하고 1.5를 곱합니다. 그런 다음 Q1에서 IQR의 1.5배를 빼고 IQR의 1.5배를 Q3에 더합니다. 하한보다 낮거나 상한보다 높은 모든 값은 이상치로 간주됩니다.
이상값이 있는 상자 그림을 구성할 때 플롯의 팔은 이상값이 아닌 가장 극단적인 값까지만 확장됩니다. 이상값은 상자 그림의 암 외부에 있는 개별 점으로 표시됩니다. 이렇게 하면 상자 그림이 이상값이 아닌 데이터의 분포를 정확하게 나타내고 오해의 소지가 있는 해석을 방지할 수 있습니다.
상자 그림은 서로 다른 그룹 또는 범주 간에 데이터를 비교할 때 특히 유용합니다. 여러 박스 플롯을 나란히 플로팅하면 분포를 비교하고 분석 중인 변수의 차이를 이해하기가 더 쉬워집니다.
예를 들어 붓꽃 데이터 세트를 사용하여 setosa, versicolor 및 virginica 종의 꽃잎 너비를 비교하기 위해 나란히 상자 그림을 만들 수 있습니다. 이를 통해 종 간 꽃잎 너비의 차이와 각 그룹 내 값의 분포를 시각적으로 관찰할 수 있습니다.
요약하면, 박스 플롯은 5개 숫자 요약의 시각적 요약을 제공하여 데이터 분포를 더 쉽게 이해하고 다른 그룹을 비교할 수 있도록 합니다. 데이터 세트에서 이상값의 중심 경향, 확산 및 존재에 대한 통찰력을 제공하여 데이터 분석 및 시각화에 유용한 도구가 됩니다.
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
여러분, 안녕하세요! 오늘은 qplot 명령을 사용하여 R에서 아름다운 박스 플롯을 만드는 방법을 배우려고 합니다. R에서 박스 플롯을 생성하는 방법은 여러 가지가 있지만 가장 시각적으로 매력적인 방법은 tidyverse 패키지 제품군의 일부인 ggplot2 패키지에서 제공되는 경우가 많습니다. 그래서 그것에 뛰어 들자!
이전에 이러한 기능을 사용한 적이 없다면 install.packages 명령을 사용하여 컴퓨터에 tidyverse 패키지를 설치해야 합니다. 아직 수행하지 않은 경우 이 단계는 빠릅니다. 일단 설치되면 기능에 액세스하려면 각 세션 시작 시 library(tidyverse) 명령을 사용하여 패키지를 메모리에 로드해야 합니다.
이 자습서에서는 ggplot2 패키지의 qplot 명령 사용에 중점을 둘 것입니다. 이제 상자 그림을 만드는 두 가지 예부터 시작하겠습니다.
먼저 일부 데이터를 수동으로 입력해 보겠습니다. 길이가 21인 "scores"라는 벡터를 만들겠습니다. 이 벡터는 크기가 21인 학급의 수학 시험 점수를 나타낼 수 있습니다.
점수의 박스 플롯을 생성하기 위해 qplot 명령을 사용합니다. 기본 구문은 동일하게 유지됩니다. x 및 y 축에 대한 변수를 지정하고 geom 인수를 사용하여 상자 그림을 원함을 나타냅니다. 이 경우 x축에 점수를 표시합니다.
박스 플롯을 시각적으로 더 매력적으로 만들기 위해 몇 가지 개선 사항을 적용할 수 있습니다. 먼저 y = ""를 사용하여 y축의 의미 없는 숫자를 제거할 수 있습니다. 다음으로 세로 상자 그림을 원하면 점수에 y를 사용하고 x축 레이블을 제거하여 축을 전환할 수 있습니다. color 인수와 채우기 인수를 각각 사용하여 상자의 선과 내부에 색상을 추가할 수도 있습니다. 마지막으로 레이블을 사용자 지정하고 ylab 및 기본 인수를 사용하여 그래프에 제목을 추가할 수 있습니다.
이제 chickweights라는 기본 제공 데이터 세트를 사용하여 두 번째 예를 살펴보겠습니다. 이 데이터 세트에는 서로 다른 병아리의 무게와 제공된 사료라는 두 가지 변수가 있는 71개의 관찰이 포함되어 있습니다. 다양한 사료 유형에 걸쳐 병아리 무게의 분포를 비교하기 위해 나란히 상자 그림을 만들 것입니다.
이전 예와 유사하게 qplot 명령을 사용하고 data = chickweights를 사용하여 데이터 세트를 지정합니다. 그런 다음 y축에 가중치가 있고 x축에 피드가 있는 세로 상자 그림을 원한다고 표시합니다. 피드 유형별로 박스 플롯을 구별하기 위해 채우기 인수를 사용하고 이를 피드 변수에 매핑할 수 있습니다.
다시 한 번, 글꼴 스타일, 레이블 크기 및 포인트 크기를 포함하여 사용자 지정에 사용할 수 있는 다른 많은 옵션이 있습니다. 온라인 검색을 통해 더 자세히 알아볼 수 있습니다.
몇 가지 수정만으로 R에서 전문가 수준의 상자 그림을 만들 수 있습니다. 이 예제는 데이터 시각화를 위한 ggplot2 패키지의 기능과 유연성을 보여줍니다.
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
여러분, 안녕하세요! 오늘은 확률의 기초에 대해 알아보겠습니다. 샘플 공간, 결과, 이벤트 등과 같은 주제를 살펴보겠습니다. 무작위 실험이라고도 하는 확률 실험은 결과를 확실하게 예측할 수 없는 실험입니다. 그러나 반복된 시도는 특정한 경향을 드러낼 수 있습니다. 몇 가지 예를 살펴보겠습니다.
동전을 던져 앞면인지 뒷면인지 기록하십시오.
무작위 다이얼러를 사용하여 10명의 유권자에게 연락하고 누구에게 투표할 것인지 물어보십시오.
두 개의 주사위를 굴려 숫자의 합을 기록합니다.
주사위 2개를 굴려 6이 나오는 횟수를 센다.
마지막 두 예에서 동작은 동일하지만(주사위 2개 굴림) 기록된 데이터가 약간 다릅니다. 따라서 우리는 그것들을 별도의 확률 실험으로 간주합니다. 이제 몇 가지 어휘에 대해 이야기해 봅시다.
확률 실험에서 특정 시도의 결과를 결과라고 합니다. 확률 실험에서 가능한 모든 결과의 집합을 표본 공간(대문자 S로 표시)이라고 합니다. 샘플 공간의 하위 집합을 이벤트라고 합니다.
이를 설명하기 위해 예를 들어 보겠습니다. 두 개의 동전을 던지고 결과를 기록한다고 가정합니다. 표본 공간은 머리-머리, 머리-꼬리, 꼬리-머리 및 꼬리-꼬리의 네 가지 결과로 구성됩니다. 이벤트 E를 "두 플립이 동일하다"로 정의하면 해당 이벤트 내에서 앞면-앞면 및 뒷면-뒷면이라는 두 가지 결과가 발생합니다. 이 이벤트는 샘플 공간의 하위 집합입니다.
일반적으로 이벤트는 확률 실험 중에 발생할 수 있는 것을 나타내지만 발생하는 방법에는 여러 가지가 있을 수 있습니다. 앞의 예에서 "두 플립이 동일합니다" 이벤트는 두 가지 다른 방식으로 발생할 수 있습니다.
이벤트가 한 가지 방식으로만 발생할 수 있는 경우 즉 단일 결과로 구성되는 경우 이를 단순 이벤트라고 합니다. E'로 표시되거나 때때로 E 위에 막대가 있는 이벤트 E의 여집합은 표본 공간에서 E에 없는 모든 결과의 집합입니다. E가 발생하면 E'가 발생하지 않으며 그 반대의 경우도 마찬가지입니다.
예를 들어 스피너를 사용하여 1에서 9까지의 정수를 무작위로 선택한다고 가정합니다. E를 "결과가 소수인" 사건이라고 하자. 표본 공간은 1에서 9까지의 정수이고 E는 10보다 작은 소수 집합 {2, 3, 5, 7}입니다. E의 보수(E')는 E가 발생하지 않는 사건으로, 소수가 아닌 10보다 작은 숫자 {1, 4, 6, 8, 9}로 구성됩니다.
두 사건은 공통된 결과가 없으면 서로소입니다. 즉, 확률 실험의 한 시행에서 두 사건이 동시에 발생할 수 없습니다. 예를 들어, 네 개의 동전을 던지고 결과를 기록하는 것을 고려하십시오. E를 "처음 두 번 던질 때 앞면이 나오는" 사건이라고 하고, F를 "적어도 세 번 뒷면이 나오는" 사건이라고 합니다. 이 두 이벤트는 다음과 같이 나타낼 수 있습니다.
세트 E와 F 간에 공유되는 결과가 없다는 점에 유의하십시오. 따라서 이러한 이벤트는 분리됩니다.
사건의 확률을 설명하는 방법에는 여러 가지가 있으며 두 가지 일반적인 접근 방식은 경험적 확률(또는 통계적 확률)과 고전적 확률(또는 이론적 확률)입니다.
경험적 확률은 관찰을 기반으로 합니다. 확률 실험을 여러 번 실행하고 이벤트가 발생한 횟수를 세고 총 시행 횟수로 나눕니다. 과거에 사건이 발생한 횟수의 비율에 해당합니다. 예를 들어, 동전을 100번 던졌는데 앞면이 53번 나왔다면 동전이 나올 확률은 53/100, 즉 53%입니다.
반면에 고전적 확률은 표본 공간의 모든 결과가 동등할 때 적용됩니다. 이벤트의 결과 수를 세고 샘플 공간의 총 결과 수로 나눕니다. 수학적으로는 이벤트 E의 카디널리티(요소 수)를 샘플 공간 S의 카디널리티로 나눈 값으로 표현됩니다. 5를 얻는 간단한 사건 E, 고전적인 확률은 1/6입니다.
다른 예를 살펴보겠습니다. 공정한 동전을 세 번 던지면 HHH, HHT, HTH, HTT, THH, THT, TTH, TTT의 8가지 결과가 똑같이 나옵니다. E를 정확히 두 개의 앞면이 나오는 사건이라고 합시다. 표본 공간 내에서 이벤트 E에는 세 가지 결과(HHH, HHT 및 HTH)가 있습니다. 따라서 이벤트 E의 고전적 확률은 3/8입니다.
이제 한 대형 대학의 통계학 입문 수업의 빈도 분포를 이용한 확률 질문을 살펴보겠습니다. 분포는 각 학급 수준의 학생 수(1학년 67명, 2학년 72명 등)를 보여줍니다. 이 학급에서 무작위로 사람을 뽑는다면 그들이 2학년일 확률은 얼마입니까? 이것은 고전적인 확률 질문입니다.
주어진 빈도 분포에서 총 222개의 결과(학생 수)가 있으며 그 중 72개의 결과가 2학년에 해당합니다. 따라서 무작위로 2학년을 선택할 확률은 72/222, 약 32.4%입니다.
이제 동일한 빈도 분포를 사용하여 약간 다른 질문으로 초점을 이동해 보겠습니다. 과정에 등록하는 다음 사람이 주니어 또는 시니어일 확률은 얼마입니까? 이번에는 향후 등록에 대한 확실성이 없기 때문에 경험적 확률에 관심이 있습니다.
우리는 이미 등록한 학생들에 대한 데이터를 봅니다. 그 중 후배가 29명, 시니어가 54명이다. 경험적 확률을 계산하기 위해 이벤트에 맞는 학생 수(주니어 또는 시니어)를 총 등록 학생 수로 나눕니다. 따라서 확률은 (29 + 54) / 222, 약 37.7%입니다.
우리가 경험적 확률을 다루고 있든 고전적 확률을 다루고 있든 특정한 사실이 사실임을 주목하는 것이 중요합니다. 모든 사건의 확률은 0과 1 사이에 있습니다. 확률이 0인 사건은 불가능하지만 확률이 1인 사건은 확실합니다. 표본 공간이 S로 표시되면 S가 발생할 확률은 항상 1입니다.
서로소 사건 E와 F가 있는 경우(공통 결과가 없음) 이벤트 중 적어도 하나가 발생할 확률은 개별 확률의 합입니다. 그러나 E와 F가 동시에 발생할 확률은 상호 배타적이므로 0입니다.
또한 보완적 사건(가능한 모든 결과를 포함하는 사건)이 있는 경우 확률의 합은 항상 1입니다. 사건 E가 발생하면 보완(E')이 발생하지 않을 확률은 1에서 E가 발생할 확률을 뺀 값입니다.
일상 언어에서 우리는 종종 직감과 개인적인 경험을 바탕으로 비공식적으로 확률을 사용합니다. 이를 주관적 확률이라고 합니다. 그러나 통계에서는 엄격한 계산을 위해 경험적 및 고전적 확률에 의존합니다. 주관적 확률은 수학적 정확성이 부족하며 통계 분석의 초점이 아닙니다.
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
안녕하세요 여러분, 오늘 우리는 확률의 덧셈 규칙에 대해 논의할 것입니다. 이 규칙을 통해 사건의 합집합 확률을 계산할 수 있습니다. 규칙의 단순화된 버전부터 시작하겠습니다.
서로소인 두 사건 A와 B가 있다고 가정합니다. 즉, 공통된 결과가 없습니다. 이 경우 두 사건이 발생할 확률은 단순히 개별 확률의 합입니다. 이것은 다음과 같이 작성할 수 있습니다.
P(A ∪ B) = P(A) + P(B)
여기서 A ∪ B는 A 또는 B에 있는 모든 결과의 집합을 나타내며 본질적으로 "A 또는 B"를 의미합니다. 공통된 결과가 없기 때문에 분리된 사건이 둘 다 발생할 수 없다는 점을 기억하는 것이 중요합니다. 때때로 이러한 이벤트는 상호 배타적이라고 합니다.
덧셈 규칙의 이 버전을 설명하기 위해 예를 살펴보겠습니다. 공정한 주사위를 두 번 굴리고 첫 번째 굴림이 6인 이벤트 A와 굴림의 합이 3인 이벤트 B를 정의한다고 가정합니다. 첫 번째 롤이 6이면 합계가 3이 될 수 없기 때문에 이러한 이벤트는 상호 배타적입니다. 이제 A 또는 B의 확률을 계산하려면(첫 번째 롤은 6이거나 합계가 3임) 이러한 이벤트의 개별 확률이 필요합니다.
첫 번째 굴림이 6이 될 확률은 6개의 가능한 결과가 있고 그 중 하나만 6이기 때문에 1/6입니다. 두 번의 주사위 굴림에 대해 총 36개의 가능한 결과가 있고 두 결과의 합이 3(1+2 및 2+1)이라는 점을 고려할 때 굴림의 합이 3일 확률은 2/36입니다. 이 확률을 더하면 총 확률은 2/9입니다.
Larson과 Farber의 교과서 "Elementary Statistics"에서 가져온 또 다른 예를 살펴보겠습니다. 주택 소유자를 대상으로 한 설문 조사에서 집 청소 사이의 시간에 대해 질문했습니다. 결과는 서로 다른 시간 간격을 보여주는 파이 차트로 요약됩니다. 우리는 임의로 선택된 주택 소유자가 청소 사이에 2주 이상 경과할 확률을 찾고자 합니다.
이 경우 파이 차트의 파란색 또는 노란색 세그먼트에서 주택 소유자를 선택할 확률에 관심이 있습니다. 이러한 세그먼트는 상호 배타적이기 때문에(3주마다 또는 4주 이상 집을 청소할 수 없음) 이러한 이벤트의 확률을 추가할 수 있습니다. 3주마다 집을 청소할 확률은 10%이고 4주 이상 청소할 확률은 22%입니다. 이 확률을 더하면 총 확률은 32%가 됩니다.
이제 두 사건 A와 B가 서로소가 아닌 좀 더 일반적인 경우를 생각해 봅시다. 이 시나리오에서는 추가 규칙이 약간 더 복잡해집니다. A 또는 B의 확률은 다음과 같이 지정됩니다.
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
여기서 A ∩ B는 A와 B 모두에 있는 결과를 나타냅니다. A와 B가 겹칠 때 A ∩ B의 결과가 두 번 계산되기 때문에 A ∩ B의 확률을 빼는 것이 중요합니다(A에서 한 번, B에서 한 번). ).
이 버전의 추가 규칙을 설명하기 위해 흡연 습관과 안전 벨트 사용에 대한 설문 조사의 예를 사용하겠습니다. 설문 조사는 242명의 응답자에게 그들의 습관에 대해 물었고, 그 결과를 표로 요약했습니다. 우리는 무작위로 선택된 응답자가 담배를 피우지 않거나 안전벨트를 착용하지 않을 확률을 찾고자 합니다.
담배를 피우지 않는 사건을 A, 안전벨트를 매지 않은 사건을 B라고 하자. 우리는 A 또는 B의 확률(A ∪ B)에 관심이 있습니다. 이를 계산하려면 A, B, A ∩ B의 개별 확률이 필요합니다. 242명 표본에 169명이 담배를 피우지 않기 때문에 비흡연 확률은 242명 중 169명입니다. 안전벨트를 착용하지 않을 확률은 242개 중 114개입니다. 이제 담배를 피우지 않고 안전벨트를 착용하지 않는 개인을 나타내는 A ∩ B의 확률도 필요합니다. 표에서 81명의 개인이 있음을 알 수 있습니다.
분리되지 않은 이벤트에 대한 추가 규칙을 사용하여 다음과 같이 A 또는 B의 확률을 계산할 수 있습니다.
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
값을 대체하면 다음을 얻습니다.
P(A ∪ B) = 169/242 + 114/242 - 81/242
식을 단순화하면 다음과 같습니다.
P(A ∪ B) = 202/242
이제 개별 확률을 추가하여 A 또는 B의 확률을 직접 계산해 보겠습니다. 이 경우 테이블의 각 셀에 있는 이벤트가 상호 배타적이기 때문에 분리된 이벤트에 더하기 규칙을 사용할 수 있습니다. A 또는 B를 나타내는 5개 셀의 확률을 더하면 다음을 얻습니다.
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
데이터를 정성적으로 설명
데이터를 정성적으로 설명
안녕하세요 여러분, 오늘 우리는 관찰 내용을 효과적으로 전달하기 위한 어휘 구축에 중점을 두고 데이터 세트 형태의 질적 설명에 대해 논의할 것입니다. 히스토그램, 빈도 다각형, 스템 플롯과 같은 다양한 그래픽 표현을 탐색하고 그 특성에 대해 논의합니다. 몇 가지 예를 살펴보겠습니다.
먼저 히스토그램을 살펴보겠습니다. 이 경우 그래프는 왼쪽 절반이 오른쪽 절반과 유사한 대칭 모양을 나타냅니다. 실제 데이터는 완벽한 대칭을 거의 나타내지 않지만 특정 값을 정확히 지적하기보다는 전체 모양을 설명하는 데 중점을 둡니다. 대칭 분포의 또 다른 유형은 데이터 값이 빈 전체에 고르게 분포되는 균일 그래프입니다. 결과적으로 가로로 평평한 모양이 되어 값이 각 그룹에 포함될 가능성이 동일함을 나타냅니다.
이제 대칭이 아닌 데이터 세트를 살펴보겠습니다. 히스토그램 대신 변화에 대한 스템 플롯을 고려할 것입니다. 이 스템 플롯 예에서 비대칭 모양을 관찰할 수 있습니다. 92도 부근에 있는 중심을 중심으로 양쪽의 분포가 같지 않음을 알 수 있습니다. 또한 비대칭의 방향을 식별할 수 있습니다. 이 경우 중앙에서 멀리 떨어진 더 높은 숫자 쪽으로 더 긴 꼬리가 있습니다. 이는 오른쪽으로 치우친 분포를 나타냅니다.
반면에 왼쪽으로 치우친 줄기 그림이 있습니다. 값이 작을수록 꼬리가 길어지는 반면 데이터는 값이 클수록 더 집중됩니다. 데이터 세트에 대한 포괄적인 이해를 제공하기 위해 비대칭의 방향을 정확하게 설명하는 것이 중요합니다.
마지막으로, 처음에는 160 또는 170 정도의 큰 단일 이상값으로 인해 오른쪽으로 치우친 것처럼 보일 수 있는 데이터 세트를 고려해 보겠습니다. 그러나 이 이상값을 무시하면 분포가 상당히 대칭적인 모양을 나타내어 종형 곡선과 유사할 수 있습니다. 이상값은 오류, 예외적인 경우 또는 별도의 분석이 필요한 현상을 나타낼 수 있으므로 이를 식별하는 것이 중요합니다. 데이터의 전체 모양을 설명할 때 이상치를 인정해야 하지만 크게 고려해서는 안 됩니다.
데이터 세트 모양을 설명하는 어휘를 개발함으로써 데이터에서 관찰된 주요 특성과 패턴을 효과적으로 전달할 수 있습니다. 데이터 세트의 모양을 이해하면 해당 속성을 해석하는 데 도움이 되며 의미 있는 통찰력을 얻을 수 있습니다.
평균, 중앙값 및 최빈값 이해
평균, 중앙값 및 최빈값 이해
안녕하세요 여러분, 오늘은 평균, 중앙값, 최빈값의 개념에 대해 논의하고 중심 경향의 척도로서의 해석에 초점을 맞춥니다. 각 척도에는 고유한 유용성이 있으며 이를 이해하는 것이 중요합니다. 정의를 빠르게 살펴보겠습니다.
평균은 데이터 세트의 수치 평균을 나타냅니다. 집합의 모든 값을 합산하고 합계를 값 수로 나누어 계산합니다. 평균은 일반적으로 특히 샘플을 다룰 때 그 위에 선이 있는 X-바 또는 X로 표시됩니다.
중앙값은 데이터를 정확히 반으로 나눈 값입니다. 중앙값을 찾으려면 가장 낮은 데이터에서 가장 높은 데이터로 정렬하십시오. 홀수 값이 있는 경우 중앙값은 중간 값입니다. 값이 짝수인 경우 중간 값 두 개를 평균하여 중앙값을 찾습니다. 중앙값은 종종 대문자 M으로 표시됩니다.
모드는 단순히 데이터 세트에서 가장 일반적인 값입니다. 둘 이상의 값이 동일한 빈도를 갖는 경우 분포에 여러 모드가 있을 수 있지만 모든 데이터의 빈도가 동일한 경우 분포에 모드가 없다고 합니다.
예를 들어 보겠습니다. 16개의 값이 있는 데이터 세트가 있다고 가정합니다. 평균은 모든 값을 합산하고 16으로 나누어 계산합니다. 이 경우 평균은 67.9375입니다. 중간값은 값이 짝수이므로 가운데 두 값의 평균을 구하여 65.5가 됩니다. 가장 일반적인 값인 최빈값은 65입니다.
중심 경향의 각 척도에는 그래픽 해석도 있습니다. 히스토그램에서 모드는 가장 빈번한 값을 나타내는 히스토그램의 가장 높은 지점입니다. 중앙값은 히스토그램을 반으로 나누어 영역을 균등하게 나눈 값입니다. 평균은 히스토그램이 균형을 이룰 수 있는 값입니다.
히스토그램의 예를 고려하십시오. 모드는 히스토그램이 가장 높은 x-값을 식별하여 결정할 수 있으며 이 경우 3보다 약간 큽니다. 중앙값은 히스토그램의 영역을 반으로 나눈 값으로 약 4.5입니다. 평균은 히스토그램의 균형을 맞추는 값으로 5보다 약간 작습니다.
중심 경향에 대한 세 가지 척도가 필요한 이유는 무엇입니까? 각 측정에는 장점과 단점이 있습니다. 평균은 통계 분석에서 일반적으로 사용되며 직관적입니다. 그러나 이상값의 영향을 많이 받으며 왜곡된 분포에는 적합하지 않을 수 있습니다.
중앙값은 계산하고 이해하기 쉽고 이상값에 민감하지 않습니다. 그러나 데이터 세트의 모든 정보를 활용하지 않으며 통계적 추론에 문제가 있을 수 있습니다.
최빈값은 범주형 변수에 대해서도 중심 경향의 보편적 측정입니다. 그러나 가장 일반적인 값이 반드시 분포의 중간을 나타내는 것은 아니므로 중앙의 척도로서 신뢰도가 떨어집니다.
특이점을 포함하여 시험 점수의 작은 데이터 세트를 고려하십시오. 이 경우 평균 79는 일반적인 학생의 성과를 정확하게 설명하지 않습니다. 94의 중앙값은 더 설명적인 척도입니다. 이상값을 제거하면 중앙값이 변경되지 않은 상태에서 평균이 크게 변경되므로 차이가 더 명확하게 나타납니다.
평균, 중앙값 및 모드 간의 차이점을 이해하면 다양한 시나리오에서 강점과 한계를 고려하여 데이터 세트의 중심 경향을 효과적으로 해석하고 전달할 수 있습니다.
R의 백분위수 및 분위수
R의 백분위수 및 분위수
오늘 우리는 R의 백분위수와 분위수에 대해 논의할 것입니다. 그 의미를 검토하는 것으로 시작하겠습니다.
백분위수는 데이터 세트 내 값의 상대적 위치를 측정하는 방법입니다. 일반적으로 데이터 세트의 p번째 백분위수는 데이터의 p%보다 큰 값입니다. 예를 들어 50번째 백분위수는 중앙값이고 25번째 백분위수는 1사분위수이며 75번째 백분위수는 3사분위수입니다. 데이터의 75% 위에 있는 값을 나타냅니다.
백분위수를 계산하기 위한 다양한 방법이 존재하며 보편적으로 허용되는 접근 방식은 없습니다. 그러나 희소식은 모든 방법이 매우 유사한 결과를 가져온다는 것입니다. 백분위수를 계산하려면 효율적이고 정확한 계산을 제공하는 R과 같은 기술에 의존하는 것이 가장 좋습니다.
반면 분위수는 본질적으로 백분위수와 동일합니다. 그러나 "백분위수"라는 용어는 십진수 값을 참조할 때 자주 사용되는 반면 "백분위수"는 정수 값과 연결됩니다. 예를 들어, 15번째 백분위수가 있지만 0.15분위수가 있을 수 있습니다. Quantile의 장점은 필요에 따라 많은 소수 자릿수로 값을 표현하여 더 높은 정밀도를 허용한다는 것입니다.
이제 R로 전환하여 분 단위로 측정된 미국의 Old Faithful 간헐천의 분출 길이 및 대기 시간에 대한 정보가 포함된 "faithful" 데이터 세트를 사용하여 백분위수 및 분위수를 계산하는 방법을 살펴보겠습니다.
R에서 백분위수와 분위수를 계산하기 위해 "quantile" 함수를 사용할 수 있습니다. 두 가지 인수가 필요합니다. 먼저 관심 있는 변수를 지정합니다. 이 경우에는 "faithful$waiting"입니다. 다음으로 원하는 분위수를 십진수로 표시합니다. 예를 들어, 35번째 백분위수(0.35 분위수)를 계산하려면 분위수 인수로 0.35를 씁니다. 명령을 실행하면 이 경우 65와 같은 결과를 얻습니다. 이것은 모든 분출의 약 35%가 대기 시간이 65보다 작거나 같다는 것을 의미합니다.
R에서는 분위수 벡터를 제공하여 여러 분위수를 동시에 계산할 수 있습니다. 예를 들어 "c()" 함수를 사용하여 분위수 0.35, 0.70 및 0.95를 지정할 수 있습니다. 결과는 각 분위수(65, 81, 89)를 포함하는 벡터가 됩니다.
또 다른 유용한 명령은 변수 요약을 제공하는 "summary"입니다. 변수 "faithful$waiting"을 명령에 전달하여 1사분위수(25번째 백분위수), 중앙값(50번째 백분위수), 3사분위수(75번째 백분위수) 및 최소값, 최대값 및 평균값을 얻습니다.
이제 반대 질문을 해보자. 데이터 세트 내에 값이 있고 백분위수를 확인하려는 경우 "ecdf" 명령을 사용할 수 있습니다. "faithful$waiting"과 같은 관심 변수를 지정하고 79와 같은 데이터 세트의 특정 값을 제공하면 명령이 해당 값의 백분위수를 반환합니다. 이 예에서 결과는 0.6617647이며 대기 시간 79가 대략 66번째 백분위수에 해당함을 나타냅니다.
백분위수와 분위수를 이해하면 데이터 세트 내에서 값의 상대적 위치를 평가할 수 있으므로 데이터의 분포와 특성에 대한 귀중한 통찰력을 얻을 수 있습니다.
표본 분산 및 표준 편차
표본 분산 및 표준 편차
오늘은 표본분산과 표준편차의 개념에 대해 알아보도록 하겠습니다. 이 두 측정값은 데이터 세트의 변동성 또는 확산 정도를 이해하는 데 도움이 됩니다. 평균적으로 데이터 세트의 값이 평균에서 얼마나 멀리 떨어져 있는지에 대한 통찰력을 제공합니다.
수식을 살펴보겠습니다. 수식에서 "n"은 총 샘플 크기를 나타내고 "X_i"는 데이터 세트의 값(예: X_1, X_2, X_3 등), "X bar"(X 위에 선이 있음)를 나타냅니다. 표본 평균을 나타냅니다. 일반적으로 R과 같은 기술을 사용하여 이러한 측정값을 계산하지만 특히 이러한 계산을 더 이상 수동으로 수행하지 않기 때문에 기본 개념을 이해하는 것이 중요합니다.
두 측정값의 핵심 구성 요소는 샘플 평균에서 각 값(X_i)의 편차를 나타내는 "X_i 빼기 X 막대"라는 용어입니다. 즉, 각 값이 평균과 양수 또는 음수로 얼마나 다른지 정량화합니다. 이상적으로는 이러한 편차의 평균을 결정하려고 하지만 단순 평균을 취하면 양수 편차와 음수 편차가 서로 상쇄되기 때문에 0이 됩니다. 이 문제를 해결하기 위해 평균을 계산하기 전에 각 편차(X_i 빼기 X bar)를 제곱합니다. 그 결과 평균에서 편차 제곱의 평균을 나타내는 표본 분산에 대한 공식이 생성됩니다.
그러나 분산 공식에서 n 대신 (n-1)로 나누는 것을 눈치채셨을 것입니다. 이에 대한 몇 가지 이유가 있지만 여기에 간단한 이유가 있습니다. 샘플 평균(X bar)을 계산할 때 X_i 값 중 (n-1)만 필요합니다. 이는 X bar가 모든 X_i의 합을 n으로 나눈 값으로 계산되기 때문입니다. 따라서 X 막대가 있으면 X_i 값을 풀 수 있습니다. (n-1)로 나누면 이를 설명하고 모든 n이 아닌 (n-1) 고유 편차의 평균을 계산할 수 있습니다. 이 방법으로 샘플 분산을 의미 있는 변동성 측정값으로 얻습니다.
또 다른 문제는 분산이 원본 데이터와 동일한 척도가 아니므로 추상화된다는 것입니다. 이를 해결하기 위해 샘플 분산의 제곱근을 취하여 샘플 표준 편차에 대한 공식을 생성합니다. 표준 편차는 더 많은 계산이 필요하고 이론적으로 어려울 수 있지만 분산보다 해석하고 시각화하기가 더 쉽습니다. 분산과 표준 편차는 서로 다른 맥락에서 사용됩니다.
값이 4개뿐인 데이터 세트가 있는 예를 살펴보겠습니다. 샘플 분산 및 표준 편차를 계산하기 위해 먼저 4개의 값을 합하고 4로 나누어 평균 121을 얻어 샘플 평균을 계산합니다. 분산 공식을 사용하여 각 값에 대한 편차(X_i 빼기 X bar)를 제곱하고 편차 제곱을 평균하여 3으로 나눕니다(값 수보다 하나 적음). 이것은 220의 분산을 생성합니다. 그러나 이 값은 즉각적인 해석 가능성이 부족합니다. 이를 해결하기 위해 분산의 제곱근을 취하여 표준 편차가 14.8이 됩니다. 이 값은 데이터 세트의 확산을 측정하는 데 더 적합합니다.
기술적으로 R에서 "var" 및 "sd"와 같은 명령을 사용하여 분산 및 표준 편차를 각각 계산할 수 있습니다. 시간을 절약하고 정확한 결과를 제공하므로 이러한 계산에 기술을 활용하는 것이 좋습니다. 대부분의 경우 수동으로 분산 및 표준 편차를 계산할 필요가 없습니다.
또한 대부분의 경우 데이터 값의 약 2/3가 평균의 1 표준 편차 내에 속한다는 점에 유의해야 합니다. 종 모양 분포(정규 분포)의 경우 데이터의 약 68%가 1 표준 편차 내에 있고 약 95%가 2 표준 편차 내에 있으며 거의 모든 데이터(99.7%)가 평균의 3 표준 편차 내에 있습니다. 이것은 경험적 규칙 또는 68-95-99.7 규칙으로 알려져 있습니다.
이를 설명하기 위해 0에서 100 사이의 정수에서 무작위로 선택된 200개의 값으로 구성된 데이터 세트를 고려해 보겠습니다. 이 데이터 세트의 평균은 49.9이고 표준 편차는 27.3입니다. 경험적 규칙을 적용하면 평균보다 1표준편차 위아래로 이동하면 값의 68%, 즉 136개의 값을 캡처합니다. 분포가 종 모양(정규 분포)을 따르는 경우 훨씬 더 정확한 추정을 할 수 있습니다. 이 경우 값의 약 95%(200개 중 190개)는 평균의 2 표준 편차 내에 속하고 거의 모든 값(200개 중 199개)은 평균의 3 표준 편차 내에 속합니다.
경험적 규칙을 사용하여 한 가지 더 예를 들어 결론을 내리겠습니다. 대략적으로 종 모양 분포를 따르는 표준화된 테스트의 점수가 있다고 가정합니다. 평균 점수는 1060이고 표준편차는 195입니다. 경험적 규칙을 적용하면 점수의 약 68%가 865와 1255 사이에 속할 것이라고 추정할 수 있습니다(평균보다 1 표준 편차). 점수의 약 95%는 670에서 1450 사이에 있습니다(평균보다 위와 아래에 2개의 표준 편차). 마지막으로, 점수의 약 99.7%는 475와 1645 범위 내에 있습니다(평균보다 3 표준 편차).
분산과 표준편차를 이해하면 데이터 세트 내의 확산과 변동성을 파악하는 데 도움이 됩니다. 기술은 계산을 용이하게 하지만 데이터를 효과적으로 해석하고 분석하려면 기본 개념을 이해하는 것이 중요합니다. 이러한 측정을 활용하여 귀중한 통찰력을 얻고 데이터의 특성에 따라 정보에 입각한 결정을 내릴 수 있습니다.
Z 점수
Z 점수
안녕하세요 여러분, 오늘 토론에서는 표준 점수라고도 하는 z-점수를 살펴보겠습니다. 이 방법을 사용하면 데이터 세트 내에서 값의 상대적 위치를 측정할 수 있습니다.
z-점수는 값이 평균에서 벗어나는 표준 편차의 수를 나타냅니다. 예를 들어, 평균이 50이고 표준 편차가 8인 데이터 세트가 있는 경우 값 62는 z 점수가 1.5입니다. 이것은 62의 값이 평균보다 1.5 표준편차 높다는 것을 의미합니다.
Z-점수는 특히 종 모양 또는 정규 분포를 따르는 대칭 분포가 있는 데이터 세트에서 상대 위치를 평가하는 데 특히 유용합니다. 그러나 왜곡된 데이터 또는 이상값이 포함된 데이터 세트를 처리할 때 평균 및 표준 편차가 데이터의 중심 및 산포를 정확하게 나타내지 않을 수 있습니다. 결과적으로 이러한 경우 z-점수의 유용성이 감소합니다.
z-점수를 계산하는 공식은 다음과 같습니다. z = (x - μ) / σ, 여기서 x는 데이터 세트의 값, μ는 평균, σ는 표준 편차입니다. 평균은 때때로 x-bar로, 표준편차는 s로 나타내지만 공식은 동일하게 유지됩니다.
Z 점수는 서로 다른 데이터 세트에서 값의 상대적 위치를 비교할 때 특히 유용합니다. 이를 설명하기 위해 예를 들어 보겠습니다. 미국 성인 남성의 평균 키는 69.4인치이며 표준 편차는 3.0인치입니다. 반면 미국 성인 여성의 평균 키는 64.2인치이며 표준 편차는 2.7인치입니다. 이제 키가 64.2인치인 남성과 키가 69.4인치인 여성의 상대적인 희소성을 비교할 수 있습니다.
남자의 z-점수를 계산하기 위해 공식 (64.2 - 69.4) / 3.0을 사용합니다. 결과 z-점수는 -1.73이며, 이는 남자의 키가 남자의 평균 키보다 1.73 표준편차 낮다는 것을 나타냅니다. 여성의 경우 z-점수는 (69.4 - 64.2) / 2.7이므로 z-점수는 1.93입니다. 이것은 여성의 키가 여성의 평균 키보다 1.93 표준편차 높다는 것을 의미합니다. 두 z 점수의 절대값을 비교하면 여성의 평균 키에 비해 여성의 키가 더 특이하다는 결론을 내릴 수 있습니다.
z-점수만으로는 "보통" 값과 "비정상" 값을 명확하게 구분할 수 없다는 점에 유의해야 합니다. 일반적인 관례는 평균에서 2 표준 편차 이상 떨어진 값을 비정상적인 것으로 간주하고 3 표준 편차 이상 떨어진 값을 매우 비정상적인 것으로 간주하는 것입니다. 그러나 이것은 경험에 의한 규칙일 뿐이며 결정은 궁극적으로 상황과 데이터의 특정 분포에 따라 달라집니다.
이것을 증명하기 위해 키가 76인치인 남자의 경우를 생각해 봅시다. 동일한 공식과 남성에 대한 주어진 평균 및 표준 편차를 사용하여 z-점수 2.2를 계산합니다. 이 값은 절대값으로 2보다 크므로 관례에 따라 남성의 키가 비정상적이라고 간주합니다.
경험적 규칙은 대략 종 모양의 분포를 다룰 때 지침을 제공합니다. 값의 약 68%는 평균의 1 표준 편차(z-점수 -1과 1 사이)에 속하고, 약 95%는 2 표준 편차(z-점수 -2와 2 사이)에 속하며, 약 99.7%는 3개 안에 속합니다. 표준 편차(-3과 3 사이의 z-점수).
결론적으로 z-점수는 데이터 세트 내 값의 상대적 위치를 평가하는 유용한 방법을 제공합니다. 이는 서로 다른 데이터 세트의 값을 비교하고 특정 값의 희귀성 또는 특이성을 결정하는 데 특히 유용합니다. 그러나 z-점수를 해석할 때 분포의 모양, 특이치 및 데이터의 컨텍스트를 고려하는 것이 중요합니다.
간단한 예를 들어 결론을 내리겠습니다. 대략적으로 종 모양 분포를 따르는 미국의 성인 여성 키 데이터 세트가 있다고 가정합니다. 평균 높이는 64.2인치이고 표준편차는 2.7인치입니다.
경험적 규칙을 사용하여 특정 비율의 여성이 떨어지는 키 범위를 추정할 수 있습니다. 평균의 1 표준 편차 내에서 여성 키의 약 68%가 발견됩니다. 64.2에서 2.7을 빼면 61.5인치가 되고 2.7을 더하면 66.9인치가 됩니다. 따라서 여성 키의 약 68%가 61.5인치에서 66.9인치 사이에 떨어질 것으로 추정할 수 있습니다.
2개의 표준 편차로 확장하면 여성 키의 약 95%가 이 범위 내에 있음을 알 수 있습니다. 평균에서 2.7을 두 번 빼면 58.8인치가 되고 2.7을 두 번 더하면 69.6인치가 됩니다. 따라서 여성 키의 약 95%는 58.8인치에서 69.6인치 사이로 떨어질 것으로 예상할 수 있습니다.
마지막으로 데이터의 약 99.7%를 포함하는 3개의 표준 편차 내에서 평균에서 2.7을 세 번 빼면 56.1인치가 되고, 2.7을 세 번 더하면 71.7인치가 됩니다. 따라서 여성 키의 약 99.7%가 56.1인치에서 71.7인치 사이에 떨어진다고 추정할 수 있습니다.
z-점수와 그 해석을 이해하면 데이터 세트 내 값의 상대적 위치와 희소성을 평가할 수 있어 통계, 연구, 데이터 분석과 같은 다양한 분야에서 귀중한 통찰력을 제공합니다.
z-점수는 데이터 세트의 평균 및 표준 편차를 고려하여 상대 위치의 표준화된 측정값을 제공합니다. 분포를 이해하고 다양한 데이터 세트의 값을 비교하기 위한 강력한 도구입니다.
이상값에 대한 5개 숫자 요약 및 1.5 x IQR 테스트
이상값에 대한 5개 숫자 요약 및 1.5 x IQR 테스트
여러분, 안녕하세요! 오늘은 이상값에 대한 5개 숫자 요약 및 1.5배 IQR 테스트의 개념에 대해 자세히 살펴보겠습니다. 데이터 세트의 사분위수를 정의하는 것으로 시작하겠습니다. 사분위수는 데이터 세트를 4개의 동일한 부분으로 나누는 값입니다. 첫 번째 사분위수(Q1)는 데이터의 약 25% 위에 있고, 두 번째 사분위수(Q2)는 데이터의 약 절반(중앙값이라고도 함) 위에 있으며, 세 번째 사분위수(Q3)는 데이터의 약 75% 위에 있습니다. 데이터.
데이터 세트가 고르게 나뉘지 않으면 4등분으로 나누는 것이 정확하지 않을 수 있다는 점에 유의해야 합니다. 첫 번째 및 세 번째 사분위수는 중앙값을 먼저 결정하여 찾을 수 있습니다. Q1과 Q3을 찾기 위해 데이터 세트를 상반부와 하반부로 나누고 이 두 절반의 중앙값을 계산합니다. 상반부의 중앙값은 Q3이고 하반부의 중앙값은 Q1입니다.
이를 설명하기 위해 예제를 살펴보겠습니다. 가장 낮은 값에서 가장 높은 값으로 나열된 17개의 값이 있는 다음 데이터 세트를 고려하십시오. 중앙값 또는 Q2는 중간에 있는 값이며, 이 경우에는 9번째 값입니다(17은 홀수 값이므로). 따라서 중앙값은 42입니다. Q1을 찾기 위해 중앙값보다 작은 8개의 값을 고려합니다. 그것들을 정렬하면 16, 18, 20, 22를 찾습니다. 이것은 짝수 값이므로 중간 두 값의 평균을 취하여 18을 얻습니다. 마찬가지로 Q3의 경우 다음보다 큰 8개의 값을 고려합니다. 중앙값은 45, 48, 50 및 55입니다. 다시 두 중간 값의 평균을 취하면 Q3을 52로 얻습니다.
따라서 이 예에서 사분위수는 Q1 = 18, Q2 = 42 및 Q3 = 52입니다. 데이터 세트의 5개 숫자 요약은 이러한 사분위수와 데이터 세트의 최소값 및 최대값으로 구성됩니다. 우리의 경우 5개 숫자 요약은 5, 18, 42, 52 및 93이며, 여기서 5는 최소값을 나타내고 93은 최대값을 나타냅니다.
또 다른 유용한 척도는 데이터 중간 절반의 확산을 정량화하는 사분위간 범위(IQR)입니다. Q3과 Q1의 차이로 계산됩니다. 이 예에서 IQR은 52 - 18 = 34입니다. IQR은 데이터 세트의 중간 50% 내의 값 범위에 초점을 맞추고 극단적인 값의 영향을 덜 받습니다.
이제 다른 예를 살펴보겠습니다. 아래에 나열된 22명의 학생의 시험 점수가 있다고 가정합니다. 다섯 숫자 요약과 IQR을 사용하여 점수 분포를 설명하려고 합니다. 첫째, 극단값의 영향을 받을 수 있으므로 평균을 중심의 척도로 사용하는 데 주의해야 합니다. 이 경우 평균은 75.3이지만 소수의 학생이 예외적으로 낮은 점수를 받았기 때문에 평균이 일반적인 학생 성과를 정확하게 나타내지 못할 수 있습니다. 마찬가지로 최소값과 최대값(각각 2와 100)의 차이인 범위는 극단값으로 인해 오해의 소지가 있을 수 있습니다.
보다 정확한 설명을 얻기 위해 5자리 요약을 계산합니다. 점수를 정렬하면 최소값은 2이고 최대값은 100입니다. 중앙값(Q2)은 중간에 있는 값이며 이 경우에는 80입니다. 데이터 세트의 아래쪽 절반은 다음보다 작은 8개의 값으로 구성됩니다. 중앙값, 76과 83이 두 개의 중간 값입니다. 평균을 취하면 Q1이 79입니다. 마찬가지로 데이터 세트의 상위 절반의 중앙값은 83이므로 Q3은 83입니다.
따라서 이 데이터 세트에 대한 5개 숫자 요약은 2, 79, 80, 83 및 100입니다. 이 요약에서 점수의 중간 절반이 79와 83 사이에 있음을 관찰합니다. 중앙값.
데이터 세트에서 이상값을 식별하기 위해 1.5배 IQR 테스트를 사용할 수 있습니다. 앞서 계산한 IQR은 83 - 79 = 4입니다. IQR에 1.5를 곱하면 6이 됩니다. Q1에서 6을 빼고 Q3에 6을 더하여 값이 이상치로 간주되지 않는 범위를 설정합니다. 이 경우 73 미만 또는 89 초과 값은 이 규칙에 따라 이상값으로 처리해야 합니다.
이 테스트를 데이터 세트에 적용하면 2와 100이 이상치로 간주되어야 함을 알 수 있습니다. 교수로서 시험 곡선을 결정할 때 이러한 극한 점수를 무시하거나 가중치를 줄이는 것이 좋습니다.
5개 숫자 요약, IQR 및 1.5배 IQR 테스트를 활용하여 점수 분포를 더 잘 이해하고 전체 분석에 영향을 미칠 수 있는 잠재적 이상값을 식별할 수 있습니다.
박스플롯
박스플롯
오늘은 박스 플롯(Box Plot)과 위스커 플롯(Box Plot)이라고도 하는 상자 플롯(Box Plot)에 대해 알아보겠습니다. 박스 플롯은 5개 숫자 요약을 기반으로 단일 변수 데이터 세트를 그래픽으로 표현한 것입니다. 더 잘 이해하기 위해 예를 들어 보겠습니다.
5개 숫자 요약과 상자 그림을 구성하려는 데이터 세트가 있다고 가정합니다. 데이터 세트는 34, 42, 48, 51.5, 58입니다. 먼저 숫자를 오름차순으로 정렬하여 최소값(34)과 최대값(58)을 찾습니다. 홀수의 값이 있으므로 중앙값은 중간에 있는 값이며 이 경우에는 48입니다.
다음으로 데이터 세트를 아래쪽 절반과 위쪽 절반의 두 부분으로 나눕니다. 하반부의 중앙값은 42이고 상반부의 중앙값은 51.5입니다. 이러한 값을 각각 제1사분위수(Q1) 및 제3사분위수(Q3)라고 합니다.
5개 숫자 요약을 사용하여 상자 그림을 구성할 수 있습니다. 상자 그림은 Q1과 Q3 사이의 범위를 나타내는 상자로 구성됩니다. 상자의 아래쪽은 Q1에 해당하고 상자의 위쪽은 Q3에 해당하며 상자 내부의 수평선은 중앙값을 나타냅니다. 상자 그림의 "암"은 상자에서 최소값과 최대값(각각 34 및 58)까지 확장됩니다.
박스 플롯의 목적은 데이터 분포를 시각화하는 것입니다. 상자는 데이터 세트의 중간 50%를 나타내고 팔은 나머지 값을 포함합니다. 주어진 예에서는 극단값이 없으므로 상자 그림에 이상값이 표시되지 않습니다.
5개 숫자 요약을 결정하고 1.5배 IQR 테스트를 사용하여 이상값을 테스트하고 상자 그림을 구성하려는 또 다른 예를 고려해 보겠습니다. 데이터 세트는 62, 64, 75, 81.5 및 110입니다.
Q3에서 Q1을 빼서 사분위수 범위(IQR)를 계산하면 17.5입니다. 1.5배 IQR 테스트를 수행하려면 IQR에 1.5를 곱합니다. Q1(64 - 1.5 * 17.5)에서 IQR의 1.5배를 빼면 37.5가 됩니다. Q3(81.5 + 1.5 * 17.5)에 IQR의 1.5배를 더하면 107.75가 됩니다. 37.5 미만 또는 107.75 초과 값은 이상치로 간주되어야 합니다.
이 경우 값 110은 상한을 초과하여 이상값으로 분류됩니다. 상자 그림을 구성할 때 이상값이 아닌 가장 극단적인 값까지만 상자 그림의 팔을 그립니다. 이상치 값 110은 별도의 점으로 표시하였으며, 상완은 90까지만 확장되어 이상치가 아닌 범위 내에서 가장 높은 값을 나타냅니다.
박스 플롯은 하나의 범주형 변수와 하나의 정량적 변수를 플로팅하는 것과 같이 그룹 간 데이터를 비교할 때 특히 유용합니다. 종종 side-by-side 박스 플롯이라고 하는 이러한 유형의 플롯은 서로 다른 그룹을 명확하게 시각적으로 비교할 수 있습니다. 예를 들어 setosa, versicolor 및 virginica의 세 가지 종의 꽃잎 너비를 비교하는 유명한 붓꽃 데이터 세트를 고려할 수 있습니다. 박스 플롯을 검토하면 setosa 종은 일반적으로 다른 두 종에 비해 꽃잎이 더 좁다는 것을 관찰할 수 있습니다. 또한 각 그룹 내에서 꽃잎 폭의 퍼짐 차이를 식별할 수 있습니다.
요약하면, 박스 플롯은 5개의 숫자 요약을 간결하게 시각화하고 다른 그룹 간에 쉽게 비교할 수 있도록 합니다. 데이터 세트의 최소값, 1사분위수(Q1), 중앙값, 3사분위수(Q3) 및 최대값을 표시합니다. 상자는 데이터의 중간 50%를 나타내며 상자의 아래쪽은 Q1에 있고 상자의 위쪽은 Q3에 있습니다. 상자 안의 선은 중앙값을 나타냅니다.
상자 그림에는 1.5배 IQR 테스트로 결정된 범위를 벗어나는 값인 이상값을 표시하는 기능도 있습니다. 이상값을 결정하기 위해 IQR(Q3 - Q1)을 계산하고 1.5를 곱합니다. 그런 다음 Q1에서 IQR의 1.5배를 빼고 IQR의 1.5배를 Q3에 더합니다. 하한보다 낮거나 상한보다 높은 모든 값은 이상치로 간주됩니다.
이상값이 있는 상자 그림을 구성할 때 플롯의 팔은 이상값이 아닌 가장 극단적인 값까지만 확장됩니다. 이상값은 상자 그림의 암 외부에 있는 개별 점으로 표시됩니다. 이렇게 하면 상자 그림이 이상값이 아닌 데이터의 분포를 정확하게 나타내고 오해의 소지가 있는 해석을 방지할 수 있습니다.
상자 그림은 서로 다른 그룹 또는 범주 간에 데이터를 비교할 때 특히 유용합니다. 여러 박스 플롯을 나란히 플로팅하면 분포를 비교하고 분석 중인 변수의 차이를 이해하기가 더 쉬워집니다.
예를 들어 붓꽃 데이터 세트를 사용하여 setosa, versicolor 및 virginica 종의 꽃잎 너비를 비교하기 위해 나란히 상자 그림을 만들 수 있습니다. 이를 통해 종 간 꽃잎 너비의 차이와 각 그룹 내 값의 분포를 시각적으로 관찰할 수 있습니다.
요약하면, 박스 플롯은 5개 숫자 요약의 시각적 요약을 제공하여 데이터 분포를 더 쉽게 이해하고 다른 그룹을 비교할 수 있도록 합니다. 데이터 세트에서 이상값의 중심 경향, 확산 및 존재에 대한 통찰력을 제공하여 데이터 분석 및 시각화에 유용한 도구가 됩니다.
R의 상자 그림
R의 상자 그림
여러분, 안녕하세요! 오늘은 qplot 명령을 사용하여 R에서 아름다운 박스 플롯을 만드는 방법을 배우려고 합니다. R에서 박스 플롯을 생성하는 방법은 여러 가지가 있지만 가장 시각적으로 매력적인 방법은 tidyverse 패키지 제품군의 일부인 ggplot2 패키지에서 제공되는 경우가 많습니다. 그래서 그것에 뛰어 들자!
이전에 이러한 기능을 사용한 적이 없다면 install.packages 명령을 사용하여 컴퓨터에 tidyverse 패키지를 설치해야 합니다. 아직 수행하지 않은 경우 이 단계는 빠릅니다. 일단 설치되면 기능에 액세스하려면 각 세션 시작 시 library(tidyverse) 명령을 사용하여 패키지를 메모리에 로드해야 합니다.
이 자습서에서는 ggplot2 패키지의 qplot 명령 사용에 중점을 둘 것입니다. 이제 상자 그림을 만드는 두 가지 예부터 시작하겠습니다.
먼저 일부 데이터를 수동으로 입력해 보겠습니다. 길이가 21인 "scores"라는 벡터를 만들겠습니다. 이 벡터는 크기가 21인 학급의 수학 시험 점수를 나타낼 수 있습니다.
점수의 박스 플롯을 생성하기 위해 qplot 명령을 사용합니다. 기본 구문은 동일하게 유지됩니다. x 및 y 축에 대한 변수를 지정하고 geom 인수를 사용하여 상자 그림을 원함을 나타냅니다. 이 경우 x축에 점수를 표시합니다.
박스 플롯을 시각적으로 더 매력적으로 만들기 위해 몇 가지 개선 사항을 적용할 수 있습니다. 먼저 y = ""를 사용하여 y축의 의미 없는 숫자를 제거할 수 있습니다. 다음으로 세로 상자 그림을 원하면 점수에 y를 사용하고 x축 레이블을 제거하여 축을 전환할 수 있습니다. color 인수와 채우기 인수를 각각 사용하여 상자의 선과 내부에 색상을 추가할 수도 있습니다. 마지막으로 레이블을 사용자 지정하고 ylab 및 기본 인수를 사용하여 그래프에 제목을 추가할 수 있습니다.
이제 chickweights라는 기본 제공 데이터 세트를 사용하여 두 번째 예를 살펴보겠습니다. 이 데이터 세트에는 서로 다른 병아리의 무게와 제공된 사료라는 두 가지 변수가 있는 71개의 관찰이 포함되어 있습니다. 다양한 사료 유형에 걸쳐 병아리 무게의 분포를 비교하기 위해 나란히 상자 그림을 만들 것입니다.
이전 예와 유사하게 qplot 명령을 사용하고 data = chickweights를 사용하여 데이터 세트를 지정합니다. 그런 다음 y축에 가중치가 있고 x축에 피드가 있는 세로 상자 그림을 원한다고 표시합니다. 피드 유형별로 박스 플롯을 구별하기 위해 채우기 인수를 사용하고 이를 피드 변수에 매핑할 수 있습니다.
다시 한 번, 글꼴 스타일, 레이블 크기 및 포인트 크기를 포함하여 사용자 지정에 사용할 수 있는 다른 많은 옵션이 있습니다. 온라인 검색을 통해 더 자세히 알아볼 수 있습니다.
몇 가지 수정만으로 R에서 전문가 수준의 상자 그림을 만들 수 있습니다. 이 예제는 데이터 시각화를 위한 ggplot2 패키지의 기능과 유연성을 보여줍니다.
확률 실험, 결과, 사건 및 샘플 공간
확률 실험, 결과, 사건 및 샘플 공간
여러분, 안녕하세요! 오늘은 확률의 기초에 대해 알아보겠습니다. 샘플 공간, 결과, 이벤트 등과 같은 주제를 살펴보겠습니다. 무작위 실험이라고도 하는 확률 실험은 결과를 확실하게 예측할 수 없는 실험입니다. 그러나 반복된 시도는 특정한 경향을 드러낼 수 있습니다. 몇 가지 예를 살펴보겠습니다.
마지막 두 예에서 동작은 동일하지만(주사위 2개 굴림) 기록된 데이터가 약간 다릅니다. 따라서 우리는 그것들을 별도의 확률 실험으로 간주합니다. 이제 몇 가지 어휘에 대해 이야기해 봅시다.
확률 실험에서 특정 시도의 결과를 결과라고 합니다. 확률 실험에서 가능한 모든 결과의 집합을 표본 공간(대문자 S로 표시)이라고 합니다. 샘플 공간의 하위 집합을 이벤트라고 합니다.
이를 설명하기 위해 예를 들어 보겠습니다. 두 개의 동전을 던지고 결과를 기록한다고 가정합니다. 표본 공간은 머리-머리, 머리-꼬리, 꼬리-머리 및 꼬리-꼬리의 네 가지 결과로 구성됩니다. 이벤트 E를 "두 플립이 동일하다"로 정의하면 해당 이벤트 내에서 앞면-앞면 및 뒷면-뒷면이라는 두 가지 결과가 발생합니다. 이 이벤트는 샘플 공간의 하위 집합입니다.
일반적으로 이벤트는 확률 실험 중에 발생할 수 있는 것을 나타내지만 발생하는 방법에는 여러 가지가 있을 수 있습니다. 앞의 예에서 "두 플립이 동일합니다" 이벤트는 두 가지 다른 방식으로 발생할 수 있습니다.
이벤트가 한 가지 방식으로만 발생할 수 있는 경우 즉 단일 결과로 구성되는 경우 이를 단순 이벤트라고 합니다. E'로 표시되거나 때때로 E 위에 막대가 있는 이벤트 E의 여집합은 표본 공간에서 E에 없는 모든 결과의 집합입니다. E가 발생하면 E'가 발생하지 않으며 그 반대의 경우도 마찬가지입니다.
예를 들어 스피너를 사용하여 1에서 9까지의 정수를 무작위로 선택한다고 가정합니다. E를 "결과가 소수인" 사건이라고 하자. 표본 공간은 1에서 9까지의 정수이고 E는 10보다 작은 소수 집합 {2, 3, 5, 7}입니다. E의 보수(E')는 E가 발생하지 않는 사건으로, 소수가 아닌 10보다 작은 숫자 {1, 4, 6, 8, 9}로 구성됩니다.
두 사건은 공통된 결과가 없으면 서로소입니다. 즉, 확률 실험의 한 시행에서 두 사건이 동시에 발생할 수 없습니다. 예를 들어, 네 개의 동전을 던지고 결과를 기록하는 것을 고려하십시오. E를 "처음 두 번 던질 때 앞면이 나오는" 사건이라고 하고, F를 "적어도 세 번 뒷면이 나오는" 사건이라고 합니다. 이 두 이벤트는 다음과 같이 나타낼 수 있습니다.
이자형: {HHHH, HHHH...} 에프: {TTTTT, TTTTH, TTTHT, TTTTH...}
세트 E와 F 간에 공유되는 결과가 없다는 점에 유의하십시오. 따라서 이러한 이벤트는 분리됩니다.
사건의 확률을 설명하는 방법에는 여러 가지가 있으며 두 가지 일반적인 접근 방식은 경험적 확률(또는 통계적 확률)과 고전적 확률(또는 이론적 확률)입니다.
경험적 확률은 관찰을 기반으로 합니다. 확률 실험을 여러 번 실행하고 이벤트가 발생한 횟수를 세고 총 시행 횟수로 나눕니다. 과거에 사건이 발생한 횟수의 비율에 해당합니다. 예를 들어, 동전을 100번 던졌는데 앞면이 53번 나왔다면 동전이 나올 확률은 53/100, 즉 53%입니다.
반면에 고전적 확률은 표본 공간의 모든 결과가 동등할 때 적용됩니다. 이벤트의 결과 수를 세고 샘플 공간의 총 결과 수로 나눕니다. 수학적으로는 이벤트 E의 카디널리티(요소 수)를 샘플 공간 S의 카디널리티로 나눈 값으로 표현됩니다. 5를 얻는 간단한 사건 E, 고전적인 확률은 1/6입니다.
다른 예를 살펴보겠습니다. 공정한 동전을 세 번 던지면 HHH, HHT, HTH, HTT, THH, THT, TTH, TTT의 8가지 결과가 똑같이 나옵니다. E를 정확히 두 개의 앞면이 나오는 사건이라고 합시다. 표본 공간 내에서 이벤트 E에는 세 가지 결과(HHH, HHT 및 HTH)가 있습니다. 따라서 이벤트 E의 고전적 확률은 3/8입니다.
이제 한 대형 대학의 통계학 입문 수업의 빈도 분포를 이용한 확률 질문을 살펴보겠습니다. 분포는 각 학급 수준의 학생 수(1학년 67명, 2학년 72명 등)를 보여줍니다. 이 학급에서 무작위로 사람을 뽑는다면 그들이 2학년일 확률은 얼마입니까? 이것은 고전적인 확률 질문입니다.
주어진 빈도 분포에서 총 222개의 결과(학생 수)가 있으며 그 중 72개의 결과가 2학년에 해당합니다. 따라서 무작위로 2학년을 선택할 확률은 72/222, 약 32.4%입니다.
이제 동일한 빈도 분포를 사용하여 약간 다른 질문으로 초점을 이동해 보겠습니다. 과정에 등록하는 다음 사람이 주니어 또는 시니어일 확률은 얼마입니까? 이번에는 향후 등록에 대한 확실성이 없기 때문에 경험적 확률에 관심이 있습니다.
우리는 이미 등록한 학생들에 대한 데이터를 봅니다. 그 중 후배가 29명, 시니어가 54명이다. 경험적 확률을 계산하기 위해 이벤트에 맞는 학생 수(주니어 또는 시니어)를 총 등록 학생 수로 나눕니다. 따라서 확률은 (29 + 54) / 222, 약 37.7%입니다.
우리가 경험적 확률을 다루고 있든 고전적 확률을 다루고 있든 특정한 사실이 사실임을 주목하는 것이 중요합니다. 모든 사건의 확률은 0과 1 사이에 있습니다. 확률이 0인 사건은 불가능하지만 확률이 1인 사건은 확실합니다. 표본 공간이 S로 표시되면 S가 발생할 확률은 항상 1입니다.
서로소 사건 E와 F가 있는 경우(공통 결과가 없음) 이벤트 중 적어도 하나가 발생할 확률은 개별 확률의 합입니다. 그러나 E와 F가 동시에 발생할 확률은 상호 배타적이므로 0입니다.
또한 보완적 사건(가능한 모든 결과를 포함하는 사건)이 있는 경우 확률의 합은 항상 1입니다. 사건 E가 발생하면 보완(E')이 발생하지 않을 확률은 1에서 E가 발생할 확률을 뺀 값입니다.
일상 언어에서 우리는 종종 직감과 개인적인 경험을 바탕으로 비공식적으로 확률을 사용합니다. 이를 주관적 확률이라고 합니다. 그러나 통계에서는 엄격한 계산을 위해 경험적 및 고전적 확률에 의존합니다. 주관적 확률은 수학적 정확성이 부족하며 통계 분석의 초점이 아닙니다.
확률에 대한 추가 규칙
확률에 대한 추가 규칙
안녕하세요 여러분, 오늘 우리는 확률의 덧셈 규칙에 대해 논의할 것입니다. 이 규칙을 통해 사건의 합집합 확률을 계산할 수 있습니다. 규칙의 단순화된 버전부터 시작하겠습니다.
서로소인 두 사건 A와 B가 있다고 가정합니다. 즉, 공통된 결과가 없습니다. 이 경우 두 사건이 발생할 확률은 단순히 개별 확률의 합입니다. 이것은 다음과 같이 작성할 수 있습니다.
P(A ∪ B) = P(A) + P(B)
여기서 A ∪ B는 A 또는 B에 있는 모든 결과의 집합을 나타내며 본질적으로 "A 또는 B"를 의미합니다. 공통된 결과가 없기 때문에 분리된 사건이 둘 다 발생할 수 없다는 점을 기억하는 것이 중요합니다. 때때로 이러한 이벤트는 상호 배타적이라고 합니다.
덧셈 규칙의 이 버전을 설명하기 위해 예를 살펴보겠습니다. 공정한 주사위를 두 번 굴리고 첫 번째 굴림이 6인 이벤트 A와 굴림의 합이 3인 이벤트 B를 정의한다고 가정합니다. 첫 번째 롤이 6이면 합계가 3이 될 수 없기 때문에 이러한 이벤트는 상호 배타적입니다. 이제 A 또는 B의 확률을 계산하려면(첫 번째 롤은 6이거나 합계가 3임) 이러한 이벤트의 개별 확률이 필요합니다.
첫 번째 굴림이 6이 될 확률은 6개의 가능한 결과가 있고 그 중 하나만 6이기 때문에 1/6입니다. 두 번의 주사위 굴림에 대해 총 36개의 가능한 결과가 있고 두 결과의 합이 3(1+2 및 2+1)이라는 점을 고려할 때 굴림의 합이 3일 확률은 2/36입니다. 이 확률을 더하면 총 확률은 2/9입니다.
Larson과 Farber의 교과서 "Elementary Statistics"에서 가져온 또 다른 예를 살펴보겠습니다. 주택 소유자를 대상으로 한 설문 조사에서 집 청소 사이의 시간에 대해 질문했습니다. 결과는 서로 다른 시간 간격을 보여주는 파이 차트로 요약됩니다. 우리는 임의로 선택된 주택 소유자가 청소 사이에 2주 이상 경과할 확률을 찾고자 합니다.
이 경우 파이 차트의 파란색 또는 노란색 세그먼트에서 주택 소유자를 선택할 확률에 관심이 있습니다. 이러한 세그먼트는 상호 배타적이기 때문에(3주마다 또는 4주 이상 집을 청소할 수 없음) 이러한 이벤트의 확률을 추가할 수 있습니다. 3주마다 집을 청소할 확률은 10%이고 4주 이상 청소할 확률은 22%입니다. 이 확률을 더하면 총 확률은 32%가 됩니다.
이제 두 사건 A와 B가 서로소가 아닌 좀 더 일반적인 경우를 생각해 봅시다. 이 시나리오에서는 추가 규칙이 약간 더 복잡해집니다. A 또는 B의 확률은 다음과 같이 지정됩니다.
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
여기서 A ∩ B는 A와 B 모두에 있는 결과를 나타냅니다. A와 B가 겹칠 때 A ∩ B의 결과가 두 번 계산되기 때문에 A ∩ B의 확률을 빼는 것이 중요합니다(A에서 한 번, B에서 한 번). ).
이 버전의 추가 규칙을 설명하기 위해 흡연 습관과 안전 벨트 사용에 대한 설문 조사의 예를 사용하겠습니다. 설문 조사는 242명의 응답자에게 그들의 습관에 대해 물었고, 그 결과를 표로 요약했습니다. 우리는 무작위로 선택된 응답자가 담배를 피우지 않거나 안전벨트를 착용하지 않을 확률을 찾고자 합니다.
담배를 피우지 않는 사건을 A, 안전벨트를 매지 않은 사건을 B라고 하자. 우리는 A 또는 B의 확률(A ∪ B)에 관심이 있습니다. 이를 계산하려면 A, B, A ∩ B의 개별 확률이 필요합니다. 242명 표본에 169명이 담배를 피우지 않기 때문에 비흡연 확률은 242명 중 169명입니다. 안전벨트를 착용하지 않을 확률은 242개 중 114개입니다. 이제 담배를 피우지 않고 안전벨트를 착용하지 않는 개인을 나타내는 A ∩ B의 확률도 필요합니다. 표에서 81명의 개인이 있음을 알 수 있습니다.
분리되지 않은 이벤트에 대한 추가 규칙을 사용하여 다음과 같이 A 또는 B의 확률을 계산할 수 있습니다.
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
값을 대체하면 다음을 얻습니다.
P(A ∪ B) = 169/242 + 114/242 - 81/242
식을 단순화하면 다음과 같습니다.
P(A ∪ B) = 202/242
이제 개별 확률을 추가하여 A 또는 B의 확률을 직접 계산해 보겠습니다. 이 경우 테이블의 각 셀에 있는 이벤트가 상호 배타적이기 때문에 분리된 이벤트에 더하기 규칙을 사용할 수 있습니다. A 또는 B를 나타내는 5개 셀의 확률을 더하면 다음을 얻습니다.
P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (나머지 확률)
덧셈을 수행한 후 다시 202/242의 확률에 도달합니다.
따라서 두 방법 모두 A 또는 B의 동일한 확률인 202/242를 산출합니다.