프로그래밍 자습서 - 페이지 15

 

신뢰구간과 중심극한정리


신뢰구간과 중심극한정리

안녕하세요 여러분, 오늘 우리는 중앙 극한 정리를 적용하고 모집단 평균에 대한 신뢰 구간을 구성할 것입니다. 모집단 평균 mu에 대한 신뢰 구간의 공식은 샘플링되는 모집단이 평균 mu 및 분산 시그마 제곱을 사용하여 완벽하게 정규 분포를 따른다는 가정에 의존합니다. 그러나 많은 경우에 이러한 가정은 합리적이지 않습니다. 예를 들어 폰 뱅크의 평균 통화 길이를 결정할 때 통화 길이 분포가 정상적이지 않을 수 있습니다. 종형 곡선보다는 분포가 치우친 히스토그램을 가질 가능성이 더 큽니다.

그럼에도 불구하고 중앙 극한 정리를 활용하여 모집단 평균 mu에 대한 신뢰 구간을 구성할 수 있습니다. 이 정리에 따르면 표본 크기 n이 충분히 크면(보통 n ≥ 30) 표본 평균의 표본 분포는 모집단 분포의 모양에 관계없이 거의 정규 분포를 따릅니다. 이를 시각화하기 위해 크기 n의 샘플을 반복적으로 취하고 매번 샘플 평균(x bar)을 계산하고 해당 샘플 평균의 히스토그램을 생성한다고 상상해 보십시오. 중앙 한계 정리에 따르면 히스토그램은 모집단 평균을 중심으로 종 모양의 곡선을 나타내며 모집단 분산을 표본 크기로 나눈 값으로 측정됩니다.

샘플 크기 n이 증가함에 따라 이 근사치가 향상된다는 점에 유의하는 것이 중요합니다. 이 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다. 전화 은행 통화의 표준 편차가 시그마 = 1분이고 크기 81의 샘플을 얻는다고 가정합니다. 샘플 평균 분포(x bar)는 평균이 모집단 평균과 같고 표준이 n의 제곱근으로 나눈 시그마의 편차(이 경우 1/√81 ≈ 0.11).

이 정보를 사용하여 모집단 분포가 정상인 것으로 알려진 경우와 유사하게 신뢰 구간을 계산할 수 있습니다. 그러나 이러한 신뢰 구간은 대략적인 것임을 기억해야 합니다. 예를 들어 크기가 81인 샘플이 있고 샘플 평균이 1.1분인 경우 다음 공식을 사용하여 모집단 평균에 대한 95% 신뢰 구간을 구성할 수 있습니다.

mu ≈ x bar ± z star * 시그마 / √n

값(x bar = 1.1, sigma = 1.0, n = 81)을 연결하고 95% 신뢰도(1.960)에 해당하는 임계 z 값(z star)을 사용하면 모집단 평균(mu)이 대략 95% 신뢰도에서 1.1 ± 0.22분.

다른 예를 살펴보겠습니다. 대기업은 전국 소매점에서 수천 명의 사무원을 고용합니다. 크기 35의 표본에서 주당 평균 근무 시간은 23시간이었습니다. 표준 편차(시그마)를 5 시간. 동일한 공식을 사용할 수 있습니다.

mu ≈ x bar ± z star * 시그마 / √n

값(x bar = 23, sigma = 5, n = 35)을 연결하고 90% 신뢰도(1.645)에 해당하는 임계 z 값(z star)을 사용하면 모집단 평균(mu)이 대략 90% 신뢰도에서 23 ± 1.4시간.

요약하면, 모집단 분포가 정확히 정규 분포가 아니더라도 중앙 극한 정리를 사용하여 모집단 평균에 대한 대략적인 신뢰 구간을 구성할 수 있습니다. 이러한 간격은 귀중한 통찰력을 제공하고 통계적 추론을 수행하여 추정치와 관련된 신뢰 수준을 이해하는 데 도움이 됩니다.

Confidence Intervals and the Central Limit Theorem
Confidence Intervals and the Central Limit Theorem
  • 2020.08.11
  • www.youtube.com
The central limit theorem lets us build confidence intervals for the mean even when the shape of the population distribution isn't known. If this vid helps y...
 

신뢰 구간 및 샘플 크기


신뢰 구간 및 샘플 크기

안녕하세요 여러분, 오늘 우리는 신뢰 구간과 표본 크기에 대해 논의할 것입니다. 크기가 "n"이고 표본 평균이 "x 막대"인 단순 임의 표본이 있는 경우 다음 공식을 사용하여 모집단 평균 "mu"에 대한 수준 "c" 신뢰 구간을 구성할 수 있습니다.

mu = x bar ± z star * 시그마 / √n

여기서 "z star"는 신뢰 수준 "c"에 해당하는 임계 z 점수를 나타내고 "sigma"는 모집단 표준 편차입니다. "z star * sigma / √n"이라는 용어는 표본 평균이 실제 모집단 평균 "mu"에서 얼마나 벗어날 수 있는지에 대한 추정치인 오차 한계라고 합니다.

신뢰 구간을 구성하는 이면의 아이디어는 대략적으로 말해서 "mu"가 시간의 백분율 "c" 동안 "x 막대"의 오차 한계 내에 속한다는 것입니다.

이제 실용적인 질문을 고려해 보겠습니다. 오차 한계가 지정된 임계값 "e"보다 크지 않게 하려면 얼마나 큰 샘플이 필요합니까? 이 경우 원하는 오차 한계인 "e", 신뢰 수준인 "c", 모집단 표준 편차인 "시그마"(알고 있다고 가정)를 알고 있습니다. 방정식을 대수적으로 풀어 필요한 샘플 크기 "n"을 찾아야 합니다.

표본 크기를 계산하기 위해 방정식의 양쪽 변에 √n을 곱하고 양쪽 변을 "e"로 나눈 다음 양쪽 변을 제곱하여 다음을 얻습니다.

n = (z 별 * 시그마 / e)^2

"n"의 결과 값이 정수가 아닌 경우("z 별"이 비합리적인 경향이 있기 때문에 자주 발생) 가장 가까운 정수로 반올림합니다. 샘플 크기를 늘리면 오차 범위가 줄어들고 "n"을 반올림하면 잠재적으로 원하는 임계값 "e" 이상으로 오차 한계가 증가할 수 있다는 점에 유의하는 것이 중요합니다.

중요한 z 점수 "z star"는 지정된 신뢰 수준 "c"에 의해 결정됩니다. 이 값은 기술을 사용하거나 표를 참조하여 계산할 수 있습니다. 통계 계산을 위해 테이블을 사용하는 것은 일반적으로 권장되지 않지만 95% 신뢰 수준(az 점수 1.960에 해당)과 같이 일반적으로 사용되는 신뢰 수준의 경우 테이블이 작고 사용하기에 합리적입니다.

예를 들어 보겠습니다. 표준 편차가 1.2파운드인 저울을 사용하여 95% 신뢰도로 통계학자의 체중을 가장 가까운 0.5파운드 단위로 결정하려고 한다고 가정합니다. 통계학자의 무게를 몇 번이나 재야 합니까?

주어진 값을 샘플 크기 공식에 대입하면 필요한 최소 샘플 크기가 23개이며 23개로 반올림됩니다. 95% 신뢰.

예상대로 신뢰 수준을 높이거나 오차 범위를 줄이면 필요한 표본 크기도 증가합니다. 반대로 오차 범위를 늘리면 필요한 표본 크기가 줄어듭니다.

또 다른 예에서 제조업체가 0.2g 이내의 특정 유형의 쇠 못의 평균 무게를 99% 신뢰도로 결정하려고 하고 모집단 표준 편차가 0.5g이라고 가정해 보겠습니다. 샘플 크기 공식을 적용하면 오차 한계가 0.2g 이하인 99% 신뢰 수준을 달성하려면 최소 샘플 크기 42개 손톱이 필요하다는 것을 알 수 있습니다.

신뢰 구간과 표본 크기와의 관계를 이해하면 연구와 실험을 효과적으로 계획할 수 있으므로 원하는 수준의 신뢰도와 정밀도 내에서 추정치가 정확하고 신뢰할 수 있습니다.

Confidence Intervals and Sample Size
Confidence Intervals and Sample Size
  • 2020.08.03
  • www.youtube.com
Choosing the correct sample size to accommodate a required margin of error is easy! Let's see how to do it. If this vid helps you, please help me a tiny bit ...
 

t-분포를 사용한 신뢰구간


t-분포를 사용한 신뢰구간

안녕하세요 여러분, 오늘 세션에서는 t-분포를 사용하여 신뢰구간을 구성할 것입니다. 이전 논의에서 우리는 n의 제곱근에 대해 mu = x bar +/- z-star 시그마와 같다는 공식을 사용하여 샘플 평균 x bar로 모집단 평균 mu를 근사화하고 오차 한계를 계산했습니다. 그러나 이 공식은 모집단 표준편차 시그마를 알고 있다고 가정하지만 그렇지 않은 경우가 많습니다.

이 한계를 극복하기 위해 표본 표준 편차 s를 사용하여 모집단 표준 편차 시그마를 추정할 수 있습니다. t-분포의 신뢰 구간에 대한 공식은 이전 공식과 유사하지만 약간 수정되었습니다. 중요한 z 점수 대신 선택한 신뢰 수준을 기반으로 하는 중요한 t 값을 사용합니다. t-분포는 변수 t의 가변성을 설명하며, 이는 t = x bar - mu over s 나누기 n의 제곱근으로 지정됩니다. t-분포는 표준 정규 분포와 유사하지만 작은 샘플 크기에 대해 약간 더 많은 분포가 있는 대칭 및 종 모양입니다.

신뢰 구간을 구성하려면 t가 음의 t-별과 양의 t-별 사이에 있을 확률이 선택한 신뢰 수준과 같도록 t-별로 표시되는 t의 컷오프 값을 찾아야 합니다. t-star를 결정하면 mu = x bar +/- t-star s over the square root of n이라는 공식을 사용하여 신뢰 구간을 계산할 수 있습니다.

예제를 통해 작업해 봅시다. 연구원 그룹이 캐나다 호수의 나트륨 농도를 조사하려고 합니다. 그들은 23개의 샘플을 수집했고 평균 24.7ppm과 4.2ppm의 샘플 표준 편차를 발견했습니다. 호수의 평균 나트륨 농도에 대해 95% 신뢰 구간을 구성하려고 합니다. 모집단 표준 편차를 모르기 때문에 t-분포를 사용합니다.

값을 입력하면 x bar는 24.7, s는 4.2, n은 23입니다. 임계 t-값을 찾으려면 각 측면에 면적의 2.5%를 남기는 것에 해당하는 t-star 값을 결정해야 합니다. t-분포의. 역 t 계산을 사용하면 t-star가 약 2.074임을 알 수 있습니다.

이제 우리는 신뢰 구간을 구성할 수 있습니다: 24.7 플러스 또는 마이너스 2.074 곱하기 4.2 나누기 23의 제곱근. 이 표현을 단순화하면 24.7 플러스 또는 마이너스 1.8의 신뢰 구간을 얻습니다.

중요한 t-값인 2.074가 동일한 신뢰 수준에 대한 임계 z-점수보다 약간 더 크다는 점은 주목할 가치가 있습니다. 이는 모집단 표준 편차를 추정하고 추가 불확실성을 도입하여 신뢰 구간이 약간 더 넓어지기 때문입니다.

요약하면 모집단 표준편차를 모르고 신뢰구간을 구성할 때 t-분포를 이용하여 표본표준편차로 모집단 표준편차를 추정한다. 프로세스의 나머지 부분은 알려진 표준 편차를 사용하여 신뢰 구간을 구성하는 것과 유사하지만 중요한 z 점수 대신 중요한 t 값을 사용합니다.

Confidence Intervals Using the t-Distribution
Confidence Intervals Using the t-Distribution
  • 2020.08.15
  • www.youtube.com
How do we construct confidence intervals when the population standard deviation is unknown? Easy! We use the t-distribution. If this vid helps you, please he...
 

R을 사용하여 t-분포에서 계산하기


R을 사용하여 t-분포에서 계산하기

안녕하세요 여러분, 오늘 우리는 R의 t-분포를 사용하여 몇 가지 계산을 수행할 것입니다. 세 가지 문제를 단계별로 살펴보겠습니다. 바로 다이빙하자!

먼저 누적 분포 함수(CDF)를 사용하여 t-분포의 확률을 계산하는 방법에 대해 이야기해 보겠습니다. CDF는 0.44와 같은 특정 t-값을 연결하여 해당 값보다 작거나 같은 t-점수를 무작위로 얻을 확률을 제공합니다. 시각적으로 이것은 t-분포가 종 모양의 패턴을 나타내므로 종 곡선 그래프에 해당합니다.

확률을 찾기 위해 관심 있는 t-점수(0.44)에 레이블을 지정하고 해당 점수의 왼쪽 영역을 음영 처리합니다. 이 음영 영역은 우리가 찾고 있는 확률을 나타냅니다. 테이블에 의존하는 대신 t-분포 계산에 R을 사용할 것을 강력히 권장합니다. 까다롭고 덜 정확할 수 있기 때문입니다. R에서 t-분포의 CDF에 해당하는 명령은 pt이며 여기에는 t-값(0.44)과 자유도 수(26)라는 두 개의 인수가 필요합니다.

R로 전환하고 pt 명령(pt(0.44, 26))을 실행해 봅시다. 결과는 약 0.668이며, 이 t-분포에서 무작위로 0.44 이하의 t-점수를 얻을 확률이 약 66.8%임을 나타냅니다.

이제 2번 문제로 넘어갑시다. 우리는 자유도가 19인 t-분포에서 t가 -0.8에서 0.5 사이일 확률을 찾고자 합니다. 이를 해결하기 위해 t = 0.5의 왼쪽 면적을 계산하고 t = -0.8의 왼쪽 면적을 뺍니다. pt(0.5, 19) - pt(-0.8, 19) 사이에 빼기가 포함된 두 개의 pt 명령을 사용하여 이를 달성할 수 있습니다. 결과는 약 0.472로 자유도가 19인 t-분포에서 -0.8과 0.5 사이의 t-점수를 임의로 얻을 확률이 약 47.2%임을 나타냅니다.

세 번째 문제로 이동하면 자유도가 50인 t-분포에서 t-score보다 작거나 같은 t-점수를 얻을 확률이 0.3이 되도록 값(tau)을 찾아야 합니다. 여기에는 역 CDF 계산이 포함됩니다. R에서 qt 함수를 사용하여 확률(0.3)과 자유도(50)를 제공할 수 있습니다. qt 명령을 실행해 봅시다: qt(0.3, 50). 결과는 약 -0.5277입니다. 모든 t-분포에서 벨 곡선의 중심이 t = 0에 있기 때문에 음수를 얻는 것이 합리적이라는 점에 유의하는 것이 중요합니다.

이러한 계산은 수동으로 수행할 수 있지만 R은 프로세스를 단순화하기 위해 편리한 함수(pt 및 qt)를 제공합니다. 이러한 기능을 활용하면 시간을 절약하고 정확성을 보장할 수 있습니다.

Using R to Calculate in the t-Distribution
Using R to Calculate in the t-Distribution
  • 2020.08.15
  • www.youtube.com
R is a fantastic way to do computations in the t-distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rsta...
 

R의 신뢰 구간


R의 신뢰 구간

안녕하세요 여러분, 오늘 우리는 R의 신뢰구간으로 작업할 것입니다. 이는 요약 통계 대신 실제 데이터 세트가 있을 때 특히 유용합니다. 이 예에서는 CO2 데이터 세트를 살펴보고 "흡수" 변수에 초점을 맞춥니다.

이전에는 샘플 평균(x-bar) 및 샘플 표준 편차(s)를 사용하여 신뢰 구간을 계산했지만 이제 "t.test" 명령을 사용하여 지름길을 배웁니다. 관심 있는 변수(이 경우 CO2 데이터 세트에서 "흡수")를 제공하면 명령이 95% 신뢰 수준으로 기본 설정됩니다.

t-test 명령은 몇 가지 정보를 제공하며 그 중 일부는 나중에 가설 테스트를 논의할 때 더 관련성이 높아집니다. 현재 주목해야 할 주요 세부 사항은 95% 신뢰 구간과 점 추정치입니다. 신뢰 구간은 모집단 평균을 추정할 수 있는 값의 범위를 나타냅니다. 점 추정치는 모집단 평균에 대한 단일 값 추정치 역할을 하는 표본 평균입니다.

t-검정 출력에는 표본 크기보다 하나 작은 자유도도 포함됩니다. p-값 및 대체 가설과 같은 기타 정보는 유의성 테스트에 대한 향후 비디오에서 논의될 것입니다.

t-test 출력이 오차 한계를 직접 제공하지는 않지만 수동으로 계산할 수 있습니다. t-신뢰 구간의 오차 범위는 다음 공식을 따릅니다. T* * (s / sqrt(n)), 여기서 s는 샘플 표준 편차, n은 샘플 크기, T*는 다음에 대한 임계 t-값입니다. 원하는 신뢰 수준.

T*를 찾기 위해 "qt" 함수를 사용하고 T*의 왼쪽 영역을 지정합니다. 95% 신뢰 구간의 경우 T* 왼쪽 영역의 97.5%를 원합니다. 따라서 T*를 "qt(0.975, 83)"로 계산합니다. T*에 샘플 표준 편차를 곱하고 샘플 크기의 제곱근으로 나누면 오차 한계가 산출됩니다.

또는 R의 "t.test" 함수를 사용하여 신뢰 구간을 자동으로 계산할 수 있습니다. 신뢰 수준을 변경하려면 "conf.level=" 인수를 추가하고 원하는 백분율을 지정합니다. 예를 들어 "conf.level = 90"을 설정하면 90% 신뢰 구간을 얻을 수 있습니다.

신뢰 수준을 낮추면 신뢰 구간이 좁아집니다. 간격의 상한이 감소하여 추정의 정밀도가 더 높다는 것을 나타냅니다.

요약하면 신뢰 구간은 모집단 평균을 추정하는 값의 범위를 제공합니다. R은 계산을 단순화하고 정확한 결과를 얻기 위해 "t.test" 및 "qt"와 같은 편리한 기능을 제공합니다.

Confidence Intervals in R
Confidence Intervals in R
  • 2020.03.27
  • www.youtube.com
Quick t-distribution confidence intervals in R. So easy! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy...
 

비율에 대한 신뢰 구간


비율에 대한 신뢰 구간

안녕하세요 여러분, 오늘 우리는 비율에 대한 신뢰구간을 구성할 것입니다. 종종 우리는 앞면 또는 뒷면, 예 또는 아니오 또는 참 및 거짓과 같은 두 가지 가능한 결과가 있는 무작위 프로세스를 접하게 됩니다. 샘플 데이터를 기반으로 이러한 결과의 확률에 대한 결론을 도출하고자 합니다.

이러한 결과를 분석하기 위해 하나의 결과를 성공으로 지정하고 1로 인코딩하고 다른 결과는 실패로 0으로 인코딩합니다. "성공"과 "실패"라는 용어는 임의적이며 결과에 대한 가치 판단을 암시하지 않는다는 점에 유의하는 것이 중요합니다.

이 방법으로 변수를 인코딩하여 X라고 하는 불연속 임의 변수를 만듭니다. X는 확률 p와 (1 - p)로 각각 1과 0의 두 값을 가질 수 있습니다. 여기서 p는 성공 확률을 나타냅니다.

이러한 유형의 임의 변수에 대해 요약 정보를 계산할 수 있습니다. 평균 또는 예상 값은 각각의 확률로 가중된 랜덤 변수의 모든 가능한 값의 합계입니다. Bernoulli 시행의 경우 평균은 p와 같습니다.

랜덤 변수의 표준 편차는 개별 값과 예상 값 사이의 차이의 제곱합의 제곱근이며 각 확률에 따라 가중치가 적용됩니다. Bernoulli 시행의 경우 표준 편차는 (p * (1 - p))의 제곱근으로 지정됩니다.

이제 p가 시행 간에 일정하게 유지되는 n개의 동일하고 독립적인 Bernoulli 시행을 실행하는 것을 고려해 봅시다. 이러한 시도에서 성공의 비율은 p-hat으로 표시되며 이는 (1/n) * sum(xi)와 같습니다. 여기서 xi는 성공의 경우 1이고 실패의 경우 0입니다. 즉, p-hat은 n번의 시행에서 성공한 비율입니다.

p-hat은 표본 평균일 뿐이므로 표본 평균에 대한 지식을 p-hat에 적용할 수 있습니다. p-hat의 평균은 개별 Bernoulli 시행의 평균과 동일한 p와 같습니다. p-hat의 표준 편차는 n의 제곱근으로 나눈 단일 베르누이 시행의 표준 편차인 ((p * (1 - p)) / n)의 제곱근과 같습니다. 중심 극한 정리에 의해 p-hat의 샘플링 분포는 n이 클 때, 일반적으로 30 이상일 때 거의 정상입니다.

이제 신뢰 구간에 대해 알아보겠습니다. 평균의 경우 신뢰 구간의 기본 구조는 mu = x-bar +/- z-star * sigma-sub-x-bar입니다. 마찬가지로 비율의 경우 신뢰 구간 공식은 p = p-hat +/- z-star * sqrt((p-hat * (1 - p-hat)) / n)입니다.

비율 공식에서 p-hat은 샘플에서 성공의 실험적 비율을 나타내고 p는 우리가 추정하려는 전체 성공 확률입니다. 오차 한계는 p-hat이 0 또는 1에 가까울 때 감소하므로 이러한 경우에는 이 신뢰 구간을 사용하지 않는 것이 좋습니다.

주어진 오차 범위(e)에 대해 필요한 샘플 크기를 결정하기 위해 공식 n = (p-hat * (1 - p-hat) * z-star^2) / epsilon^2를 사용합니다. 예비 데이터가 없는 경우 가장 보수적인 추정치인 p-hat = 0.5를 사용하여 가능한 가장 큰 표본 크기를 얻을 수 있습니다. 이 경우 공식은 n = (z-star^2) / (4 * epsilon^2)가 됩니다.

예를 들어 보겠습니다. 95% 신뢰도로 설문 조사를 수행하고 오차 범위가 3%를 넘지 않아야 한다고 가정합니다. 예비 데이터가 없으므로 보수적인 추정치 p-hat = 0.5를 사용합니다. z-star = 1.96 및 epsilon = 0.03 값을 공식에 대입하면 다음과 같은 결과를 얻습니다.

n = (1.96^2) / (4 * 0.03^2) ≈ 1067.1

샘플 크기는 정수여야 하므로 오차 한계가 3%를 초과하지 않도록 값을 반올림합니다. 따라서 이 설문조사에는 1068개의 표본 크기가 필요합니다.

요약하면 비율에 대한 신뢰 구간을 구성하려면 성공 및 실패 값 할당, 표본 평균 및 표준 편차 계산, 신뢰 구간 결정을 위한 적절한 공식 사용이 포함됩니다. 이러한 간격을 사용하기 위한 조건을 고려하고 원하는 오차 한계에 따라 샘플 크기를 조정하는 것이 중요합니다.

Confidence Intervals for Proportions
Confidence Intervals for Proportions
  • 2020.10.11
  • www.youtube.com
How can we estimate a population proportion using only a sample proportion? Using a confidence interval, of course! If this vid helps you, please help me a t...
 

비율에 대한 신뢰 구간: 예


비율에 대한 신뢰 구간: 예

오늘 우리는 비율에 대한 신뢰 구간을 구성하는 것과 관련된 두 가지 예제 문제에 대해 작업할 것입니다. 문제를 살펴보겠습니다.

문제 1: 무작위로 선택된 275명의 미국 성인을 대상으로 한 설문 조사에서 29명이 커피를 마시는 것으로 나타났습니다. 커피를 마시는 모든 미국 성인의 비율에 대해 90% 신뢰 구간을 구성해야 합니다.

비율에 대한 신뢰 구간 공식 사용: p = p^ ± z √(p^(1 - p^)/n), 여기서 p^는 표본 비율, n은 표본 크기, z는 다음에 해당하는 임계 z-값입니다. 원하는 신뢰 수준.

p^ = 29/275 = 0.1055, n = 275 및 z* = 1.645(90% 신뢰 수준의 경우)가 주어지면 다음 값을 연결할 수 있습니다.

p = 0.1055 ± 1.645 * √((0.1055 * (1 - 0.1055))/275)

이 식을 계산하면 커피를 마시는 미국 성인의 비율에 대한 신뢰 구간이 약 0.1055 ± 0.045임을 알 수 있습니다. 따라서 실제 비율이 구간(0.0605, 0.1505) 내에 속한다고 90% 신뢰도로 추정할 수 있습니다.

문제 2: 한 연구원이 미국에서 차를 마시는 방법을 연구하고 싶고 4% 이하의 오차 한계를 보장하는 데 필요한 표본 크기를 결정해야 합니다.

비율에 대한 신뢰 구간의 오차 한계에 대한 공식: e = z*√(p^(1 - p^)/n)을 사용하여 샘플 크기를 해결하기 위해 이를 재정렬할 수 있습니다.

n = (z*^2 * p^(1 - p^)) / e^2.

이 경우 예비 데이터가 없으므로 p^에 대해 가장 보수적인 추정치인 0.5(최대 변동성을 나타냄)를 사용합니다. z* = 1.645(90% 신뢰 수준) 및 e = 0.04가 주어지면 다음 값을 공식으로 대체할 수 있습니다.

n = (1.645^2 * 0.5(1 - 0.5)) / 0.04^2

식을 단순화하면 필요한 최소 샘플 크기가 약 257.03임을 알 수 있습니다. 샘플 크기는 정수여야 하므로 원하는 오차 범위를 초과하지 않도록 반올림합니다. 따라서 4% 이하의 오차 범위를 보장하려면 표본 크기가 258개 필요합니다.

요약하면 비율에 대한 신뢰 구간을 구성하려면 표본 비율, 표본 크기 및 임계값을 포함하는 공식을 사용합니다. 이러한 공식을 적용하여 지정된 신뢰 수준 내에서 모집단 비율을 추정하고 원하는 오차 한계를 달성하는 데 필요한 샘플 크기를 결정할 수 있습니다.

Confidence Intervals for Proportions: Examples
Confidence Intervals for Proportions: Examples
  • 2020.10.12
  • www.youtube.com
Constructing a confidence interval for a population proportion using sample data, and planning the sample size of a study. Awesome! If this vid helps you, pl...
 

가설 검정 소개


가설 검정 소개

안녕하세요 여러분, 오늘 세션에서는 유의성 테스트라고도 하는 가설 테스트에 대해 자세히 살펴보겠습니다. 개념을 더 잘 이해하기 위해 예제를 함께 살펴보겠습니다. 의 시작하자.

초콜릿 제조업체가 초콜릿 바의 무게가 평균 350그램이라고 주장한다고 가정해 보겠습니다. 그러나 나는 그들의 주장이 과장된 것이며 그들의 초콜릿 바의 실제 평균 무게는 350g 미만이라고 생각합니다. 이를 조사하기 위해 10개의 초콜릿 바 샘플을 수집하고 무게를 기록합니다. 표본 평균이 350그램 미만이면 회사의 주장에 반하는 증거가 됩니다. 350g 이상이면 주장에 이의를 제기하지 않습니다.

샘플의 평균 무게가 347g으로 350g 미만이라고 가정해 보겠습니다. 결과적으로 이 결과는 저의 의심을 뒷받침하고 회사의 주장에 도전합니다. 그러나 회사는 내 샘플이 임의로 가벼운 것이었을 수 있으며 다른 샘플을 수집하면 임의의 기회로 인해 정확히 350g 이상을 얻을 수 있다고 주장할 수 있습니다. 따라서 회사가 거짓말을 하거나 우연에 의한 결과라는 두 가지 가능성 중 하나를 결정할 수 있는 방법이 필요합니다.

그런 상황에서 우리가 할 수 있는 최선은 회사의 주장에 대해 개연성 진술을 하는 것입니다. 우리는 회사가 진실을 말하고 있는 경우 순전히 우연히 관찰한 것만큼 낮은 표본 평균을 얻을 확률을 결정하려고 합니다. 확률이 낮을수록 회사의 주장에 반하는 더 강력한 증거를 나타냅니다.

수학적으로 진행하기 위해 회사의 주장과 일치하는 H0으로 표시되는 귀무 가설을 가정해 보겠습니다. 이 경우 귀무 가설은 모든 초콜릿 바의 모집단 평균이 정확히 350g이라는 것입니다. 다른 한편으로, 우리는 우리가 설정하려는 것을 나타내는 Ha로 표시된 대립 가설을 가지고 있습니다. 이 경우 Ha는 모든 초콜릿 바의 평균 무게가 350g 미만이라고 주장합니다(Ha: μ < 350).

H0와 Ha는 표본 평균(x-bar)이 아니라 모집단 매개변수를 참조한다는 점에 유의해야 합니다. H0와 Ha 사이에서 결정을 내리는 데 x-bar를 사용할 것이기 때문에 아직 x-bar를 언급하지 않았습니다.

확률을 계산하려면 x-bar의 샘플링 분포를 고려해야 합니다. 귀무가설이 참이라고 가정하고 크기 10의 여러 표본을 얻는 것을 상상합니다. x-bar의 분포는 어떻게 생겼습니까? 개별 초콜릿 바의 무게는 다를 수 있지만 평균 무게(x-bar)는 평균적으로 모집단 평균(μ)과 일치합니다.

중심 극한 정리는 샘플링 분포를 이해하는 데 도움이 됩니다. 충분히 큰 샘플 크기(종종 n > 30)의 경우 x-bar의 샘플링 분포는 평균이 μ이고 표준 편차가 σ/√n인 정규 분포에 가깝습니다. 모집단 분포 자체가 정규이면 근사치가 정확하고 x-bar의 분포가 정확히 정규입니다.

귀무 가설 하에서 평균 무게가 350g인 개별 초콜릿 바를 나타내는 파란색 곡선을 상상해 보십시오. 일부 막대는 약간 무겁거나 가벼울 수 있으며 일부 막대는 크게 벗어날 수 있습니다. 이제 x-바의 샘플링 분포를 나타내는 녹색 곡선을 시각화합니다. 평균적으로 x-bar는 귀무 가설이 참인 경우 약간의 차이는 있지만 350g이 됩니다. 그러나 극단적인 가중치는 샘플에서 서로 균형을 맞추는 경향이 있기 때문에 x-bar의 변동성은 개별 막대에 비해 적습니다.

우리가 초콜릿 바의 표준 편차인 4그램을 알고 있다고 가정해 봅시다. 이것이 우리가 일반적으로 알고 있는 값이 아닐 수도 있지만 향후 비디오에서 다룰 것입니다. μ = 350그램이라는 귀무가설과 중심 극한 정리를 사용하면 x-bar의 샘플링 분포에 대한 모든 필요한 정보를 얻을 수 있습니다. 평균이 350g이고 표준 편차가 4g인 정규 분포를 제곱근 10(샘플 크기가 10이므로)으로 나눈 값이 약 1.26g인 정규 분포를 따릅니다.

순전히 무작위로 347그램 이하의 샘플 평균(x-bar)을 얻을 확률을 계산하기 위해 z-점수를 계산할 수 있습니다. x-바가 347g 이하일 확률은 해당 z-점수가 (347 - 350) / 1.26 이하일 확률과 같으며, 이는 -2.37로 단순화됩니다.

통계 소프트웨어나 표를 사용하여 표준 정규 분포가 -2.37보다 작거나 같을 확률이 약 0.0089라는 것을 알 수 있습니다. 이 확률을 p-값이라고 합니다.

이제 p-값의 해석에 대해 논의해 보겠습니다. 이 경우 p-값 0.0089는 상대적으로 작습니다. p-값은 귀무 가설(μ = 350그램)이 참인 경우 347그램 이하의 표본 평균을 얻을 확률을 나타냅니다. 작은 p-값은 귀무 가설이 참인 경우 그렇게 낮은 표본 평균을 관찰할 가능성이 없음을 나타냅니다.

고려해야 할 두 가지 가능성이 있습니다. 첫째, 귀무 가설이 참일 가능성이 있으며, 약 0.0089번 발생하는 드문 이벤트(샘플 평균 347g 이하)를 우연히 관찰했습니다. 둘째, 귀무가설이 거짓이고(처음에 의심했던 것처럼) 대립가설(μ < 350그램)이 참일 가능성이 있습니다.

0.0089의 p-값이 매우 낮기 때문에 첫 번째 가능성은 희박해 보입니다. 따라서 귀무가설(H0: μ = 350g)을 기각하고 대립가설(Ha: μ < 350g)을 지지합니다. 이것은 우리가 이 회사에서 생산한 초콜릿 바의 모집단 평균 무게가 실제로 350그램 미만임을 시사하는 강력한 증거가 있다는 결론을 내리게 합니다.

마지막으로 가설 검정을 수행하는 기본 단계를 다루었습니다. 그러나 충분히 작은 p-값에 대한 임계값 결정, 대체 가설 고려, 모집단 매개변수를 알 수 없는 상황 처리와 같이 아직 다루지 않은 추가 질문이 있습니다. 향후 비디오에서는 이러한 질문을 살펴보고 가설 테스트에 대한 추가 정보를 제공할 것입니다.

Introduction to Hypothesis Testing
Introduction to Hypothesis Testing
  • 2020.10.29
  • www.youtube.com
Let's talk about hypothesis testing (also known as significance testing). How can we test a claim about a population using just sample data? What is a p-valu...
 

통계 학적으로 유의


통계 학적으로 유의

좋은 하루 되세요! 오늘은 가설 검정의 개념에 대해 자세히 알아보고 통계적 유의성에 대해 논의합니다. 가설 검정은 다양한 형태로 제공되며 가장 일반적인 형태는 모집단 평균에 대한 z-검정 및 t-검정입니다. 그럼에도 불구하고 근본적인 논리는 동일하게 유지됩니다.

먼저 귀무가설이 참이라고 가정합니다. 그런 다음 데이터 샘플을 수집하고 귀무 가설이 맞다고 가정하고 순전히 무작위로 유사한 샘플을 얻을 확률을 계산합니다. 이 확률을 검정의 p-값이라고 합니다. p-값이 낮을수록 귀무 가설에 반하는 더 강력한 증거를 나타냅니다.

그러나 대부분의 경우 단순히 p-값을 비교하는 것만으로는 결정적인 결정을 내리기에 충분하지 않을 수 있습니다. 따라서 가설 테스트를 수행하기 전에 유의 수준 알파로 알려진 미리 결정된 컷오프 p-값을 설정하는 것이 종종 도움이 됩니다. 일반적으로 알파는 다를 수 있지만 0.05로 설정됩니다.

알파보다 작은 p-값을 기반으로 귀무 가설을 기각하면 결과가 통계적으로 유의한 것으로 간주됩니다. 즉, 증거는 대립 가설을 뒷받침합니다. 이제 이러한 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다.

예 1: 초콜릿 제조업체는 초콜릿 바의 평균 무게가 350g이라고 주장합니다. 그러나 실제 평균 체중은 더 낮을 것으로 의심됩니다. 회사의 주장이 사실이라는 귀무가설과 평균 무게가 350g 미만이라는 대립가설을 세워 유의성 검정을 설정했습니다. 알파의 유의 수준이 0.05인 것을 사용하기로 미리 결정합니다.

크기 10의 샘플을 수집하고 샘플 평균 347g을 계산한 후 귀무 가설이 참이라고 가정하고 이렇게 극단적인 결과를 얻을 확률을 결정합니다. 결과적으로 p-값은 0.0089입니다. 이 p-값이 0.05 미만이므로 귀무 가설을 기각하고 회사 초콜릿 바의 평균 무게가 실제로 350g 미만이라는 결론을 내립니다.

예 2: 의료 연구원은 새로운 체중 감량 약물의 효과를 테스트하기 위한 연구를 수행합니다. 그들은 0.01과 같은 알파의 유의 수준을 선택합니다. 귀무 가설은 위약과 비교하여 평균 체중 감소가 0이라는 것을 나타내는 반면, 대립 가설은 양의 평균 체중 감소를 제안합니다. 데이터를 분석한 후 p-값 0.045를 얻었습니다. p-값이 선택한 유의 수준인 0.01보다 크므로 귀무 가설을 기각할 수 없습니다. 따라서 치료가 평균적으로 위약보다 우월하다는 결론을 내리기에는 근거가 불충분합니다.

대신 알파가 0.05인 유의 수준을 선택했다면 결론이 달라졌을 수 있다는 점에 유의해야 합니다. 이는 유의성 테스트의 잠재적 함정과 알파 임계값 사용을 강조합니다. 의사 결정을 위해 맹목적으로 가설 테스트에 의존하는 것은 위험할 수 있습니다. 유의 수준 알파를 기반으로 한 모든 결정과 함께 항상 p-값을 보고합니다. 또한 p-값을 해석할 때 주의를 기울이고 다음 비디오에서 논의할 다양한 요인을 고려하십시오.

Statistical Significance
Statistical Significance
  • 2020.10.30
  • www.youtube.com
Let's talk about statistical significance! What's up with alpha anyway?? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For ...
 

가설 테스트: 단측 및 양면 대안


가설 테스트: 단측 및 양면 대안

오늘 토론에서는 가설 검정의 개념, 특히 단측 및 양측 대립 가설에 중점을 두고 더 깊이 파고들 것입니다. 평균에 대한 가설 검정의 기본 구조를 다시 살펴보는 것으로 시작하겠습니다.

첫 번째 단계는 H₀로 표시되는 귀무가설을 식별하는 것입니다. 이 진술은 모집단 평균과 관련이 있으며 우리가 반대하는 증거를 수집하려는 주장을 나타냅니다. 그런 다음 귀무 가설과 모순되고 일반적으로 우리가 설정하려는 가설을 나타내는 Hₐ로 표시된 대체 가설을 설정합니다. 이 프로세스의 배후에 있는 개념은 귀무가설에 대한 증거를 축적함으로써 간접적으로 대립가설을 지지하는 증거를 축적한다는 것입니다.

그런 다음 데이터를 수집하고 x̄로 표시되는 샘플 평균을 계산합니다. 여기에서 귀무 가설이 참이라고 가정하고 관찰한 것만큼 극단적인 표본 평균을 얻을 확률(p-값)을 결정합니다. p-값은 귀무가설에 대한 증거의 강도를 의미하며, 값이 낮을수록 대립가설을 지지하는 더 강력한 증거를 나타냅니다. 종종 우리는 p-값을 검정의 유의 수준을 나타내는 알파라고 하는 미리 결정된 컷오프와 비교하여 가설 검정을 결론짓습니다. p-값이 알파보다 작으면 귀무 가설을 기각합니다. 데이터 수집 전에 유의 수준 알파를 선택해야 한다는 점에 유의해야 합니다.

이제 대체 가설을 더 자세히 살펴보겠습니다. 이전 논의에서 귀무가설과 모순되는 대립가설이 선택되었다고 언급했습니다. mu가 mu₀과 같다는 단순 귀무가설(mu₀이 가정된 값을 나타냄)의 경우에도 세 가지 가능한 대체 가설이 있습니다.

  1. mu < mu₀: 이 대립 가설은 모집단 평균 mu가 가설 값 mu₀보다 작다고 주장합니다.
  2. mu > mu₀: 이 대립 가설은 모집단 평균 mu가 가설 값 mu₀보다 크다는 것을 시사합니다.
  3. mu ≠ mu₀: 이 대립 가설은 mu의 특정 값에 대해 가정하지 않습니다.

처음 두 대립 가설은 특정 방향에 초점을 두기 때문에 단측 대립 가설이라고 하며 세 번째 대립 가설은 양측 대립 가설이라고 합니다. 이러한 각각의 대안은 약간 다른 방식으로 귀무 가설과 모순됩니다.

평균에 대한 가설 검정을 수행할 때 이러한 옵션 간의 선택은 실제 고려 사항에 따라 다릅니다. 일반적인 지침으로 실제 요인에 근거한 특별한 이유가 없는 한 모집단 평균이 모평균이 제공한 값보다 크거나 작아서는 안 된다고 가정하는 경우가 아니면 양측 대립 가설을 선택하는 것이 좋습니다. 귀무 가설, mu₀.

이해를 돕기 위해 몇 가지 예를 살펴보겠습니다. 첫 번째 예는 초콜릿 바의 평균 무게가 350그램이라고 주장하는 사탕 회사와 관련이 있습니다. 평균 무게가 실제로 더 작다고 의심되는 경우 귀무 가설은 회사의 주장이 되고 대립 가설은 mu < 350g이 됩니다. 이 경우 초콜릿 바의 평균 무게가 350g 미만일 가능성에만 관심이 있습니다.

두 번째 예에서 교육 매뉴얼은 특정 운동에 평균 30분이 소요된다고 주장합니다. 귀무가설은 매뉴얼의 주장인 mu = 30이 될 것이고 대립가설은 mu ≠ 30이 될 것입니다. 여기서 mu가 30보다 작거나 클 가능성을 배제하거나 무시할 정당한 이유가 없습니다.

세 번째 예에서 오일 교환 업체는 평균적으로 오일 교환을 15분 안에 완료한다고 주장합니다. 실제 시간이 더 길다고 의심한다고 가정합니다.

p-값이 유의 수준(알파)보다 작거나 같으면 귀무 가설을 기각합니다. 이는 데이터가 귀무가설에 반대하는 강력한 증거를 제공하고 대립가설을 뒷받침한다는 것을 의미합니다. 반면에 p-값이 유의 수준보다 크면 귀무 가설을 기각할 수 없습니다. 이 경우 데이터는 귀무가설을 기각할 충분한 증거를 제공하지 않으며 대립가설에 대한 충분한 뒷받침이 없습니다.

귀무가설을 기각하지 못했다고 해서 반드시 귀무가설이 참이라는 의미는 아닙니다. 이는 단순히 데이터가 대체 가설을 뒷받침하는 중요한 증거를 제공하지 않는다는 것을 의미합니다. 귀무가설에 반하는 증거가 없다고 해서 귀무가설의 진실이 입증되지는 않습니다.

단측 또는 양측 대립 가설 사이의 선택은 특정 연구 질문과 해결하려는 가설에 따라 다릅니다. 모집단 평균이 특정 값과 유의하게 다른지 확인하는 데 관심이 있는 경우 양측 대립 가설을 선택합니다. 이를 통해 평균이 가설 값보다 크거나 작을 가능성을 모두 고려할 수 있습니다.

그러나 평균이 가정된 값보다 크거나 작을 수 밖에 없다고 믿을 만한 특별한 이유가 있는 경우 단측 대립 가설을 선택할 수 있습니다. 이는 검정의 초점을 귀무 가설에서 벗어나는 한 방향으로만 좁힙니다.

요약하면 가설 테스트에는 증거를 수집하려는 진술을 나타내는 귀무 가설과 귀무 가설에 모순되는 대체 가설을 공식화하는 작업이 포함됩니다. 데이터가 수집되고 표본 평균과 같은 테스트 통계가 계산됩니다. 그런 다음 p-값이 계산되어 귀무 가설이 참이라고 가정하고 관찰된 것만큼 극단적인 검정 통계량을 얻을 확률을 나타냅니다. 단측 또는 양측 대립 가설의 선택은 연구 질문과 모집단 매개변수에 대한 특정 가정에 따라 달라집니다. 마지막으로 p-값을 유의수준과 비교하고 데이터가 제공하는 증거를 기반으로 귀무가설을 기각할지 실패할지 결정합니다.

Hypothesis Testing: One- and Two-Sided Alternatives
Hypothesis Testing: One- and Two-Sided Alternatives
  • 2020.10.31
  • www.youtube.com
How do we determine the an alternative hypothesis when setting up a hypothesis test? How does our choice affect the way we calculate a p-value?