안녕하세요 여러분, 오늘 우리는 계승, 순열 및 조합을 포함하여 세기의 개념을 탐구할 것입니다. 하나의 사건이 M 방식으로 발생할 수 있고 두 번째 사건이 N 방식으로 발생할 수 있다면 순서대로 두 사건이 총 M 번 N 방식으로 발생할 수 있다는 기본 계산 원칙으로 귀결됩니다. 중요한 것은 첫 번째 이벤트의 결과가 두 번째 이벤트의 가능한 결과 수에 영향을 미치지 않는다는 것입니다.
예부터 시작하겠습니다. 메뉴에 6개의 샐러드와 8개의 수프가 포함되어 있다고 가정합니다. 얼마나 많은 수프와 샐러드 조합이 가능합니까? 먼저 6가지 가능성이 있는 샐러드를 선택합니다. 각각의 선택에 대해 가능한 수프는 8가지입니다. 따라서 우리는 8개의 6개 그룹으로 끝나 총 48개의 가능한 조합이 생성됩니다.
이 아이디어는 더 긴 이벤트 시퀀스로 확장됩니다. 예를 들어, 메뉴에 샐러드 6개, 수프 8개, 앙트레 15개, 디저트 3개가 포함된 경우 6 x 8 x 15 x 3, 즉 2,160개의 식사가 가능합니다.
때때로 우리는 물체, 사람 또는 물건을 배열할 수 있는 방법의 수를 세어야 합니다. 예를 들어, 4명으로 구성된 그룹이 줄을 설 수 있는 방법은 몇 가지입니까? 기본 계산 원리를 다시 사용할 수 있습니다. 줄의 첫 번째 사람을 위한 4가지 선택, 두 번째 사람을 위한 3가지 선택, 세 번째 사람을 위한 2가지 선택, 네 번째 사람을 위한 1가지 선택이 있습니다. 이 숫자들을 함께 곱하면 4 곱하기 3 곱하기 2 곱하기 1이 있다는 것을 알 수 있습니다. 이는 4명이 일렬로 정렬될 수 있는 24가지 방법과 같습니다. 이 계산은 매우 일반적이어서 계승이라는 특별한 이름을 부여합니다.
일반적으로 N!으로 표시되는 숫자 N의 계승은 처음 N개의 양의 정수의 곱입니다. 예를 들면 3! 1 곱하기 2 곱하기 3, 5! 1 곱하기 2 곱하기 3 곱하기 4 곱하기 5 등등. 계승은 기하급수적 성장보다 훨씬 빠르게 빠르게 성장합니다. 예를 들어, 10! 이미 300만 명을 넘어섰다.
조금 더 복잡한 예를 들어보겠습니다. 12마리의 말이 경주에 참가하고 얼마나 많은 다른 방법으로 그들이 이기고, 배치하고, 보여줄 수 있는지 알고 싶습니다. 즉, 처음 세 위치를 의미합니다. 기본적인 계산 원리를 다시 한 번 적용할 수 있습니다. 12명의 승자, 11명의 2등 선수, 10명의 3등 선수가 있습니다. 이 숫자를 곱하면 12 곱하기 11 곱하기 10이 있으므로 가능한 조합은 1,320개입니다.
이를 일반화하기 위해 N개의 항목이 있고 첫 번째 K 항목에 대한 배열 수를 세고 싶다고 가정합니다. 기본 계산 원리를 사용하면 첫 번째 항목에는 N개의 선택 항목이 있고 두 번째 항목에는 N - 1개의 선택 항목이 있는 식으로 총 K항이 있을 때까지 계속됩니다. 마지막 항은 N - K + 1이 될 것입니다. 이것을 NPK로 표시합니다. 이는 N 계승을 (N - K) 계승으로 나눈 것과 같습니다.
순서에 관계없이 K 개체 그룹을 선택할 수 있는 방법의 수를 세고 싶을 때 또 다른 상황이 발생합니다. 이것을 조합이라고 합니다. 예를 들어, 한 경주에서 12마리의 말 중 3마리를 무작위로 선택하여 약물 검사를 한다면, 말을 선택할 수 있는 방법의 수는? 이 경우 순서는 중요하지 않습니다. 순서를 고려하지 않고 총 N개의 항목에서 K개의 항목을 선택할 수 있는 방법의 수를 나타내는 표기법 NCk를 사용합니다. 이를 계산하기 위해 공식 N을 사용하여 K = NPK /(K 계승)를 선택합니다. 주어진 예에서 12를 계산하고 3을 선택해야 합니다. 이를 위해 약간의 대수적 조작을 적용할 수 있습니다. 우리는 12 선택 3을 12 치환 3 나누기 3 계승으로 다시 쓸 수 있습니다. 더 단순화하면 12개가 있습니다! / (12 - 3)! * 삼!. 계산을 수행한 후, 우리는 12가 3을 선택하는 것이 220과 같다는 것을 알게 됩니다. 따라서 무작위 약물 검사를 위해 12가지 중에서 3가지 말을 선택하는 220가지 방법이 있습니다.
일반적으로 N 선택 K는 N 팩토리얼을 (N - K) 팩토리얼 곱하기 K 팩토리얼로 나눈 값으로 표현할 수 있습니다. 이 공식을 통해 다양한 시나리오에 대한 조합 수를 계산할 수 있습니다.
순열과 조합을 다룰 때 중요한 질문은 순서가 중요한지 여부입니다. 순서가 중요한 경우 순열 문제입니다. 순서가 중요하지 않으면 조합 문제입니다.
몇 가지 예를 살펴보겠습니다. 20명의 학생 중 4명으로 구성된 위원회를 구성하고 싶다고 가정합니다. 이 경우 선택 순서는 중요하지 않으므로 20 choose 4를 계산해야 합니다. 공식을 사용하여 20 choose 4는 20과 같습니다! / (20-4)! * 4!, 48,845로 단순화됩니다. 따라서 20명의 학급에서 4명으로 구성된 위원회를 구성하는 방법은 48,845가지입니다.
이제 다른 시나리오를 생각해 봅시다. 4명으로 구성된 위원회에 회장, 부회장, 서기, 재무가 포함되어야 한다면 선정 순서가 중요합니다. 여기에서 20 순열 4를 계산해야 합니다. 즉, 20입니다! / (20 - 4)!. 계산을 수행한 후 116,280개의 가능한 배열이 있음을 알 수 있습니다.
약간 다른 상황에서 20명의 학급에서 4명으로 구성된 위원회가 구성되어야 하고 한 사람이 회장으로 지정되어야 한다고 가정해 보겠습니다. 이것은 두 단계를 포함하는 하이브리드 문제입니다. 먼저 20가지 방법으로 대통령을 선택합니다. 그런 다음 순서가 중요하지 않은 위원회의 나머지 3명을 선택합니다. 이것은 19가 3을 선택하는 것에 해당합니다. 따라서 전체 가능성의 수는 20번입니다(19가 3을 선택). 이를 계산한 결과 19,382개의 가능한 결과가 있음을 알 수 있습니다.
요약하면, 순열 및 조합에는 이벤트가 발생하거나 개체가 정렬될 수 있는 방법의 수를 세는 것이 포함됩니다. 순서가 중요한지 여부를 이해하는 것은 문제를 해결하는 적절한 방법을 결정하는 데 중요합니다. 기본 계산 원리를 적용하고 순열 및 조합 공식을 활용하여 다양한 시나리오에서 가능성을 효과적으로 계산할 수 있습니다.
Let's learn to count. Factorials, permutations, and combinations all rely on the terribly important Fundamental Counting Principle. Make it your friend! If t...
안녕하세요 여러분, 오늘은 조건부 확률과 곱셈 규칙의 개념에 대해 알아보겠습니다. 예제를 사용하여 조건부 확률의 아이디어를 설명하는 것으로 시작하겠습니다.
한 연구에서 한 연구원이 성인 1,250명에게 연락하여 개를 선호하는지 고양이를 선호하는지 각각 물었습니다. 시작하려면 이 표본에서 개를 선호하는 응답자를 무작위로 선택할 확률을 계산해 봅시다. 1,250명의 응답자 중 개를 선호하는 개인은 589명입니다. 따라서 개를 선호하는 사람을 무작위로 선택할 확률은 589/1,250이며 이는 0.471 또는 47.1%입니다.
다음으로, 55세 이상의 응답자가 고양이보다 개를 더 좋아할 확률을 계산해 봅시다. 테이블에서 "55+" 열에 초점을 맞춥니다. 이 열에는 총 325명의 개인 중 개를 선호하는 성인 143명이 있습니다. 따라서 해당 열에서 개를 선호하는 사람을 임의로 선택할 확률은 143/325이며 이는 약 0.44 또는 44%입니다.
두 확률이 같지 않음에 유의하십시오. 이것은 이벤트 A가 발생했음을 이미 알고 있을 때 이벤트 B가 발생할 확률로 정의되는 조건부 확률의 개념을 강조합니다. 이 예에서는 이벤트 B(개 선호)의 확률뿐만 아니라 A(응답자가 55세 이상인 경우 선호하는 개)에 대한 B의 확률도 계산했습니다.
조건부 확률과 관련된 또 다른 예를 살펴보겠습니다. 우리는 한 벌의 카드를 가지고 있고 교체없이 두 장의 카드를 뽑습니다. 첫 번째 뽑은 카드가 왕이면 두 번째 뽑은 카드도 왕일 확률을 찾고 싶습니다. 여기에는 두 가지 이벤트가 있습니다. A는 첫 번째 뽑은 카드가 왕인 이벤트이고 B는 두 번째 카드가 왕인 이벤트입니다.
첫 번째 이벤트가 발생하면(왕 뽑기) 이제 51장의 카드가 남아 있으며 그 중 3장이 왕입니다. 따라서 두 번째 왕을 뽑을 확률은 3/51이며 약 0.059 또는 5.9%입니다. 이 확률은 첫 번째 카드가 왕이 될 확률(4/52 또는 0.077)과 다르다는 점에 유의해야 합니다.
조건부 확률은 두 사건 A와 B가 모두 발생할 확률을 계산할 때 특히 유용합니다. 이것은 곱셈 규칙이 작용하는 곳입니다. 사건 A와 B가 모두 순차적으로 발생할 확률은 P(A와 B) = P(A) × P(B|A) 공식으로 제공됩니다. 첫 번째 이벤트가 이미 발생했다고 가정할 때 첫 번째 이벤트가 발생할 확률에 두 번째 이벤트가 발생할 확률을 곱한 값으로 해석합니다.
예를 들어 표준 덱에서 교체 없이 두 왕을 뽑을 확률을 계산해 봅시다. 첫 번째 카드가 왕일 확률은 4/52이고 첫 번째 카드가 왕일 때 두 번째 카드가 왕일 확률은 3/51입니다. 이러한 확률을 함께 곱하면 두 카드가 왕이 될 확률이 약 0.0045 또는 0.45%임을 알 수 있습니다.
이제 고객이 식당에서 술과 애피타이저를 주문하는 시나리오를 생각해 보겠습니다. 고객이 술을 주문할 확률(이벤트 A)은 40%, 애피타이저를 주문할 확률(이벤트 B)은 30%, 술과 애피타이저를 모두 주문할 확률(이벤트 A 및 B)은 다음과 같습니다. 20%.
고객이 애피타이저를 주문한 경우(P(A|B)) 술을 주문할 조건부 확률을 계산하기 위해 곱셈 규칙을 사용할 수 있습니다. 주어진 값을 연결하면 P(A 및 B) = 20%, P(B) = 30%가 됩니다. 곱셈 공식을 재배열하면 P(A|B)를 풀 수 있습니다.
P(A|B) = P(A 및 B) / P(B)
주어진 값을 대체하면 P(A|B) = 20% / 30% = 2/3 또는 약 0.667이 됩니다. 따라서 애피타이저를 주문한 고객이 술을 주문할 확률은 2/3입니다.
마찬가지로 고객이 술을 주문한 경우 애피타이저를 주문할 확률을 계산해 보겠습니다(P(B|A)). 다시 곱셈 규칙을 사용하여 다음을 얻습니다.
P(B|A) = P(A 및 B) / P(A)
주어진 값을 대입하면 P(B|A) = 20% / 40% = 1/2 또는 0.5가 됩니다. 따라서 고객이 술을 주문한 경우 애피타이저를 주문할 확률은 절반입니다.
이 두 가지 조건부 확률이 다르다는 점에 유의하는 것이 중요합니다. 즉, 알코올 주문 이벤트와 애피타이저 주문 이벤트가 종속적임을 나타냅니다. P(A|B)가 P(A)와 같지 않고 P(B|A)가 P(B)와 같지 않다는 사실은 하나의 이벤트가 발생했는지 여부를 아는 것이 다른 이벤트가 발생할 가능성에 대한 정보를 제공한다는 것을 암시합니다.
이제 나열된 이벤트 쌍이 독립적인지 여부를 확인하기 위해 몇 가지 예를 살펴보겠습니다.
부모 모두 당뇨병이 있는 경우 당뇨병에 걸리기: 이러한 상황은 상황에 따라 다릅니다. 부모 모두 당뇨병이 있는 경우 개인이 당뇨병에 걸릴 가능성이 높아집니다. 그러나 개인이 당뇨병에 걸릴지는 확실하지 않으며 가족력 없이도 당뇨병에 걸릴 수 있습니다.
표준 주사위의 첫 번째 굴림에서 5를 얻고 두 번째 굴림에서 4를 얻습니다. 이 이벤트는 독립적입니다. 첫 번째 롤의 결과는 두 번째 롤의 결과에 대한 정보를 제공하지 않습니다. 공정한 주사위에서 5가 나올 확률과 4가 나올 확률은 각 이벤트에 대해 1/6입니다.
담배를 피우고 폐암에 걸리는 것: 이러한 사건은 상황에 따라 다릅니다. 담배를 피우면 폐암 발병 가능성이 높아집니다. 그러나 이것은 확실하지 않으며 담배를 피우지 않는 사람도 여전히 폐암에 걸릴 수 있습니다.
교체 없이 표준 덱에서 두 장의 카드를 뽑았으며 두 카드 모두 에이스입니다. 이러한 이벤트는 종속적입니다. 두 번째 카드를 에이스로 뽑을 확률은 첫 번째 뽑은 카드가 에이스인지 여부에 따라 다릅니다. 두 카드가 모두 에이스가 될 확률은 첫 번째 카드가 에이스가 될 확률보다 낮습니다.
교체용 표준 덱에서 두 장의 카드를 뽑았으며 두 카드 모두 에이스입니다. 이 이벤트는 독립적입니다. 첫 번째 뽑기 후에 카드를 교체하면 첫 번째 카드에서 얻은 영향이나 정보가 제거됩니다. 에이스를 뽑을 확률은 두 카드 모두 동일하게 유지됩니다.
일반적으로 한 사건이 일어날 확률이 다른 사건이 독립적으로 일어날 확률과 같다면 두 사건은 독립적인 것으로 간주된다. 확률이 다를 때 이벤트는 종속적입니다.
마지막으로 레스토랑에서 주문의 정확성을 연구하는 관리자와 관련된 시나리오를 분석해 보겠습니다. 관리자는 가능성을 결정하기 위해 다양한 식사와 시간에 대한 960개의 주문을 조사합니다.
질문 1: 이 데이터 세트에서 임의로 선택한 주문이 올바르게 채워질 확률은 다음과 같이 계산할 수 있습니다. 총 960개의 주문 중 올바르게 채워진 주문은 842개입니다. 따라서 확률은 842/960이며 약 0.877 또는 87.7%입니다.
질문 2: 무작위로 선택한 저녁 식사 주문이 올바르게 채워질 확률을 찾기 위해 조건부 확률을 고려합니다. 저녁 식사 주문 중 총 280개의 저녁 식사 주문 중 올바르게 채워진 주문은 249개입니다. 따라서 확률은 249/280이며 약 0.889 또는 88.9%입니다.
질문 3: 올바른 주문을 무작위로 선택하는 것이 저녁 식사 주문을 무작위로 선택하는 것과 독립적인지 확인하기 위해 조건부 확률 P(A|B)를 확률 P(A)와 비교합니다. 이 경우 P(A|B)는 0.889(이전 질문에서 계산)이고 P(A)는 0.877(첫 번째 질문에서 계산)입니다. 두 확률이 같지 않기 때문에 올바른 주문을 무작위로 선택하는 것이 저녁 식사 주문을 무작위로 선택하는 것과 독립적이지 않다는 결론을 내릴 수 있습니다.
이 예에서는 주어진 데이터 세트를 기반으로 확률을 계산하는 것과 관련된 고전적인 확률을 고려했다는 점에 유의하는 것이 중요합니다. 이러한 변수에 대한 향후 관찰이 독립적일 것인지에 대한 질문은 더 복잡하며 카이제곱 테스트와 같은 통계 분석이 필요합니다. 사건의 독립성을 실증적으로 결정하려면 무작위 변동성의 존재를 평가하고 더 큰 표본 크기를 분석해야 합니다.
How does information about the probability of one event change the probability of another event? Let's get into it! If this vid helps you, please help me a t...
안녕하세요 여러분, 오늘은 랜덤 변수의 개념에 대해 알아보겠습니다. 랜덤 변수는 프로세스의 결과가 숫자 값으로 표시되는 일부 확률 프로세스에 대해 정의되는 변수입니다. 더 나은 이해를 위해 몇 가지 예를 살펴보겠습니다.
두 개의 주사위를 굴려 합계를 구하는 시나리오를 고려하십시오. 주사위의 합은 랜덤 변수로 간주될 수 있습니다. 또 다른 예는 동전을 50번 던지고 앞면이 나오는 횟수를 세는 것입니다. 이 실험에서 얻은 머리의 수 또한 임의의 변수입니다. 마찬가지로, 시카고 시에서 무작위로 선택된 사람의 정확한 높이를 측정하거나 Old Faithful 간헐천의 분출 길이를 측정하는 것이 무작위 변수의 예입니다.
확률적 실험의 모든 결과가 무작위 변수는 아니라는 점에 유의하는 것이 중요합니다. 예를 들어 개 보호소에서 무작위로 선택된 강아지의 성별이나 무작위로 선택된 미국 상원 의원의 눈 색깔은 무작위 변수 범주에 속하지 않는 결과입니다. 이들은 숫자가 아니고 무작위 변수를 정의하지 않기 때문에 범주형 데이터입니다.
무작위 변수에는 불연속형과 연속형의 두 가지 기본 유형이 있습니다. 연속 무작위 변수는 분출의 정확한 길이 또는 무작위로 선택된 사람의 정확한 키와 같은 특정 범위 내에서 값을 취합니다. 이 값에는 원하는 정확도 수준의 분수와 소수가 포함될 수 있습니다. 반면 이산 확률 변수는 1, 2, 3, 4, 5와 같이 개별적으로 나열할 수 있는 값을 가집니다.
임의 변수에 가능한 결과의 수가 유한한 경우 해당 확률과 함께 이러한 모든 결과를 나열하는 테이블을 구성할 수 있습니다. 이 테이블을 이산 확률 분포라고 합니다. 동전을 세 번 던져 앞면이 나온 횟수를 세는 예를 생각해 봅시다. 가능한 결과는 0, 1, 2 또는 3개이고 각 결과에 확률을 할당합니다. 예를 들어 앞면이 나오지 않을 확률은 8분의 1이며 그에 따라 확률이 감소하거나 증가합니다.
데이터를 사용하여 불연속 확률 분포를 구성할 수도 있습니다. 미국 성인 100명을 대상으로 무작위 표본 조사를 실시하고 일주일에 외식을 몇 번 하는지 질문하고 응답 범위는 0에서 5까지라고 가정해 보겠습니다. 각 범주에 속하는 개인을 선택할 확률은 해당 범주에 있는 사람의 수를 총 표본 크기(100)로 계산합니다. 결과적으로 각각의 확률과 함께 무작위 변수(외식 횟수)의 모든 가능한 결과를 보여주는 확률 분포가 생성됩니다.
이산 확률 분포를 시각적으로 나타내기 위해 확률 히스토그램을 그릴 수 있습니다. 이전 예에서 계속해서 x축에 범주 0, 1, 2, 3, 4, 5가 있고 해당 확률이 막대 높이로 있는 히스토그램을 만들 수 있습니다. 예를 들어, 지난 주에 외식을 하지 않을 확률이 0.49인 경우 범주 x=0에 대해 0.49 높이에 막대를 그립니다. 이 확률 히스토그램의 모양은 동일한 데이터에 대한 빈도 분포 히스토그램의 모양과 동일합니다.
요약하면 확률변수는 확률적 실험의 결과를 나타내는 수치입니다. 그것들은 불연속적이거나 연속적일 수 있습니다. 불연속 확률 변수는 가능한 결과의 수가 한정되어 있으며 그 확률은 불연속 확률 분포를 사용하여 나타낼 수 있습니다. 확률 히스토그램은 이산 확률 분포를 시각적으로 묘사하고 다양한 결과의 가능성을 이해하는 데 유용합니다.
What is a random variable? What are the different types? How can we quantify and visualize them? If this vid helps you, please help me a tiny bit by mashing ...
여러분, 안녕하세요! 오늘 우리는 qplot 명령을 사용하여 R에서 아름다운 확률 히스토그램을 구성하는 과정을 탐구할 것입니다. 몇 가지 예를 살펴보겠습니다.
첫 번째 예에는 각각의 확률과 함께 1에서 6까지의 값을 가질 수 있는 X라는 이산 랜덤 변수가 있습니다. 시작하려면 R에서 데이터를 입력하고 히스토그램을 생성해 보겠습니다.
1에서 6까지의 값을 가질 수 있는 변수 X를 정의하는 것으로 시작합니다. 콜론 단축 연산자인 1:6을 사용하여 이를 수행할 수 있습니다. 이제 변수 X에는 값 1, 2, 3, 4, 5 및 6이 포함됩니다.
다음으로 해당 확률을 저장할 벡터를 만듭니다. 이 경우 값 1, 2, 3, 4, 5 및 6에 대한 확률은 각각 0.15, 0.1, 0.1, 0.4, 0.2 및 0.05입니다. 확률의 순서는 해당 값의 순서와 일치해야 합니다.
데이터를 올바르게 입력했는지 확인하기 위해 모든 확률의 합계를 계산하여 빠른 검사를 수행할 수 있습니다. 적법한 이산 확률 분포가 있는 경우 합계는 항상 1이어야 합니다. 이 경우 합계는 실제로 1이며 데이터가 올바르게 입력되었음을 나타냅니다.
이제 확률 히스토그램을 생성해 보겠습니다. qplot 함수를 사용하고 x축에 변수 X를 지정합니다. 또한 높이 인수로 제공하는 확률을 사용하여 값에 가중치를 부여하는 방법을 R에 알려야 합니다. 마지막으로 플롯 유형을 지정합니다. 이 경우 히스토그램입니다.
히스토그램을 생성하면 막대가 서로 닿지 않는다는 것을 알 수 있습니다. 확률 히스토그램에서 인접한 값에는 서로 닿는 막대가 있어 관계를 나타냅니다. 이 문제를 해결하기 위해 보유하고 있는 값의 수와 동일한 빈 수를 지정할 수 있습니다. 이 경우 6개의 값이 있으므로 빈 수를 6으로 설정합니다.
이제 히스토그램이 형태를 갖추기 시작합니다. 그러나 시각적 매력을 높이기 위해 막대 사이에 약간의 구분을 추가할 수 있습니다. 막대의 경계 색상을 지정하여 이를 달성합니다. 이 경우 검정색을 사용합니다.
두 번째 예제로 이동하여 확률 히스토그램을 만드는 프로세스를 계속 진행합니다. 이번에는 15, 16, 18, 19, 20의 값을 가질 수 있는 Y라는 랜덤 변수가 있습니다. 또한 이 값에 해당하는 확률도 있습니다. 단, 17은 확률이 0이므로 가능한 결과가 아닙니다.
이전과 동일한 단계를 따라 데이터를 입력하고 qplot 함수를 사용하여 히스토그램을 생성합니다. 그러나 이번에는 Y가 17인 빈 버킷이 있음을 알 수 있으며 이는 확률이 0임을 나타냅니다. 이 정보를 정확하게 캡처하기 위해 6개의 빈을 사용하여 Y가 17인 빈 빈을 허용합니다.
막대의 경계 색상과 내부 색상을 추가하여 히스토그램의 미학을 더욱 향상시킬 수 있습니다. 예를 들어 경계 색상을 진한 파란색으로 설정하고 채우기 색상을 일반 파란색으로 설정할 수 있습니다. 또한 확률을 나타내도록 y축 레이블을 사용자 정의하고 추상 데이터 세트이므로 x축 레이블을 단순히 "값"으로 변경할 수 있습니다.
이러한 조정을 통해 확률 히스토그램이 보다 전문적으로 보입니다. 물론 색상과 레이블을 계속 미세 조정하여 원하는 시각적 표현을 얻을 수 있습니다. 이것이 R에서 우아한 확률 히스토그램을 구성하는 방법입니다.
Constructing attractive probability histograms is easy in R. In this vid, we use the qplot() command in the ggplot2 package.If this vid helps you, please hel...
여러분, 안녕하세요! 오늘은 이산 랜덤 변수와 이산 확률 분포의 개념을 살펴보겠습니다. 랜덤 변수는 값이 랜덤 프로세스에 의해 결정되는 변수입니다. 이산 확률 변수의 경우 가능한 결과를 나열할 수 있으므로 이산 확률 분포가 생성됩니다.
이 개념을 설명하기 위해 예를 들어 보겠습니다. 16개의 방이 있는 집이 있고 방을 무작위로 선택하여 창문의 수를 세는 것을 상상해 보십시오. 창의 수는 0, 1, 2, 3 또는 4가 될 수 있으며 각각 해당 확률은 3/16, 5/16 등입니다. 이는 가능한 모든 결과와 관련 확률로 구성된 불연속 확률 분포를 나타냅니다.
불연속 확률 변수와 불연속 확률 분포에는 두 가지 중요한 속성이 있습니다. 첫째, 모든 확률의 합은 1이어야 합니다. 이것은 확률이 가능한 모든 결과를 포함하므로 어떤 일이 항상 일어날 것임을 보장합니다. 이 예에서 모든 확률을 더하면 16/16 또는 1이 됩니다.
둘째, 불연속 확률 분포를 다룰 때 확률을 추가할 수 있습니다. 예를 들어 X가 3 또는 4일 확률을 구하고 싶다면 X가 3일 확률과 X가 4일 확률을 계산해서 더하면 된다. 이 경우 확률은 3/16 + 1/16 = 4/16 = 1/4입니다.
몇 가지 예제 문제를 진행해 보겠습니다. 5개의 가능한 결과(5, 10, 25, 50, 200)가 있는 무작위 변수 Y를 포함하는 또 다른 이산 확률 분포를 고려하십시오. 이러한 결과 중 4개에 대한 확률이 주어지고 다섯 번째 결과에 대한 확률을 찾아야 합니다.
모든 확률의 합은 1이어야 하므로 누락된 확률을 추론할 수 있습니다. 1에서 알려진 확률의 합(0.04 + 0.12 + 0.18 + 0.45)을 빼면 Y가 200일 확률이 0.21임을 알 수 있습니다.
이제 동일한 이산 확률 분포를 사용하여 몇 가지 계산을 수행해 보겠습니다. 먼저 Y가 10보다 작거나 같을 확률을 찾고자 합니다. 여기에는 Y가 5이고 Y가 10일 확률을 합산하여 0.04 + 0.12 = 0.16이 됩니다.
다음으로 Y가 홀수일 확률에 관심이 있습니다. 이 경우 Y는 5이고 Y는 25라는 두 가지 결과가 있습니다. 확률을 더하면 0.04 + 0.18 = 0.22가 됩니다.
마지막으로 Y가 5보다 클 확률을 결정해 보겠습니다. Y가 10, 25, 50, 200이 될 확률을 직접 합산하는 대신 지름길을 사용할 수 있습니다. Y가 5보다 크지 않을 확률인 보수 사건을 고려합니다. 1에서 Y가 5(0.04)보다 작거나 같을 확률을 빼서 1 - 0.04 = 0.96을 얻습니다.
이 예제는 이산 확률 분포의 맥락에서 확률을 계산하고 보완적인 이벤트를 활용하는 방법을 보여줍니다.
여러분, 안녕하세요! 오늘은 랜덤 변수와 중심 경향 및 산포, 즉 평균, 분산 및 표준 편차에 대한 측정값에 대해 논의할 것입니다. 수치 데이터와 유사한 방식으로 무작위 변수의 중심과 산포를 설명할 수 있습니다.
불연속 확률 분포의 예를 살펴보겠습니다. 사람들에게 지난주에 외식한 저녁 식사 횟수에 대해 무작위로 질문하는 설문 조사를 수행했다고 상상해 보십시오. 분포를 보면 응답자의 약 49%가 외식을 하지 않았으며 약 22%가 한 번 외식을 한 적이 있는 등이었습니다. 확률 히스토그램을 사용하여 이 분포를 시각화할 수 있습니다. 히스토그램을 관찰하면 이 무작위 변수의 중심과 산포를 논의하는 것이 직관적입니다.
보다 구체적으로 히스토그램을 기반으로 결과를 해석해 보겠습니다. 랜덤 변수의 기대값 또는 평균은 랜덤 변수의 각 값에 해당 확률을 곱하고 결과를 합산하여 결정됩니다. 이 가중 평균은 랜덤 변수의 중심을 나타냅니다. 이전의 이산 확률 분포를 참조하여 각 값(0, 1, 2 등)에 해당 확률(0.49, 0.22 등)을 곱하고 곱을 합산하여 기대값을 계산합니다. 이 경우 기대값은 1.12입니다.
기대값은 종종 데이터 분석의 모집단 평균과 유사한 μ로 표시됩니다. 랜덤 변수의 중심을 측정합니다. 확률 히스토그램을 보면 예상 값은 히스토그램이 받침점에서 균형을 이루는 균형점을 나타냅니다.
이제 분산과 표준 편차를 사용하여 측정되는 불연속 확률 변수의 확산에 대해 논의해 보겠습니다. 분산은 랜덤 변수의 각 값에서 평균을 빼고 결과를 제곱한 다음 해당 확률을 곱하고 모든 가중 분산을 합산하여 계산합니다. 이것은 각 값이 평균에서 얼마나 벗어나는지를 포착합니다. 그러나 차이를 제곱했기 때문에 결과 분산의 단위는 원래 데이터와 동일하지 않습니다. 동일한 규모로 측정하려면 분산의 제곱근을 취하여 표준 편차를 제공합니다.
실제로 분산과 표준편차를 직접 계산하는 것은 번거로울 수 있습니다. 통계 소프트웨어 또는 계산기와 같은 기술을 사용하는 것이 좋습니다. 예를 들어 R 프로그래밍에서는 값과 해당 확률을 입력한 다음 기본 제공 함수를 사용하여 예상 값, 분산 및 표준 편차를 계산할 수 있습니다.
기술을 활용하여 계산을 효율적으로 수행하고 제품 및 제곱과 관련된 수동 계산을 피할 수 있습니다. 분산은 계산 및 이론적 고려 사항에 대한 귀중한 통찰력을 제공하는 반면 표준 편차는 원래 무작위 변수와 동일한 단위를 공유하므로 해석에 더 편리합니다.
요약하면 랜덤 변수를 다룰 때 중심(평균)과 산포(분산 및 표준 편차)를 이해하는 것이 중요합니다. 이러한 측정을 통해 무작위 변수의 특성을 효율적으로 정량화하고 해석할 수 있습니다.
안녕하세요, 오늘은 Bernoulli 시행과 이항분포에 대해 알아보겠습니다. Bernoulli 시행은 성공과 실패라는 두 가지 결과가 나오는 간단한 확률 실험입니다. 이러한 시도는 소문자 "p"로 표시되는 성공 확률로 정의됩니다. 이 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다.
예를 들어, 동전을 던지고 앞면이 성공했다고 생각하면 성공 확률(p)은 1/2입니다. 표준 52장 카드 덱에서 카드를 뽑고 에이스를 성공으로 간주하면 성공 확률(p)이 4/52 또는 1/13이 됩니다. 미국 유권자의 40%가 대통령을 승인하는 경우 유권자를 무작위로 선택하면 성공 확률(p)이 0.4가 됩니다.
"성공"과 "실패"라는 용어는 이 맥락에서 기술적인 용어이며 정치적 진술이나 개인적인 의견을 암시하지 않는다는 점에 유의하는 것이 중요합니다. Bernoulli 시행을 성공을 1로, 실패를 0으로 인코딩하여 이산 확률 변수로 나타낼 수 있습니다. 이를 통해 x가 0 또는 1의 값을 갖는 간단한 확률 분포를 생성할 수 있습니다. 1을 얻을 확률은 p와 같지만 0을 얻을 확률은 이러한 결과가 상호보완적이기 때문에 1 - p와 같습니다.
x의 모든 가능한 값에 대해 x에 해당 확률(p(x))을 곱하여 이 임의 변수(x)의 기대값을 계산할 수 있습니다. 기대값은 단일 시도에서 성공할 확률을 나타내는 p와 같습니다. 유사하게 x의 모든 가능한 값에 대해 p(x)를 곱한 (x - 기대값)^2를 합산하여 분산을 계산할 수 있습니다. 분산은 p(1 - p)와 같습니다. 분산의 제곱근을 취하면 무작위 변수의 확산을 측정하는 표준 편차를 얻을 수 있습니다.
많은 경우에 Bernoulli 시행은 반복적으로 수행되어 n개의 동일하고 독립적인 시행에서 총 성공 횟수가 발생합니다. 이것은 0에서 n까지의 값을 가질 수 있는 불연속 랜덤 변수로 이어집니다. 일반적으로 B(n, p)로 표시되는 이항 분포는 성공 확률이 p인 n개의 동일하고 독립적인 Bernoulli 시행이 있을 때 이 확률 변수에 대한 확률 분포를 나타냅니다.
예를 들어 공정한 동전을 세 번 던지고 x를 앞면의 수로 정의하면 B(3, 0.5)가 이항 분포가 됩니다. 가능한 모든 결과와 해당 확률을 고려하여 x의 각 값에 대한 확률을 직접 계산할 수 있습니다. n이 커질수록 이러한 확률을 손으로 계산하는 것은 비실용적이 되며 보다 일반적인 공식이 필요합니다.
n개의 시도에서 정확히 k개의 성공 확률(k는 0에서 n까지의 범위)은 n choose k 곱하기 p^k 곱하기 (1 - p)^(n - k) 공식으로 제공됩니다. 이 공식은 n번의 시도에서 정확히 k번의 성공을 달성하는 방법의 수와 각각의 확률을 설명합니다. 이항 분포에서 확률을 효율적으로 계산할 수 있습니다.
농구 선수의 평균 자유투 성공률이 78%인 경우를 예로 들어 보겠습니다. 그녀가 10개의 자유투를 쏘는 경우 이항 분포를 사용하여 정확히 8개의 슛과 최소 8개의 슛을 성공시킬 확률을 계산할 수 있습니다. 값을 수식에 대입하면 그에 따라 확률을 계산할 수 있습니다.
이항 분포를 갖는 랜덤 변수는 여러 베르누이 시행의 합입니다. 이 랜덤 변수의 평균은 n x p로 주어지고 분산은 n x p x (1 - p)로 주어집니다. 표준 편차는 np 곱하기(1 - p)의 제곱근입니다.
성공 확률이 0.78인 농구 선수가 10번 슛을 쏘는 경우 기대값(평균)은 10 * 0.78 = 7.8이 되고 표준편차는 (10 * 0.78 * (1 - 0.78)의 제곱근이 됩니다. )) ≈ 1.3.
이항 분포를 시각화하기 위해 확률 히스토그램을 구성할 수 있습니다. 0.78의 성공 확률로 10개의 슛을 쏘는 농구 선수의 예를 들어, 우리는 x(성공한 슛 수)의 각 값을 0에서 10까지 나타내는 막대가 있는 히스토그램을 만듭니다. 각 막대의 높이는 성공 확률에 해당합니다. 10번의 시도에서 특정 샷 수. 예를 들어 정확히 8발을 발사할 확률은 약 0.3입니다.
이항 분포는 고정된 성공 확률로 반복되는 독립적인 시도와 관련된 상황을 분석하기 위한 유용한 프레임워크를 제공합니다. 기대값, 분산, 확률 계산과 같은 이항 분포의 속성을 이해함으로써 통계, 재무, 품질 관리를 포함한 다양한 분야에서 정보에 입각한 의사 결정과 예측을 할 수 있습니다.
이항 분포는 독립적인 시행 및 각 시행에 대한 고정된 성공 확률과 같은 특정 조건을 가정한다는 점을 기억하십시오. 이항 분포를 실제 시나리오에 적용할 때 이러한 가정을 신중하게 고려해야 합니다.
결론적으로 Bernoulli 시행과 이항 분포는 두 가지 결과와 여러 독립 시행으로 확률 실험에 대한 근본적인 이해를 제공합니다. 이러한 개념과 관련된 공식 및 속성을 활용하여 다양한 시나리오에서 다양한 수준의 성공을 달성할 확률을 분석하고 예측할 수 있습니다.
Your life will get so much better once you understand the binomial distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' butt...
안녕하세요 여러분, 오늘 우리는 이항 분포와 관련된 계산을 수행하기 위해 R을 사용할 것입니다. R에는 이항 분포를 사용하기 위해 알아야 할 중요한 네 가지 기본 함수가 있습니다.
먼저 rbinom() 함수는 이항 분포에서 임의의 값을 생성합니다. 생성할 무작위 값의 수, 샘플 크기 및 개별 시도에서 성공 확률의 세 가지 인수가 필요합니다. 예를 들어, rbinom(10, 2, 0.5)는 표본 크기가 2이고 성공 확률이 0.5인 이항 분포에서 10개의 임의 값을 생성합니다.
둘째, dbinom() 함수는 이항 분포에서 지정된 수의 성공을 얻을 확률을 반환합니다. 성공 횟수, 샘플 크기 및 성공 확률의 세 가지 인수가 필요합니다. 성공 횟수를 벡터로 지정하여 다양한 성공 횟수에 대한 확률을 한 번에 계산할 수 있습니다. 예를 들어, dbinom(0:4, 4, 0.5)는 표본 크기가 4이고 성공 확률이 0.5인 이항 분포에서 0, 1, 2, 3 또는 4번 성공할 확률을 계산합니다.
다음으로 pbinom() 함수는 누적 확률 함수입니다. 이항 분포에서 최대 지정된 수의 성공을 얻을 확률을 반환합니다. dbinom()과 유사하게 누적 확률을 계산하기 위해 값의 벡터를 제공할 수 있습니다. 예를 들어, pbinom(0:4, 4, 0.5)는 샘플 크기가 4이고 성공 확률이 0.5인 이항 분포에서 최대 0, 1, 2, 3 또는 4개의 성공을 얻을 확률을 반환합니다.
마지막으로 qbinom() 함수는 역 확률 계산기입니다. 누적 확률이 지정된 확률보다 크거나 같은 성공의 가장 작은 값을 반환합니다. 즉, 이항 분포에서 분위수를 계산합니다. 예를 들어, qbinom(c(0.25, 0.5, 0.75), 10, 0.5)는 표본 크기가 10이고 성공 확률이 0.5인 이항 분포에서 25번째, 50번째 및 75번째 백분위수를 제공합니다.
이제 이 함수를 몇 가지 문제에 적용해 보겠습니다.
문제 1: 공정한 주사위를 10번 굴리고 6이 나오는 횟수를 세는 실험을 50회 시뮬레이션해 봅시다. 샘플 크기가 10이고 성공 확률이 1/6인 rbinom() 함수를 사용할 수 있습니다(6이 나올 확률이 1/6이므로).
results <- rbinom (50,10,1/6) table ( results )
문제 2: 최근 조사에 따르면 미국인의 72%가 고양이보다 개를 선호합니다. 8명의 미국인을 무작위로 선택했다면 정확히 6명이 개를 선호하고 6명 미만이 개를 선호할 확률은 얼마입니까? dbinom() 및 pbinom() 함수를 사용할 수 있습니다.
# Probability of exactly 6 preferring dogs prob_six <- dbinom (6,8,0.72)# Probability of fewer than 6 preferring dogs prob_less_than_six <- pbinom (5,8,0.72) prob_six prob_less_than_six
문제 3: 가중 동전은 앞면이 나올 확률이 42%입니다. 5번 던질 때 예상되는 앞면의 수는 얼마입니까? 또한, 5번 던질 때 앞면이 나올 수를 나타내는 랜덤 변수에 대한 확률 히스토그램을 구성합니다.
예상 앞면 수를 계산하기 위해 샘플 크기와 성공 확률의 곱인 이항 분포의 예상 값에 대한 공식을 사용할 수 있습니다. 이 경우 표본 크기는 5이고 성공 확률(앞으로 나올 확률)은 0.42입니다.
# Expected number of heads expected_heads <- 5 *0.42 expected_heads
가중 동전을 5번 던질 때 예상되는 앞면 수는 2.1입니다.
확률 히스토그램을 구성하기 위해 R의 ggplot2 패키지를 사용할 것입니다. 먼저 패키지를 설치하고 로드하겠습니다.
install.packages ("ggplot2")# Run this line if ggplot2 is not installed library ( ggplot2 )
다음으로 dbinom() 함수를 사용하여 5번 던질 때 앞면이 나오는 수에 대한 이산 확률 분포를 생성합니다. 가능한 각 앞면 수(0~5)에 대한 확률을 계산합니다.
x <- 0 :5# Possible number of heads p <- dbinom ( x ,5,0.42)# Probabilities
이제 ggplot2를 사용하여 확률 히스토그램을 만들 수 있습니다.
# Create probability histogram df <- data.frame ( x = x , p = p ) ggplot ( df , aes ( x = as.factor ( x ), y = p ))+ geom_bar ( stat ="identity", fill ="lightblue")+ xlab ("Number of Heads")+ ylab ("Probability")+ ggtitle ("Probability Histogram for Number of Heads in 5 Tosses")
In this vid, we learn how to do binomial calculation in R using the commands rbinom(), dbinom, pbinom(), and qbinom(). If this vid helps you, please help me ...
안녕하세요 여러분, 오늘 우리는 연속 무작위 변수를 탐구하고 특히 균등 분포를 가진 변수를 탐색할 것입니다.
연속 확률 변수가 무엇인지 상기하면서 시작하겠습니다. 불연속적인 값 집합과 달리 전체 범위 내에서 값을 가질 수 있는 변수입니다. 예를 들어 누군가를 임의로 선택하여 정확한 키를 측정하면 이 임의 변수가 취할 수 있는 값은 무한히 많습니다. 결과적으로 특정 값을 얻을 확률은 극소수이므로 특정 값의 확률을 논의하는 것은 비실용적입니다. 이 문제를 해결하기 위해 특정 범위의 값에 속하는 무작위 변수와 관련된 확률에 중점을 둡니다.
예를 들어, 어떤 사람의 키가 정확히 58.6인치(거의 0)일 확률을 묻는 대신 키가 55인치에서 65인치 사이로 떨어질 확률에 대해 문의할 수 있습니다. 이 접근 방식을 사용하면 의미 있는 확률로 작업할 수 있습니다. 또 다른 예는 무작위로 선택된 노래가 정확하게 3분이 아니라 3분보다 짧거나 3분보다 길다는 확률을 고려하는 것입니다.
연속 확률 변수의 가장 간단한 유형 중 하나는 균일 분포입니다. 균일하게 분포된 랜덤 변수에서 확률은 전체 도메인에 고르게 분산됩니다. 지정된 소수 자릿수를 사용하여 0과 1 사이의 난수를 생성하는 Excel의 rand() 함수에서 이 개념을 접했을 수 있습니다. 이 경우 모든 값의 확률은 동일합니다. 우리는 이것을 간격 [0, 1]에서 균일한 분포라고 부릅니다.
균등 분포에 대한 확률을 계산하기 위해 원하는 간격의 너비를 전체 범위의 전체 너비로 나눕니다. 예를 들어 결과가 0.2 미만일 확률은 0.2를 1(전체 너비)로 나눈 결과 0.2가 됩니다. 마찬가지로 결과가 4보다 크거나 같을 확률은 관심 구간의 너비가 0.6 단위이므로 0.6입니다. 불평등의 엄격함(예: "<" 대 "<=")은 개별 결과의 확률이 매우 작다는 점을 감안할 때 연속 무작위 변수를 처리할 때 관련이 없다는 점에 주목할 가치가 있습니다.
균일 확률 분포의 개념을 다른 간격으로 확장할 수도 있습니다. 예를 들어 간격 [1, 7]을 고려하면 무작위 변수가 동일한 확률로 1과 7 사이의 값을 취할 수 있는 연속 확률 분포가 생성됩니다. 이 분포 내에서 몇 가지 예를 살펴보겠습니다.
랜덤 변수가 5보다 작을 확률은 4/6 또는 2/3이며, 1에서 5까지의 구간 너비(4)를 전체 구간 너비(6)로 나누어 계산합니다.
랜덤 변수가 1.5보다 작거나 같을 확률은 0.5/6 또는 1/12입니다. 여기서는 1에서 1.5까지의 구간 너비(0.5)를 전체 구간 너비(6)로 나눕니다.
랜덤 변수가 6.12보다 클 확률은 6.12에서 7까지의 구간 너비를 전체 구간 너비(70/5)로 나눈 11/70 또는 0.157입니다.
연속 확률 변수에 대한 확률 히스토그램을 그리는 것은 개별 확률이 극소이기 때문에 이산 확률 변수와 같은 방식으로 가능하지 않습니다. 대신 밀도 플롯을 사용하여 확률을 높이가 아닌 면적으로 나타냅니다. 균일 분포에 대한 밀도 그림에서 모든 확률은 동일하며 결과는 수평선입니다. 밀도 플롯 아래의 총 면적은 확률이 올바르게 합산되도록 항상 1이어야 합니다.
설명을 위해 구간 [-5, 5]에서 균일 분포를 고려해 보겠습니다. 이 경우 도메인의 너비는 10(5 - (-5))입니다. 밀도 곡선을 만들려면 직사각형의 높이가 1을 너비로 나눈 값(1/10)이 필요합니다. 이렇게 하면 밀도 곡선 아래의 총 면적이 1이 됩니다.
이제 이 분포에서 랜덤 변수가 3.5보다 클 확률을 계산해 봅시다. 밀도 곡선을 다시 그리고 X > 3.5에 해당하는 영역을 음영 처리할 수 있습니다. 그러면 확률은 해당 음영 영역의 면적과 같습니다.
직사각형의 면적(높이 곱하기)을 계산하는 공식을 적용하여 너비(5 - 3.5 = 1.5)에 높이(1/10)를 곱합니다. 그 결과 면적은 1.5/10 또는 15%가 됩니다.
여러분, 안녕하세요! 오늘은 연속확률변수에 대해 알아보겠습니다. 연속 확률 변수는 단순히 전체 범위에 걸쳐 값을 취할 수 있는 변수로 정확한 측정이 가능합니다. 이 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다.
지역 동물 보호소에서 임의의 개를 선택하고 꼬리 길이를 측정한다고 상상해 보십시오. 원하는 정도의 정확도로 측정값을 얻을 수 있습니다. 마찬가지로 임의의 순간에 남극에서 정확한 온도를 측정하거나 임의로 선택된 고객 서비스 통화의 길이를 측정하는 것을 고려하십시오. 이러한 예는 모든 수준의 정밀도로 변수를 측정할 수 있는 능력을 보여줍니다.
대조적으로 불연속 확률 변수는 비연속 집합의 값만 가정할 수 있습니다. 예를 들어, 주사위를 20번 굴리고 6의 수를 세면 0, 1, 2, 3, 4 등과 같은 정수가 나옵니다. 그러나 1/2, 2/3 또는 3과 1/4과 같은 분수 또는 소수는 가능한 결과가 아닙니다.
연속 확률 변수에 대한 확률을 설명하는 것은 불연속 확률 변수보다 더 복잡합니다. 가능한 결과가 무한히 많기 때문에 특정 개별 결과를 얻을 가능성은 본질적으로 0입니다. 예를 들어 고객 서비스 호출이 150초 동안 지속된다고 명시하면 실제 길이는 150.1, 150.05 또는 기타 수많은 값이 될 수 있습니다. 따라서 통화가 정확히 150초 동안 지속될 확률은 본질적으로 0입니다.
그럼에도 불구하고 특정 호출 길이는 다른 것보다 가능성이 더 높아 보일 수 있습니다. 우리는 150초 동안 지속되는 통화가 3시간 동안 지속되는 통화보다 훨씬 더 가능성이 높다고 예상합니다. 연속 무작위 변수의 확률을 다루기 위해 특정 결과가 아닌 값의 범위에 중점을 둡니다. 예를 들어 호출이 140초에서 160초 사이에 있을 확률을 고려하여 종종 0이 아닌 확률을 생성합니다.
연속 랜덤 변수를 시각화하는 한 가지 방법은 밀도 곡선을 이용하는 것입니다. 범위에 대한 확률은 밀도 곡선 아래의 영역으로 표시됩니다. 확률이 감소하면서 범위가 0에서 4까지인 랜덤 변수 X를 나타내는 그래프를 살펴보겠습니다. 그래프의 음영 영역은 주어진 시도에서 X가 1과 2 사이에 떨어질 확률을 나타냅니다. 그림에서 우리는 X가 1과 2 사이에 떨어질 확률이 0과 1 사이에 떨어질 확률보다 작다는 것을 관찰할 수 있습니다. 이 불일치는 1에서 2에 비해 0에서 1까지의 곡선 아래에 더 많은 영역이 있기 때문에 발생합니다. 마찬가지로 X가 2와 3 사이보다 1과 2 사이에 있을 확률이 더 높습니다. 음영 영역의 면적을 근사하여 X가 1과 2 사이에 있을 확률을 추정할 수 있으며, 결과는 약 3/10 또는 30%.
밀도 곡선은 일반적으로 확률 밀도 함수(PDF)라고 합니다. 합법적인 PDF에는 두 가지 필수 속성이 있습니다. 첫째, 확률의 긍정적인 특성과 일치하려면 항상 긍정적이어야 합니다. 둘째, 적법한 PDF 그래프 아래의 총 면적은 항상 1이어야 하며, 이는 확률 실험을 수행할 때 X 값을 얻는다는 것을 의미합니다.
PDF 및 밀도 곡선의 개념은 직관적일 수 있지만 이들과 관련된 실제 계산은 어려울 수 있습니다. 실제로 우리는 광범위한 계산의 필요성을 우회하기 위해 확률 변수의 누적 분포 함수(CDF)를 사용하는 경우가 많습니다. CDF는 랜덤 변수가 주어진 시행에서 지정된 X보다 크지 않은 값을 가정할 확률을 제공합니다. 기본적으로 확률을 축적합니다. 예를 들어, X가 증가하면 확률이 누적될수록 해당 CDF 값도 증가합니다.
CDF를 사용하여 특정 범위에 속하는 임의 변수의 확률을 계산할 수 있습니다. 이 확률은 범위의 하한 및 상한의 CDF 값을 빼서 결정됩니다. X로 표시되는 동일한 확률 변수의 PDF 및 CDF 그래프를 살펴보겠습니다. 그래프의 음영 영역은 X가 2보다 작거나 같을 누적 확률을 나타내며 F(2)로 표시되고 CDF는 2 . X가 증가하면 더 많은 확률이 누적되기 때문에 CDF, F(X)도 항상 증가합니다.
X가 a와 b라는 두 값 사이에 있을 확률을 계산하기 위해 a의 CDF 값에서 b의 CDF 값을 뺍니다. 그래프에서 이는 X = 1의 왼쪽 영역에서 X = 2의 왼쪽 영역을 빼는 것과 같습니다. 수학적으로 이것은 F(b) - F(a)로 표현됩니다. 시각적 표현은 그것을 분명하게 만듭니다.
연속 확률 변수의 가장 간단한 유형은 균일한 분포를 갖는 것입니다. 균일 분포에서 확률은 동일한 너비의 간격에 대해 동일합니다. 기본적으로 특정 범위 내에서 X의 모든 값이 동일할 가능성이 있음을 의미합니다. 이것을 보는 또 다른 방법은 균일하게 분포된 랜덤 변수의 PDF가 상수 함수라는 것입니다.
예를 들어 보겠습니다. 값이 균일한 분포로 1에서 7 사이에 속할 수 있는 연속 랜덤 변수가 있다고 가정합니다. PDF는 총 면적이 1인 1과 7 사이의 상수 함수입니다. 간격의 너비가 6이므로 그래프의 높이는 1/6입니다. 이 정보를 사용하여 X의 모든 범위에 대한 확률을 계산할 수 있습니다. 예를 들어 X가 2와 7 사이에 있을 확률은 간격의 너비(7 빼기 2)를 그래프의 높이로 나눈 값입니다. 1/6입니다. 따라서 확률은 (1/6) * (7 - 2) = 5/6입니다.
균등 분포에 대한 보다 포괄적인 설명을 원하는 경우 위에 제공된 링크에서 찾을 수 있는 주제에 대한 전용 비디오가 있습니다.
Continuous random variables are cool. No, really! In this vid, we cover pdfs (probability density functions) and cdfs (cumulative distribution functions) and...
계승, 순열 및 조합
계승, 순열 및 조합
안녕하세요 여러분, 오늘 우리는 계승, 순열 및 조합을 포함하여 세기의 개념을 탐구할 것입니다. 하나의 사건이 M 방식으로 발생할 수 있고 두 번째 사건이 N 방식으로 발생할 수 있다면 순서대로 두 사건이 총 M 번 N 방식으로 발생할 수 있다는 기본 계산 원칙으로 귀결됩니다. 중요한 것은 첫 번째 이벤트의 결과가 두 번째 이벤트의 가능한 결과 수에 영향을 미치지 않는다는 것입니다.
예부터 시작하겠습니다. 메뉴에 6개의 샐러드와 8개의 수프가 포함되어 있다고 가정합니다. 얼마나 많은 수프와 샐러드 조합이 가능합니까? 먼저 6가지 가능성이 있는 샐러드를 선택합니다. 각각의 선택에 대해 가능한 수프는 8가지입니다. 따라서 우리는 8개의 6개 그룹으로 끝나 총 48개의 가능한 조합이 생성됩니다.
이 아이디어는 더 긴 이벤트 시퀀스로 확장됩니다. 예를 들어, 메뉴에 샐러드 6개, 수프 8개, 앙트레 15개, 디저트 3개가 포함된 경우 6 x 8 x 15 x 3, 즉 2,160개의 식사가 가능합니다.
때때로 우리는 물체, 사람 또는 물건을 배열할 수 있는 방법의 수를 세어야 합니다. 예를 들어, 4명으로 구성된 그룹이 줄을 설 수 있는 방법은 몇 가지입니까? 기본 계산 원리를 다시 사용할 수 있습니다. 줄의 첫 번째 사람을 위한 4가지 선택, 두 번째 사람을 위한 3가지 선택, 세 번째 사람을 위한 2가지 선택, 네 번째 사람을 위한 1가지 선택이 있습니다. 이 숫자들을 함께 곱하면 4 곱하기 3 곱하기 2 곱하기 1이 있다는 것을 알 수 있습니다. 이는 4명이 일렬로 정렬될 수 있는 24가지 방법과 같습니다. 이 계산은 매우 일반적이어서 계승이라는 특별한 이름을 부여합니다.
일반적으로 N!으로 표시되는 숫자 N의 계승은 처음 N개의 양의 정수의 곱입니다. 예를 들면 3! 1 곱하기 2 곱하기 3, 5! 1 곱하기 2 곱하기 3 곱하기 4 곱하기 5 등등. 계승은 기하급수적 성장보다 훨씬 빠르게 빠르게 성장합니다. 예를 들어, 10! 이미 300만 명을 넘어섰다.
조금 더 복잡한 예를 들어보겠습니다. 12마리의 말이 경주에 참가하고 얼마나 많은 다른 방법으로 그들이 이기고, 배치하고, 보여줄 수 있는지 알고 싶습니다. 즉, 처음 세 위치를 의미합니다. 기본적인 계산 원리를 다시 한 번 적용할 수 있습니다. 12명의 승자, 11명의 2등 선수, 10명의 3등 선수가 있습니다. 이 숫자를 곱하면 12 곱하기 11 곱하기 10이 있으므로 가능한 조합은 1,320개입니다.
이를 일반화하기 위해 N개의 항목이 있고 첫 번째 K 항목에 대한 배열 수를 세고 싶다고 가정합니다. 기본 계산 원리를 사용하면 첫 번째 항목에는 N개의 선택 항목이 있고 두 번째 항목에는 N - 1개의 선택 항목이 있는 식으로 총 K항이 있을 때까지 계속됩니다. 마지막 항은 N - K + 1이 될 것입니다. 이것을 NPK로 표시합니다. 이는 N 계승을 (N - K) 계승으로 나눈 것과 같습니다.
순서에 관계없이 K 개체 그룹을 선택할 수 있는 방법의 수를 세고 싶을 때 또 다른 상황이 발생합니다. 이것을 조합이라고 합니다. 예를 들어, 한 경주에서 12마리의 말 중 3마리를 무작위로 선택하여 약물 검사를 한다면, 말을 선택할 수 있는 방법의 수는? 이 경우 순서는 중요하지 않습니다. 순서를 고려하지 않고 총 N개의 항목에서 K개의 항목을 선택할 수 있는 방법의 수를 나타내는 표기법 NCk를 사용합니다. 이를 계산하기 위해 공식 N을 사용하여 K = NPK /(K 계승)를 선택합니다. 주어진 예에서 12를 계산하고 3을 선택해야 합니다. 이를 위해 약간의 대수적 조작을 적용할 수 있습니다. 우리는 12 선택 3을 12 치환 3 나누기 3 계승으로 다시 쓸 수 있습니다. 더 단순화하면 12개가 있습니다! / (12 - 3)! * 삼!. 계산을 수행한 후, 우리는 12가 3을 선택하는 것이 220과 같다는 것을 알게 됩니다. 따라서 무작위 약물 검사를 위해 12가지 중에서 3가지 말을 선택하는 220가지 방법이 있습니다.
일반적으로 N 선택 K는 N 팩토리얼을 (N - K) 팩토리얼 곱하기 K 팩토리얼로 나눈 값으로 표현할 수 있습니다. 이 공식을 통해 다양한 시나리오에 대한 조합 수를 계산할 수 있습니다.
순열과 조합을 다룰 때 중요한 질문은 순서가 중요한지 여부입니다. 순서가 중요한 경우 순열 문제입니다. 순서가 중요하지 않으면 조합 문제입니다.
몇 가지 예를 살펴보겠습니다. 20명의 학생 중 4명으로 구성된 위원회를 구성하고 싶다고 가정합니다. 이 경우 선택 순서는 중요하지 않으므로 20 choose 4를 계산해야 합니다. 공식을 사용하여 20 choose 4는 20과 같습니다! / (20-4)! * 4!, 48,845로 단순화됩니다. 따라서 20명의 학급에서 4명으로 구성된 위원회를 구성하는 방법은 48,845가지입니다.
이제 다른 시나리오를 생각해 봅시다. 4명으로 구성된 위원회에 회장, 부회장, 서기, 재무가 포함되어야 한다면 선정 순서가 중요합니다. 여기에서 20 순열 4를 계산해야 합니다. 즉, 20입니다! / (20 - 4)!. 계산을 수행한 후 116,280개의 가능한 배열이 있음을 알 수 있습니다.
약간 다른 상황에서 20명의 학급에서 4명으로 구성된 위원회가 구성되어야 하고 한 사람이 회장으로 지정되어야 한다고 가정해 보겠습니다. 이것은 두 단계를 포함하는 하이브리드 문제입니다. 먼저 20가지 방법으로 대통령을 선택합니다. 그런 다음 순서가 중요하지 않은 위원회의 나머지 3명을 선택합니다. 이것은 19가 3을 선택하는 것에 해당합니다. 따라서 전체 가능성의 수는 20번입니다(19가 3을 선택). 이를 계산한 결과 19,382개의 가능한 결과가 있음을 알 수 있습니다.
요약하면, 순열 및 조합에는 이벤트가 발생하거나 개체가 정렬될 수 있는 방법의 수를 세는 것이 포함됩니다. 순서가 중요한지 여부를 이해하는 것은 문제를 해결하는 적절한 방법을 결정하는 데 중요합니다. 기본 계산 원리를 적용하고 순열 및 조합 공식을 활용하여 다양한 시나리오에서 가능성을 효과적으로 계산할 수 있습니다.
조건부 확률과 곱셈 규칙
조건부 확률과 곱셈 규칙
안녕하세요 여러분, 오늘은 조건부 확률과 곱셈 규칙의 개념에 대해 알아보겠습니다. 예제를 사용하여 조건부 확률의 아이디어를 설명하는 것으로 시작하겠습니다.
한 연구에서 한 연구원이 성인 1,250명에게 연락하여 개를 선호하는지 고양이를 선호하는지 각각 물었습니다. 시작하려면 이 표본에서 개를 선호하는 응답자를 무작위로 선택할 확률을 계산해 봅시다. 1,250명의 응답자 중 개를 선호하는 개인은 589명입니다. 따라서 개를 선호하는 사람을 무작위로 선택할 확률은 589/1,250이며 이는 0.471 또는 47.1%입니다.
다음으로, 55세 이상의 응답자가 고양이보다 개를 더 좋아할 확률을 계산해 봅시다. 테이블에서 "55+" 열에 초점을 맞춥니다. 이 열에는 총 325명의 개인 중 개를 선호하는 성인 143명이 있습니다. 따라서 해당 열에서 개를 선호하는 사람을 임의로 선택할 확률은 143/325이며 이는 약 0.44 또는 44%입니다.
두 확률이 같지 않음에 유의하십시오. 이것은 이벤트 A가 발생했음을 이미 알고 있을 때 이벤트 B가 발생할 확률로 정의되는 조건부 확률의 개념을 강조합니다. 이 예에서는 이벤트 B(개 선호)의 확률뿐만 아니라 A(응답자가 55세 이상인 경우 선호하는 개)에 대한 B의 확률도 계산했습니다.
조건부 확률과 관련된 또 다른 예를 살펴보겠습니다. 우리는 한 벌의 카드를 가지고 있고 교체없이 두 장의 카드를 뽑습니다. 첫 번째 뽑은 카드가 왕이면 두 번째 뽑은 카드도 왕일 확률을 찾고 싶습니다. 여기에는 두 가지 이벤트가 있습니다. A는 첫 번째 뽑은 카드가 왕인 이벤트이고 B는 두 번째 카드가 왕인 이벤트입니다.
첫 번째 이벤트가 발생하면(왕 뽑기) 이제 51장의 카드가 남아 있으며 그 중 3장이 왕입니다. 따라서 두 번째 왕을 뽑을 확률은 3/51이며 약 0.059 또는 5.9%입니다. 이 확률은 첫 번째 카드가 왕이 될 확률(4/52 또는 0.077)과 다르다는 점에 유의해야 합니다.
조건부 확률은 두 사건 A와 B가 모두 발생할 확률을 계산할 때 특히 유용합니다. 이것은 곱셈 규칙이 작용하는 곳입니다. 사건 A와 B가 모두 순차적으로 발생할 확률은 P(A와 B) = P(A) × P(B|A) 공식으로 제공됩니다. 첫 번째 이벤트가 이미 발생했다고 가정할 때 첫 번째 이벤트가 발생할 확률에 두 번째 이벤트가 발생할 확률을 곱한 값으로 해석합니다.
예를 들어 표준 덱에서 교체 없이 두 왕을 뽑을 확률을 계산해 봅시다. 첫 번째 카드가 왕일 확률은 4/52이고 첫 번째 카드가 왕일 때 두 번째 카드가 왕일 확률은 3/51입니다. 이러한 확률을 함께 곱하면 두 카드가 왕이 될 확률이 약 0.0045 또는 0.45%임을 알 수 있습니다.
이제 고객이 식당에서 술과 애피타이저를 주문하는 시나리오를 생각해 보겠습니다. 고객이 술을 주문할 확률(이벤트 A)은 40%, 애피타이저를 주문할 확률(이벤트 B)은 30%, 술과 애피타이저를 모두 주문할 확률(이벤트 A 및 B)은 다음과 같습니다. 20%.
고객이 애피타이저를 주문한 경우(P(A|B)) 술을 주문할 조건부 확률을 계산하기 위해 곱셈 규칙을 사용할 수 있습니다. 주어진 값을 연결하면 P(A 및 B) = 20%, P(B) = 30%가 됩니다. 곱셈 공식을 재배열하면 P(A|B)를 풀 수 있습니다.
P(A|B) = P(A 및 B) / P(B)
주어진 값을 대체하면 P(A|B) = 20% / 30% = 2/3 또는 약 0.667이 됩니다. 따라서 애피타이저를 주문한 고객이 술을 주문할 확률은 2/3입니다.
마찬가지로 고객이 술을 주문한 경우 애피타이저를 주문할 확률을 계산해 보겠습니다(P(B|A)). 다시 곱셈 규칙을 사용하여 다음을 얻습니다.
P(B|A) = P(A 및 B) / P(A)
주어진 값을 대입하면 P(B|A) = 20% / 40% = 1/2 또는 0.5가 됩니다. 따라서 고객이 술을 주문한 경우 애피타이저를 주문할 확률은 절반입니다.
이 두 가지 조건부 확률이 다르다는 점에 유의하는 것이 중요합니다. 즉, 알코올 주문 이벤트와 애피타이저 주문 이벤트가 종속적임을 나타냅니다. P(A|B)가 P(A)와 같지 않고 P(B|A)가 P(B)와 같지 않다는 사실은 하나의 이벤트가 발생했는지 여부를 아는 것이 다른 이벤트가 발생할 가능성에 대한 정보를 제공한다는 것을 암시합니다.
이제 나열된 이벤트 쌍이 독립적인지 여부를 확인하기 위해 몇 가지 예를 살펴보겠습니다.
부모 모두 당뇨병이 있는 경우 당뇨병에 걸리기: 이러한 상황은 상황에 따라 다릅니다. 부모 모두 당뇨병이 있는 경우 개인이 당뇨병에 걸릴 가능성이 높아집니다. 그러나 개인이 당뇨병에 걸릴지는 확실하지 않으며 가족력 없이도 당뇨병에 걸릴 수 있습니다.
표준 주사위의 첫 번째 굴림에서 5를 얻고 두 번째 굴림에서 4를 얻습니다. 이 이벤트는 독립적입니다. 첫 번째 롤의 결과는 두 번째 롤의 결과에 대한 정보를 제공하지 않습니다. 공정한 주사위에서 5가 나올 확률과 4가 나올 확률은 각 이벤트에 대해 1/6입니다.
담배를 피우고 폐암에 걸리는 것: 이러한 사건은 상황에 따라 다릅니다. 담배를 피우면 폐암 발병 가능성이 높아집니다. 그러나 이것은 확실하지 않으며 담배를 피우지 않는 사람도 여전히 폐암에 걸릴 수 있습니다.
교체 없이 표준 덱에서 두 장의 카드를 뽑았으며 두 카드 모두 에이스입니다. 이러한 이벤트는 종속적입니다. 두 번째 카드를 에이스로 뽑을 확률은 첫 번째 뽑은 카드가 에이스인지 여부에 따라 다릅니다. 두 카드가 모두 에이스가 될 확률은 첫 번째 카드가 에이스가 될 확률보다 낮습니다.
교체용 표준 덱에서 두 장의 카드를 뽑았으며 두 카드 모두 에이스입니다. 이 이벤트는 독립적입니다. 첫 번째 뽑기 후에 카드를 교체하면 첫 번째 카드에서 얻은 영향이나 정보가 제거됩니다. 에이스를 뽑을 확률은 두 카드 모두 동일하게 유지됩니다.
일반적으로 한 사건이 일어날 확률이 다른 사건이 독립적으로 일어날 확률과 같다면 두 사건은 독립적인 것으로 간주된다. 확률이 다를 때 이벤트는 종속적입니다.
마지막으로 레스토랑에서 주문의 정확성을 연구하는 관리자와 관련된 시나리오를 분석해 보겠습니다. 관리자는 가능성을 결정하기 위해 다양한 식사와 시간에 대한 960개의 주문을 조사합니다.
질문 1: 이 데이터 세트에서 임의로 선택한 주문이 올바르게 채워질 확률은 다음과 같이 계산할 수 있습니다. 총 960개의 주문 중 올바르게 채워진 주문은 842개입니다. 따라서 확률은 842/960이며 약 0.877 또는 87.7%입니다.
질문 2: 무작위로 선택한 저녁 식사 주문이 올바르게 채워질 확률을 찾기 위해 조건부 확률을 고려합니다. 저녁 식사 주문 중 총 280개의 저녁 식사 주문 중 올바르게 채워진 주문은 249개입니다. 따라서 확률은 249/280이며 약 0.889 또는 88.9%입니다.
질문 3: 올바른 주문을 무작위로 선택하는 것이 저녁 식사 주문을 무작위로 선택하는 것과 독립적인지 확인하기 위해 조건부 확률 P(A|B)를 확률 P(A)와 비교합니다. 이 경우 P(A|B)는 0.889(이전 질문에서 계산)이고 P(A)는 0.877(첫 번째 질문에서 계산)입니다. 두 확률이 같지 않기 때문에 올바른 주문을 무작위로 선택하는 것이 저녁 식사 주문을 무작위로 선택하는 것과 독립적이지 않다는 결론을 내릴 수 있습니다.
이 예에서는 주어진 데이터 세트를 기반으로 확률을 계산하는 것과 관련된 고전적인 확률을 고려했다는 점에 유의하는 것이 중요합니다. 이러한 변수에 대한 향후 관찰이 독립적일 것인지에 대한 질문은 더 복잡하며 카이제곱 테스트와 같은 통계 분석이 필요합니다. 사건의 독립성을 실증적으로 결정하려면 무작위 변동성의 존재를 평가하고 더 큰 표본 크기를 분석해야 합니다.
랜덤 변수 소개
랜덤 변수 소개
안녕하세요 여러분, 오늘은 랜덤 변수의 개념에 대해 알아보겠습니다. 랜덤 변수는 프로세스의 결과가 숫자 값으로 표시되는 일부 확률 프로세스에 대해 정의되는 변수입니다. 더 나은 이해를 위해 몇 가지 예를 살펴보겠습니다.
두 개의 주사위를 굴려 합계를 구하는 시나리오를 고려하십시오. 주사위의 합은 랜덤 변수로 간주될 수 있습니다. 또 다른 예는 동전을 50번 던지고 앞면이 나오는 횟수를 세는 것입니다. 이 실험에서 얻은 머리의 수 또한 임의의 변수입니다. 마찬가지로, 시카고 시에서 무작위로 선택된 사람의 정확한 높이를 측정하거나 Old Faithful 간헐천의 분출 길이를 측정하는 것이 무작위 변수의 예입니다.
확률적 실험의 모든 결과가 무작위 변수는 아니라는 점에 유의하는 것이 중요합니다. 예를 들어 개 보호소에서 무작위로 선택된 강아지의 성별이나 무작위로 선택된 미국 상원 의원의 눈 색깔은 무작위 변수 범주에 속하지 않는 결과입니다. 이들은 숫자가 아니고 무작위 변수를 정의하지 않기 때문에 범주형 데이터입니다.
무작위 변수에는 불연속형과 연속형의 두 가지 기본 유형이 있습니다. 연속 무작위 변수는 분출의 정확한 길이 또는 무작위로 선택된 사람의 정확한 키와 같은 특정 범위 내에서 값을 취합니다. 이 값에는 원하는 정확도 수준의 분수와 소수가 포함될 수 있습니다. 반면 이산 확률 변수는 1, 2, 3, 4, 5와 같이 개별적으로 나열할 수 있는 값을 가집니다.
임의 변수에 가능한 결과의 수가 유한한 경우 해당 확률과 함께 이러한 모든 결과를 나열하는 테이블을 구성할 수 있습니다. 이 테이블을 이산 확률 분포라고 합니다. 동전을 세 번 던져 앞면이 나온 횟수를 세는 예를 생각해 봅시다. 가능한 결과는 0, 1, 2 또는 3개이고 각 결과에 확률을 할당합니다. 예를 들어 앞면이 나오지 않을 확률은 8분의 1이며 그에 따라 확률이 감소하거나 증가합니다.
데이터를 사용하여 불연속 확률 분포를 구성할 수도 있습니다. 미국 성인 100명을 대상으로 무작위 표본 조사를 실시하고 일주일에 외식을 몇 번 하는지 질문하고 응답 범위는 0에서 5까지라고 가정해 보겠습니다. 각 범주에 속하는 개인을 선택할 확률은 해당 범주에 있는 사람의 수를 총 표본 크기(100)로 계산합니다. 결과적으로 각각의 확률과 함께 무작위 변수(외식 횟수)의 모든 가능한 결과를 보여주는 확률 분포가 생성됩니다.
이산 확률 분포를 시각적으로 나타내기 위해 확률 히스토그램을 그릴 수 있습니다. 이전 예에서 계속해서 x축에 범주 0, 1, 2, 3, 4, 5가 있고 해당 확률이 막대 높이로 있는 히스토그램을 만들 수 있습니다. 예를 들어, 지난 주에 외식을 하지 않을 확률이 0.49인 경우 범주 x=0에 대해 0.49 높이에 막대를 그립니다. 이 확률 히스토그램의 모양은 동일한 데이터에 대한 빈도 분포 히스토그램의 모양과 동일합니다.
요약하면 확률변수는 확률적 실험의 결과를 나타내는 수치입니다. 그것들은 불연속적이거나 연속적일 수 있습니다. 불연속 확률 변수는 가능한 결과의 수가 한정되어 있으며 그 확률은 불연속 확률 분포를 사용하여 나타낼 수 있습니다. 확률 히스토그램은 이산 확률 분포를 시각적으로 묘사하고 다양한 결과의 가능성을 이해하는 데 유용합니다.
R의 확률 히스토그램
R의 확률 히스토그램
여러분, 안녕하세요! 오늘 우리는 qplot 명령을 사용하여 R에서 아름다운 확률 히스토그램을 구성하는 과정을 탐구할 것입니다. 몇 가지 예를 살펴보겠습니다.
첫 번째 예에는 각각의 확률과 함께 1에서 6까지의 값을 가질 수 있는 X라는 이산 랜덤 변수가 있습니다. 시작하려면 R에서 데이터를 입력하고 히스토그램을 생성해 보겠습니다.
1에서 6까지의 값을 가질 수 있는 변수 X를 정의하는 것으로 시작합니다. 콜론 단축 연산자인 1:6을 사용하여 이를 수행할 수 있습니다. 이제 변수 X에는 값 1, 2, 3, 4, 5 및 6이 포함됩니다.
다음으로 해당 확률을 저장할 벡터를 만듭니다. 이 경우 값 1, 2, 3, 4, 5 및 6에 대한 확률은 각각 0.15, 0.1, 0.1, 0.4, 0.2 및 0.05입니다. 확률의 순서는 해당 값의 순서와 일치해야 합니다.
데이터를 올바르게 입력했는지 확인하기 위해 모든 확률의 합계를 계산하여 빠른 검사를 수행할 수 있습니다. 적법한 이산 확률 분포가 있는 경우 합계는 항상 1이어야 합니다. 이 경우 합계는 실제로 1이며 데이터가 올바르게 입력되었음을 나타냅니다.
이제 확률 히스토그램을 생성해 보겠습니다. qplot 함수를 사용하고 x축에 변수 X를 지정합니다. 또한 높이 인수로 제공하는 확률을 사용하여 값에 가중치를 부여하는 방법을 R에 알려야 합니다. 마지막으로 플롯 유형을 지정합니다. 이 경우 히스토그램입니다.
히스토그램을 생성하면 막대가 서로 닿지 않는다는 것을 알 수 있습니다. 확률 히스토그램에서 인접한 값에는 서로 닿는 막대가 있어 관계를 나타냅니다. 이 문제를 해결하기 위해 보유하고 있는 값의 수와 동일한 빈 수를 지정할 수 있습니다. 이 경우 6개의 값이 있으므로 빈 수를 6으로 설정합니다.
이제 히스토그램이 형태를 갖추기 시작합니다. 그러나 시각적 매력을 높이기 위해 막대 사이에 약간의 구분을 추가할 수 있습니다. 막대의 경계 색상을 지정하여 이를 달성합니다. 이 경우 검정색을 사용합니다.
두 번째 예제로 이동하여 확률 히스토그램을 만드는 프로세스를 계속 진행합니다. 이번에는 15, 16, 18, 19, 20의 값을 가질 수 있는 Y라는 랜덤 변수가 있습니다. 또한 이 값에 해당하는 확률도 있습니다. 단, 17은 확률이 0이므로 가능한 결과가 아닙니다.
이전과 동일한 단계를 따라 데이터를 입력하고 qplot 함수를 사용하여 히스토그램을 생성합니다. 그러나 이번에는 Y가 17인 빈 버킷이 있음을 알 수 있으며 이는 확률이 0임을 나타냅니다. 이 정보를 정확하게 캡처하기 위해 6개의 빈을 사용하여 Y가 17인 빈 빈을 허용합니다.
막대의 경계 색상과 내부 색상을 추가하여 히스토그램의 미학을 더욱 향상시킬 수 있습니다. 예를 들어 경계 색상을 진한 파란색으로 설정하고 채우기 색상을 일반 파란색으로 설정할 수 있습니다. 또한 확률을 나타내도록 y축 레이블을 사용자 정의하고 추상 데이터 세트이므로 x축 레이블을 단순히 "값"으로 변경할 수 있습니다.
이러한 조정을 통해 확률 히스토그램이 보다 전문적으로 보입니다. 물론 색상과 레이블을 계속 미세 조정하여 원하는 시각적 표현을 얻을 수 있습니다. 이것이 R에서 우아한 확률 히스토그램을 구성하는 방법입니다.
불연속 확률 변수 작업
불연속 확률 변수 작업
여러분, 안녕하세요! 오늘은 이산 랜덤 변수와 이산 확률 분포의 개념을 살펴보겠습니다. 랜덤 변수는 값이 랜덤 프로세스에 의해 결정되는 변수입니다. 이산 확률 변수의 경우 가능한 결과를 나열할 수 있으므로 이산 확률 분포가 생성됩니다.
이 개념을 설명하기 위해 예를 들어 보겠습니다. 16개의 방이 있는 집이 있고 방을 무작위로 선택하여 창문의 수를 세는 것을 상상해 보십시오. 창의 수는 0, 1, 2, 3 또는 4가 될 수 있으며 각각 해당 확률은 3/16, 5/16 등입니다. 이는 가능한 모든 결과와 관련 확률로 구성된 불연속 확률 분포를 나타냅니다.
불연속 확률 변수와 불연속 확률 분포에는 두 가지 중요한 속성이 있습니다. 첫째, 모든 확률의 합은 1이어야 합니다. 이것은 확률이 가능한 모든 결과를 포함하므로 어떤 일이 항상 일어날 것임을 보장합니다. 이 예에서 모든 확률을 더하면 16/16 또는 1이 됩니다.
둘째, 불연속 확률 분포를 다룰 때 확률을 추가할 수 있습니다. 예를 들어 X가 3 또는 4일 확률을 구하고 싶다면 X가 3일 확률과 X가 4일 확률을 계산해서 더하면 된다. 이 경우 확률은 3/16 + 1/16 = 4/16 = 1/4입니다.
몇 가지 예제 문제를 진행해 보겠습니다. 5개의 가능한 결과(5, 10, 25, 50, 200)가 있는 무작위 변수 Y를 포함하는 또 다른 이산 확률 분포를 고려하십시오. 이러한 결과 중 4개에 대한 확률이 주어지고 다섯 번째 결과에 대한 확률을 찾아야 합니다.
모든 확률의 합은 1이어야 하므로 누락된 확률을 추론할 수 있습니다. 1에서 알려진 확률의 합(0.04 + 0.12 + 0.18 + 0.45)을 빼면 Y가 200일 확률이 0.21임을 알 수 있습니다.
이제 동일한 이산 확률 분포를 사용하여 몇 가지 계산을 수행해 보겠습니다. 먼저 Y가 10보다 작거나 같을 확률을 찾고자 합니다. 여기에는 Y가 5이고 Y가 10일 확률을 합산하여 0.04 + 0.12 = 0.16이 됩니다.
다음으로 Y가 홀수일 확률에 관심이 있습니다. 이 경우 Y는 5이고 Y는 25라는 두 가지 결과가 있습니다. 확률을 더하면 0.04 + 0.18 = 0.22가 됩니다.
마지막으로 Y가 5보다 클 확률을 결정해 보겠습니다. Y가 10, 25, 50, 200이 될 확률을 직접 합산하는 대신 지름길을 사용할 수 있습니다. Y가 5보다 크지 않을 확률인 보수 사건을 고려합니다. 1에서 Y가 5(0.04)보다 작거나 같을 확률을 빼서 1 - 0.04 = 0.96을 얻습니다.
이 예제는 이산 확률 분포의 맥락에서 확률을 계산하고 보완적인 이벤트를 활용하는 방법을 보여줍니다.
랜덤 변수: 평균, 분산 및 표준 편차
랜덤 변수: 평균, 분산 및 표준 편차
여러분, 안녕하세요! 오늘은 랜덤 변수와 중심 경향 및 산포, 즉 평균, 분산 및 표준 편차에 대한 측정값에 대해 논의할 것입니다. 수치 데이터와 유사한 방식으로 무작위 변수의 중심과 산포를 설명할 수 있습니다.
불연속 확률 분포의 예를 살펴보겠습니다. 사람들에게 지난주에 외식한 저녁 식사 횟수에 대해 무작위로 질문하는 설문 조사를 수행했다고 상상해 보십시오. 분포를 보면 응답자의 약 49%가 외식을 하지 않았으며 약 22%가 한 번 외식을 한 적이 있는 등이었습니다. 확률 히스토그램을 사용하여 이 분포를 시각화할 수 있습니다. 히스토그램을 관찰하면 이 무작위 변수의 중심과 산포를 논의하는 것이 직관적입니다.
보다 구체적으로 히스토그램을 기반으로 결과를 해석해 보겠습니다. 랜덤 변수의 기대값 또는 평균은 랜덤 변수의 각 값에 해당 확률을 곱하고 결과를 합산하여 결정됩니다. 이 가중 평균은 랜덤 변수의 중심을 나타냅니다. 이전의 이산 확률 분포를 참조하여 각 값(0, 1, 2 등)에 해당 확률(0.49, 0.22 등)을 곱하고 곱을 합산하여 기대값을 계산합니다. 이 경우 기대값은 1.12입니다.
기대값은 종종 데이터 분석의 모집단 평균과 유사한 μ로 표시됩니다. 랜덤 변수의 중심을 측정합니다. 확률 히스토그램을 보면 예상 값은 히스토그램이 받침점에서 균형을 이루는 균형점을 나타냅니다.
이제 분산과 표준 편차를 사용하여 측정되는 불연속 확률 변수의 확산에 대해 논의해 보겠습니다. 분산은 랜덤 변수의 각 값에서 평균을 빼고 결과를 제곱한 다음 해당 확률을 곱하고 모든 가중 분산을 합산하여 계산합니다. 이것은 각 값이 평균에서 얼마나 벗어나는지를 포착합니다. 그러나 차이를 제곱했기 때문에 결과 분산의 단위는 원래 데이터와 동일하지 않습니다. 동일한 규모로 측정하려면 분산의 제곱근을 취하여 표준 편차를 제공합니다.
실제로 분산과 표준편차를 직접 계산하는 것은 번거로울 수 있습니다. 통계 소프트웨어 또는 계산기와 같은 기술을 사용하는 것이 좋습니다. 예를 들어 R 프로그래밍에서는 값과 해당 확률을 입력한 다음 기본 제공 함수를 사용하여 예상 값, 분산 및 표준 편차를 계산할 수 있습니다.
기술을 활용하여 계산을 효율적으로 수행하고 제품 및 제곱과 관련된 수동 계산을 피할 수 있습니다. 분산은 계산 및 이론적 고려 사항에 대한 귀중한 통찰력을 제공하는 반면 표준 편차는 원래 무작위 변수와 동일한 단위를 공유하므로 해석에 더 편리합니다.
요약하면 랜덤 변수를 다룰 때 중심(평균)과 산포(분산 및 표준 편차)를 이해하는 것이 중요합니다. 이러한 측정을 통해 무작위 변수의 특성을 효율적으로 정량화하고 해석할 수 있습니다.
Bernoulli 시행 및 이항 분포
Bernoulli 시행 및 이항 분포
안녕하세요, 오늘은 Bernoulli 시행과 이항분포에 대해 알아보겠습니다. Bernoulli 시행은 성공과 실패라는 두 가지 결과가 나오는 간단한 확률 실험입니다. 이러한 시도는 소문자 "p"로 표시되는 성공 확률로 정의됩니다. 이 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다.
예를 들어, 동전을 던지고 앞면이 성공했다고 생각하면 성공 확률(p)은 1/2입니다. 표준 52장 카드 덱에서 카드를 뽑고 에이스를 성공으로 간주하면 성공 확률(p)이 4/52 또는 1/13이 됩니다. 미국 유권자의 40%가 대통령을 승인하는 경우 유권자를 무작위로 선택하면 성공 확률(p)이 0.4가 됩니다.
"성공"과 "실패"라는 용어는 이 맥락에서 기술적인 용어이며 정치적 진술이나 개인적인 의견을 암시하지 않는다는 점에 유의하는 것이 중요합니다. Bernoulli 시행을 성공을 1로, 실패를 0으로 인코딩하여 이산 확률 변수로 나타낼 수 있습니다. 이를 통해 x가 0 또는 1의 값을 갖는 간단한 확률 분포를 생성할 수 있습니다. 1을 얻을 확률은 p와 같지만 0을 얻을 확률은 이러한 결과가 상호보완적이기 때문에 1 - p와 같습니다.
x의 모든 가능한 값에 대해 x에 해당 확률(p(x))을 곱하여 이 임의 변수(x)의 기대값을 계산할 수 있습니다. 기대값은 단일 시도에서 성공할 확률을 나타내는 p와 같습니다. 유사하게 x의 모든 가능한 값에 대해 p(x)를 곱한 (x - 기대값)^2를 합산하여 분산을 계산할 수 있습니다. 분산은 p(1 - p)와 같습니다. 분산의 제곱근을 취하면 무작위 변수의 확산을 측정하는 표준 편차를 얻을 수 있습니다.
많은 경우에 Bernoulli 시행은 반복적으로 수행되어 n개의 동일하고 독립적인 시행에서 총 성공 횟수가 발생합니다. 이것은 0에서 n까지의 값을 가질 수 있는 불연속 랜덤 변수로 이어집니다. 일반적으로 B(n, p)로 표시되는 이항 분포는 성공 확률이 p인 n개의 동일하고 독립적인 Bernoulli 시행이 있을 때 이 확률 변수에 대한 확률 분포를 나타냅니다.
예를 들어 공정한 동전을 세 번 던지고 x를 앞면의 수로 정의하면 B(3, 0.5)가 이항 분포가 됩니다. 가능한 모든 결과와 해당 확률을 고려하여 x의 각 값에 대한 확률을 직접 계산할 수 있습니다. n이 커질수록 이러한 확률을 손으로 계산하는 것은 비실용적이 되며 보다 일반적인 공식이 필요합니다.
n개의 시도에서 정확히 k개의 성공 확률(k는 0에서 n까지의 범위)은 n choose k 곱하기 p^k 곱하기 (1 - p)^(n - k) 공식으로 제공됩니다. 이 공식은 n번의 시도에서 정확히 k번의 성공을 달성하는 방법의 수와 각각의 확률을 설명합니다. 이항 분포에서 확률을 효율적으로 계산할 수 있습니다.
농구 선수의 평균 자유투 성공률이 78%인 경우를 예로 들어 보겠습니다. 그녀가 10개의 자유투를 쏘는 경우 이항 분포를 사용하여 정확히 8개의 슛과 최소 8개의 슛을 성공시킬 확률을 계산할 수 있습니다. 값을 수식에 대입하면 그에 따라 확률을 계산할 수 있습니다.
이항 분포를 갖는 랜덤 변수는 여러 베르누이 시행의 합입니다. 이 랜덤 변수의 평균은 n x p로 주어지고 분산은 n x p x (1 - p)로 주어집니다. 표준 편차는 np 곱하기(1 - p)의 제곱근입니다.
성공 확률이 0.78인 농구 선수가 10번 슛을 쏘는 경우 기대값(평균)은 10 * 0.78 = 7.8이 되고 표준편차는 (10 * 0.78 * (1 - 0.78)의 제곱근이 됩니다. )) ≈ 1.3.
이항 분포를 시각화하기 위해 확률 히스토그램을 구성할 수 있습니다. 0.78의 성공 확률로 10개의 슛을 쏘는 농구 선수의 예를 들어, 우리는 x(성공한 슛 수)의 각 값을 0에서 10까지 나타내는 막대가 있는 히스토그램을 만듭니다. 각 막대의 높이는 성공 확률에 해당합니다. 10번의 시도에서 특정 샷 수. 예를 들어 정확히 8발을 발사할 확률은 약 0.3입니다.
이항 분포는 고정된 성공 확률로 반복되는 독립적인 시도와 관련된 상황을 분석하기 위한 유용한 프레임워크를 제공합니다. 기대값, 분산, 확률 계산과 같은 이항 분포의 속성을 이해함으로써 통계, 재무, 품질 관리를 포함한 다양한 분야에서 정보에 입각한 의사 결정과 예측을 할 수 있습니다.
이항 분포는 독립적인 시행 및 각 시행에 대한 고정된 성공 확률과 같은 특정 조건을 가정한다는 점을 기억하십시오. 이항 분포를 실제 시나리오에 적용할 때 이러한 가정을 신중하게 고려해야 합니다.
결론적으로 Bernoulli 시행과 이항 분포는 두 가지 결과와 여러 독립 시행으로 확률 실험에 대한 근본적인 이해를 제공합니다. 이러한 개념과 관련된 공식 및 속성을 활용하여 다양한 시나리오에서 다양한 수준의 성공을 달성할 확률을 분석하고 예측할 수 있습니다.
R의 이항 계산
R의 이항 계산
안녕하세요 여러분, 오늘 우리는 이항 분포와 관련된 계산을 수행하기 위해 R을 사용할 것입니다. R에는 이항 분포를 사용하기 위해 알아야 할 중요한 네 가지 기본 함수가 있습니다.
먼저 rbinom() 함수는 이항 분포에서 임의의 값을 생성합니다. 생성할 무작위 값의 수, 샘플 크기 및 개별 시도에서 성공 확률의 세 가지 인수가 필요합니다. 예를 들어, rbinom(10, 2, 0.5)는 표본 크기가 2이고 성공 확률이 0.5인 이항 분포에서 10개의 임의 값을 생성합니다.
둘째, dbinom() 함수는 이항 분포에서 지정된 수의 성공을 얻을 확률을 반환합니다. 성공 횟수, 샘플 크기 및 성공 확률의 세 가지 인수가 필요합니다. 성공 횟수를 벡터로 지정하여 다양한 성공 횟수에 대한 확률을 한 번에 계산할 수 있습니다. 예를 들어, dbinom(0:4, 4, 0.5)는 표본 크기가 4이고 성공 확률이 0.5인 이항 분포에서 0, 1, 2, 3 또는 4번 성공할 확률을 계산합니다.
다음으로 pbinom() 함수는 누적 확률 함수입니다. 이항 분포에서 최대 지정된 수의 성공을 얻을 확률을 반환합니다. dbinom()과 유사하게 누적 확률을 계산하기 위해 값의 벡터를 제공할 수 있습니다. 예를 들어, pbinom(0:4, 4, 0.5)는 샘플 크기가 4이고 성공 확률이 0.5인 이항 분포에서 최대 0, 1, 2, 3 또는 4개의 성공을 얻을 확률을 반환합니다.
마지막으로 qbinom() 함수는 역 확률 계산기입니다. 누적 확률이 지정된 확률보다 크거나 같은 성공의 가장 작은 값을 반환합니다. 즉, 이항 분포에서 분위수를 계산합니다. 예를 들어, qbinom(c(0.25, 0.5, 0.75), 10, 0.5)는 표본 크기가 10이고 성공 확률이 0.5인 이항 분포에서 25번째, 50번째 및 75번째 백분위수를 제공합니다.
이제 이 함수를 몇 가지 문제에 적용해 보겠습니다.
문제 1: 공정한 주사위를 10번 굴리고 6이 나오는 횟수를 세는 실험을 50회 시뮬레이션해 봅시다. 샘플 크기가 10이고 성공 확률이 1/6인 rbinom() 함수를 사용할 수 있습니다(6이 나올 확률이 1/6이므로).
문제 2: 최근 조사에 따르면 미국인의 72%가 고양이보다 개를 선호합니다. 8명의 미국인을 무작위로 선택했다면 정확히 6명이 개를 선호하고 6명 미만이 개를 선호할 확률은 얼마입니까? dbinom() 및 pbinom() 함수를 사용할 수 있습니다.
prob_six <- dbinom ( 6 , 8 , 0.72 ) # Probability of fewer than 6 preferring dogs
prob_less_than_six <- pbinom ( 5 , 8 , 0.72 )
prob_six
prob_less_than_six
문제 3: 가중 동전은 앞면이 나올 확률이 42%입니다. 5번 던질 때 예상되는 앞면의 수는 얼마입니까? 또한, 5번 던질 때 앞면이 나올 수를 나타내는 랜덤 변수에 대한 확률 히스토그램을 구성합니다.
예상 앞면 수를 계산하기 위해 샘플 크기와 성공 확률의 곱인 이항 분포의 예상 값에 대한 공식을 사용할 수 있습니다. 이 경우 표본 크기는 5이고 성공 확률(앞으로 나올 확률)은 0.42입니다.
expected_heads <- 5 * 0.42 expected_heads
가중 동전을 5번 던질 때 예상되는 앞면 수는 2.1입니다.
확률 히스토그램을 구성하기 위해 R의 ggplot2 패키지를 사용할 것입니다. 먼저 패키지를 설치하고 로드하겠습니다.
library ( ggplot2 )
다음으로 dbinom() 함수를 사용하여 5번 던질 때 앞면이 나오는 수에 대한 이산 확률 분포를 생성합니다. 가능한 각 앞면 수(0~5)에 대한 확률을 계산합니다.
p <- dbinom ( x , 5 , 0.42 ) # Probabilities
이제 ggplot2를 사용하여 확률 히스토그램을 만들 수 있습니다.
df <- data.frame ( x = x , p = p )
ggplot ( df , aes ( x = as.factor ( x ) , y = p ) ) + geom_bar ( stat = "identity" , fill = "lightblue" ) + xlab ( "Number of Heads" ) + ylab ( "Probability" ) + ggtitle ( "Probability Histogram for Number of Heads in 5 Tosses" )
이 코드는 x축의 헤드 수와 y축의 해당 확률로 히스토그램을 생성합니다.
균일 분포
균일 분포
안녕하세요 여러분, 오늘 우리는 연속 무작위 변수를 탐구하고 특히 균등 분포를 가진 변수를 탐색할 것입니다.
연속 확률 변수가 무엇인지 상기하면서 시작하겠습니다. 불연속적인 값 집합과 달리 전체 범위 내에서 값을 가질 수 있는 변수입니다. 예를 들어 누군가를 임의로 선택하여 정확한 키를 측정하면 이 임의 변수가 취할 수 있는 값은 무한히 많습니다. 결과적으로 특정 값을 얻을 확률은 극소수이므로 특정 값의 확률을 논의하는 것은 비실용적입니다. 이 문제를 해결하기 위해 특정 범위의 값에 속하는 무작위 변수와 관련된 확률에 중점을 둡니다.
예를 들어, 어떤 사람의 키가 정확히 58.6인치(거의 0)일 확률을 묻는 대신 키가 55인치에서 65인치 사이로 떨어질 확률에 대해 문의할 수 있습니다. 이 접근 방식을 사용하면 의미 있는 확률로 작업할 수 있습니다. 또 다른 예는 무작위로 선택된 노래가 정확하게 3분이 아니라 3분보다 짧거나 3분보다 길다는 확률을 고려하는 것입니다.
연속 확률 변수의 가장 간단한 유형 중 하나는 균일 분포입니다. 균일하게 분포된 랜덤 변수에서 확률은 전체 도메인에 고르게 분산됩니다. 지정된 소수 자릿수를 사용하여 0과 1 사이의 난수를 생성하는 Excel의 rand() 함수에서 이 개념을 접했을 수 있습니다. 이 경우 모든 값의 확률은 동일합니다. 우리는 이것을 간격 [0, 1]에서 균일한 분포라고 부릅니다.
균등 분포에 대한 확률을 계산하기 위해 원하는 간격의 너비를 전체 범위의 전체 너비로 나눕니다. 예를 들어 결과가 0.2 미만일 확률은 0.2를 1(전체 너비)로 나눈 결과 0.2가 됩니다. 마찬가지로 결과가 4보다 크거나 같을 확률은 관심 구간의 너비가 0.6 단위이므로 0.6입니다. 불평등의 엄격함(예: "<" 대 "<=")은 개별 결과의 확률이 매우 작다는 점을 감안할 때 연속 무작위 변수를 처리할 때 관련이 없다는 점에 주목할 가치가 있습니다.
균일 확률 분포의 개념을 다른 간격으로 확장할 수도 있습니다. 예를 들어 간격 [1, 7]을 고려하면 무작위 변수가 동일한 확률로 1과 7 사이의 값을 취할 수 있는 연속 확률 분포가 생성됩니다. 이 분포 내에서 몇 가지 예를 살펴보겠습니다.
연속 확률 변수에 대한 확률 히스토그램을 그리는 것은 개별 확률이 극소이기 때문에 이산 확률 변수와 같은 방식으로 가능하지 않습니다. 대신 밀도 플롯을 사용하여 확률을 높이가 아닌 면적으로 나타냅니다. 균일 분포에 대한 밀도 그림에서 모든 확률은 동일하며 결과는 수평선입니다. 밀도 플롯 아래의 총 면적은 확률이 올바르게 합산되도록 항상 1이어야 합니다.
설명을 위해 구간 [-5, 5]에서 균일 분포를 고려해 보겠습니다. 이 경우 도메인의 너비는 10(5 - (-5))입니다. 밀도 곡선을 만들려면 직사각형의 높이가 1을 너비로 나눈 값(1/10)이 필요합니다. 이렇게 하면 밀도 곡선 아래의 총 면적이 1이 됩니다.
이제 이 분포에서 랜덤 변수가 3.5보다 클 확률을 계산해 봅시다. 밀도 곡선을 다시 그리고 X > 3.5에 해당하는 영역을 음영 처리할 수 있습니다. 그러면 확률은 해당 음영 영역의 면적과 같습니다.
직사각형의 면적(높이 곱하기)을 계산하는 공식을 적용하여 너비(5 - 3.5 = 1.5)에 높이(1/10)를 곱합니다. 그 결과 면적은 1.5/10 또는 15%가 됩니다.
요약하면 균등 분포 U(-5, 5)에서 X가 3.5보다 클 확률은 15%입니다.
연속 랜덤 변수
연속 랜덤 변수
여러분, 안녕하세요! 오늘은 연속확률변수에 대해 알아보겠습니다. 연속 확률 변수는 단순히 전체 범위에 걸쳐 값을 취할 수 있는 변수로 정확한 측정이 가능합니다. 이 개념을 설명하기 위해 몇 가지 예를 살펴보겠습니다.
지역 동물 보호소에서 임의의 개를 선택하고 꼬리 길이를 측정한다고 상상해 보십시오. 원하는 정도의 정확도로 측정값을 얻을 수 있습니다. 마찬가지로 임의의 순간에 남극에서 정확한 온도를 측정하거나 임의로 선택된 고객 서비스 통화의 길이를 측정하는 것을 고려하십시오. 이러한 예는 모든 수준의 정밀도로 변수를 측정할 수 있는 능력을 보여줍니다.
대조적으로 불연속 확률 변수는 비연속 집합의 값만 가정할 수 있습니다. 예를 들어, 주사위를 20번 굴리고 6의 수를 세면 0, 1, 2, 3, 4 등과 같은 정수가 나옵니다. 그러나 1/2, 2/3 또는 3과 1/4과 같은 분수 또는 소수는 가능한 결과가 아닙니다.
연속 확률 변수에 대한 확률을 설명하는 것은 불연속 확률 변수보다 더 복잡합니다. 가능한 결과가 무한히 많기 때문에 특정 개별 결과를 얻을 가능성은 본질적으로 0입니다. 예를 들어 고객 서비스 호출이 150초 동안 지속된다고 명시하면 실제 길이는 150.1, 150.05 또는 기타 수많은 값이 될 수 있습니다. 따라서 통화가 정확히 150초 동안 지속될 확률은 본질적으로 0입니다.
그럼에도 불구하고 특정 호출 길이는 다른 것보다 가능성이 더 높아 보일 수 있습니다. 우리는 150초 동안 지속되는 통화가 3시간 동안 지속되는 통화보다 훨씬 더 가능성이 높다고 예상합니다. 연속 무작위 변수의 확률을 다루기 위해 특정 결과가 아닌 값의 범위에 중점을 둡니다. 예를 들어 호출이 140초에서 160초 사이에 있을 확률을 고려하여 종종 0이 아닌 확률을 생성합니다.
연속 랜덤 변수를 시각화하는 한 가지 방법은 밀도 곡선을 이용하는 것입니다. 범위에 대한 확률은 밀도 곡선 아래의 영역으로 표시됩니다. 확률이 감소하면서 범위가 0에서 4까지인 랜덤 변수 X를 나타내는 그래프를 살펴보겠습니다. 그래프의 음영 영역은 주어진 시도에서 X가 1과 2 사이에 떨어질 확률을 나타냅니다. 그림에서 우리는 X가 1과 2 사이에 떨어질 확률이 0과 1 사이에 떨어질 확률보다 작다는 것을 관찰할 수 있습니다. 이 불일치는 1에서 2에 비해 0에서 1까지의 곡선 아래에 더 많은 영역이 있기 때문에 발생합니다. 마찬가지로 X가 2와 3 사이보다 1과 2 사이에 있을 확률이 더 높습니다. 음영 영역의 면적을 근사하여 X가 1과 2 사이에 있을 확률을 추정할 수 있으며, 결과는 약 3/10 또는 30%.
밀도 곡선은 일반적으로 확률 밀도 함수(PDF)라고 합니다. 합법적인 PDF에는 두 가지 필수 속성이 있습니다. 첫째, 확률의 긍정적인 특성과 일치하려면 항상 긍정적이어야 합니다. 둘째, 적법한 PDF 그래프 아래의 총 면적은 항상 1이어야 하며, 이는 확률 실험을 수행할 때 X 값을 얻는다는 것을 의미합니다.
PDF 및 밀도 곡선의 개념은 직관적일 수 있지만 이들과 관련된 실제 계산은 어려울 수 있습니다. 실제로 우리는 광범위한 계산의 필요성을 우회하기 위해 확률 변수의 누적 분포 함수(CDF)를 사용하는 경우가 많습니다. CDF는 랜덤 변수가 주어진 시행에서 지정된 X보다 크지 않은 값을 가정할 확률을 제공합니다. 기본적으로 확률을 축적합니다. 예를 들어, X가 증가하면 확률이 누적될수록 해당 CDF 값도 증가합니다.
CDF를 사용하여 특정 범위에 속하는 임의 변수의 확률을 계산할 수 있습니다. 이 확률은 범위의 하한 및 상한의 CDF 값을 빼서 결정됩니다. X로 표시되는 동일한 확률 변수의 PDF 및 CDF 그래프를 살펴보겠습니다. 그래프의 음영 영역은 X가 2보다 작거나 같을 누적 확률을 나타내며 F(2)로 표시되고 CDF는 2 . X가 증가하면 더 많은 확률이 누적되기 때문에 CDF, F(X)도 항상 증가합니다.
X가 a와 b라는 두 값 사이에 있을 확률을 계산하기 위해 a의 CDF 값에서 b의 CDF 값을 뺍니다. 그래프에서 이는 X = 1의 왼쪽 영역에서 X = 2의 왼쪽 영역을 빼는 것과 같습니다. 수학적으로 이것은 F(b) - F(a)로 표현됩니다. 시각적 표현은 그것을 분명하게 만듭니다.
연속 확률 변수의 가장 간단한 유형은 균일한 분포를 갖는 것입니다. 균일 분포에서 확률은 동일한 너비의 간격에 대해 동일합니다. 기본적으로 특정 범위 내에서 X의 모든 값이 동일할 가능성이 있음을 의미합니다. 이것을 보는 또 다른 방법은 균일하게 분포된 랜덤 변수의 PDF가 상수 함수라는 것입니다.
예를 들어 보겠습니다. 값이 균일한 분포로 1에서 7 사이에 속할 수 있는 연속 랜덤 변수가 있다고 가정합니다. PDF는 총 면적이 1인 1과 7 사이의 상수 함수입니다. 간격의 너비가 6이므로 그래프의 높이는 1/6입니다. 이 정보를 사용하여 X의 모든 범위에 대한 확률을 계산할 수 있습니다. 예를 들어 X가 2와 7 사이에 있을 확률은 간격의 너비(7 빼기 2)를 그래프의 높이로 나눈 값입니다. 1/6입니다. 따라서 확률은 (1/6) * (7 - 2) = 5/6입니다.
균등 분포에 대한 보다 포괄적인 설명을 원하는 경우 위에 제공된 링크에서 찾을 수 있는 주제에 대한 전용 비디오가 있습니다.