Programlama öğreticileri - sayfa 14

 

Normal Dağılım


Normal Dağılım

Bugün normal olasılık dağılımlarını ve ampirik kuralı tartışacağız. Sürekli bir rasgele değişkenle uğraşırken, yoğunluk eğrisi genellikle bir çan eğrisi şeklini alır. Bu çan şeklindeki eğri, olasılığın çoğunun dağılımın merkezine veya ortalamasına yakın bir yerde yoğunlaştığını gösterir. Ancak teorik olarak hayal edebileceğiniz kadar büyük veya küçük sonuçlar mümkündür.

Normal dağılımlara genellikle gerçek hayat senaryolarında rastlanır. Örneğin, rastgele seçilen yeni doğan bebeklerin boylarını ölçersek, açık bir otoyoldaki araçların hızlarını gözlemlersek veya rastgele seçilen öğrencilerin standart testlerdeki puanlarını incelersek, tüm bu rastgele değişkenlerin yaklaşık olarak normal dağılımları izlemesi muhtemeldir. Normal dağılımlar, ortalama etrafında simetri sergiler, yani ortalamadan daha düşük sonuçlar elde etme olasılıkları, ortalamadan daha büyük sonuçlar elde etme olasılıklarıyla aynıdır. Bu nedenle, yenidoğanların boyları dikkate alındığında, ortalamanın üstünde veya altında bebeklerle karşılaşma olasılığımız eşittir.

Normal dağılımın özellikleri, ortalaması ve varyansı (veya standart sapması) ile tam olarak tanımlanır. Ortalama, dağılımın merkezini temsil ederken, standart sapma, ortalamadan eğrinin bükülme noktalarına olan mesafeyi temsil eder. Bu bükülme noktaları, eğrinin tepe benzeri şeklinden vadi benzeri şekline geçişi işaretler.

2017'deki SAT puanlarını içeren bir örneği ele alalım. SAT puanları, ortalama 1060 ve standart sapma 195 ile yaklaşık olarak normal dağılım gösteriyordu. Bu dağılımın bir grafiğini çizerek, ortalamayı 1060'ta buluyor ve bükülme noktalarını bir olarak işaretliyoruz. her iki yönde de ortalamadan standart sapma. Ortalamanın üstünde ve altında bir standart sapmaya karşılık gelen ek noktaları da işaretleyebiliriz.

Yoğunluk eğrilerini yorumlarken, bunların altındaki alanlar olasılıkları temsil eder. Grafikten, 865 ile 1060 arasında rastgele bir puan seçme olasılığının, 670 ile 865 arasında bir puan seçmekten önemli ölçüde daha yüksek olduğunu görebiliriz. olasılıklar.

Ampirik kurala göre, herhangi bir normal dağılımda, olasılığın yaklaşık %68'i ortalamanın bir standart sapması içinde, %95'i iki standart sapma içinde ve %99,7'si üç standart sapma içindedir. Bu oranlar, ilgili bölgelerdeki eğrinin altındaki alanlara karşılık gelir.

Ampirik kuralı ortalama 1060 ve standart sapma 195 olan SAT puan dağılımımıza uyguladığımızda, 865 ile 1255 arasında rastgele bir puan seçme şansının %68, 670 arasında bir puan seçme şansının ise %95 olduğunu bulduk. ve 1450 ve 475 ile 1645 arasında bir puan seçme şansı %99,7.

Geometri ve ampirik kuralı kullanarak, diğer senaryolar için olasılıkları da hesaplayabiliriz. Örneğin, ortalamadan birden fazla standart sapma sonucu elde etme olasılığı, bir eksi ortalamanın bir standart sapması içinde sonuç elde etme olasılığına eşittir. Benzer şekilde, ortalamanın iki standart sapması içindeki alanın tümleyenini bularak, ortalamanın ikiden fazla standart sapma altında bir değer elde etme olasılığını hesaplayabiliriz.

Özet olarak, normal olasılık dağılımları çan şeklindeki bir eğriyi takip eder ve ampirik kural, normal bir dağılımın belirli bölgeleri içindeki olasılıkları tahmin etmek için kullanışlı bir yaklaşım sağlar.

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

Standart Normal Dağılım


Standart Normal Dağılım

Herkese merhaba, bugün standart normal dağılıma geçiyoruz. Bu, burada gösterildiği gibi, esasen sıfır ortalaması ve bir standart sapması olan bir normal dağılım veya çan eğrisidir.

Negatif sonsuz ile pozitif sonsuz arasında herhangi bir değer alabilen sürekli bir rastgele değişkenle uğraşıyoruz. Bununla birlikte, olasılığın çoğunluğu sıfıra yakın bir yerde toplanmıştır. Eğrinin zirvesi, sıfır olan ortalamada ortalanır ve bükülme noktaları, grafiğin bir tepe şeklinden bir vadi şekline geçtiği artı ve eksi birde meydana gelir.

Standart bir normal dağılımı izleyen rasgele değişkenlere atıfta bulunmak için genellikle "z" harfini kullanırız. Standart normal dağılım özellikle yararlıdır çünkü normal dağılıma sahip (ortalama mu ve standart sapma sigma ile) herhangi bir rasgele değişken standart bir normal dağılıma dönüştürülebilir. Bu dönüşüm, ortalamanın çıkarılması ve standart sapmaya bölünmesiyle elde edilir: z = (x - mu) / sigma.

Şimdi z-skorları hakkında konuşalım. Bir z-skoru, bir x değerinin ortalamanın üstünde veya altında olduğu standart sapmaların sayısını temsil eder. Bazen, z-puanlarına standart puanlar da denir. Standart normal dağılımda, sonsuz sayıda olduğundan bireysel değerlerin olasılıklarına odaklanmıyoruz. Bunun yerine, z'nin belirli aralıklara düşme olasılıklarını dikkate alıyoruz.

Standart normal dağılımdaki olasılıkları dikkate alırken, istenen aralık için grafiğin altındaki alanları inceleriz. Örneğin, z'nin -1 ile 0,5 arasında olma olasılığına bakalım. Bu iki değer arasındaki grafiğin altındaki taralı alanı bulmak istiyoruz. Unutmayın, toplam olasılığı temsil ettiği için grafiğin altındaki toplam alan her zaman birdir.

Standart normal gibi sürekli rasgele değişkenlerin olasılıklarını tanımlamak için, genellikle kümülatif dağılım fonksiyonlarını (CDF'ler) kullanırız. CDF, rastgele bir değişkenin belirli bir değerden küçük veya ona eşit olma olasılığını sağlar. Standart normal dağılımda, CDF için Phi(z) gösterimini kullanırız.

Olasılıkları hesaplamak için hesap makineleri veya yazılım gibi teknolojilerin kullanılması önerilir. Örneğin, bir TI hesaplayıcı "normalcdf" işlevine sahiptir, Excel hesaplamaları yapabilir ve R'de standart normal dağılım için CDF'yi hesaplamak için "pnorm" komutu kullanılır.

Bir örnek düşünelim. 0,5'ten küçük veya 0,5'e eşit bir z-skoru olasılığını bulmak istiyorsak, CDF'yi kullanabilir ve yaklaşık 0,691 veren Phi(0,5)'i hesaplayabiliriz. Bu nedenle, 0,5'ten küçük veya buna eşit bir z-skoru elde etme olasılığı yaklaşık %69,1'dir.

Genel olarak, belirli bir aralığa (a'dan b'ye) düşen bir z puanının olasılığını hesaplamak istiyorsak, z'nin a'dan küçük veya a'ya eşit olma olasılığını, z'nin a'dan küçük veya ona eşit olma olasılığından çıkarırız. B. Sembolik olarak bu Phi(b) - Phi(a) şeklinde yazılabilir.

Son olarak, herhangi bir bireysel z-skoru olasılığının sonsuz küçük olduğunu unutmamak önemlidir. z'nin belirli bir değerden (c) küçük veya ona eşit olma olasılığı, z'nin bu değerden (c) küçük olma olasılığı ile aynıdır. Ayrıca, z'nin c'den büyük olma olasılığı, bir eksi z'nin c'den küçük veya ona eşit olma olasılığına eşittir, çünkü bu olaylar tamamlayıcıdır.

Örneklemek için, -1,5'ten büyük bir z-skoru elde etme olasılığını belirleyelim. Yukarıdaki ikinci olguyu kullanarak, 1 eksi z'nin yaklaşık %93,3 olan -1,5'ten küçük veya ona eşit olma olasılığını hesaplayabiliriz. Beklendiği gibi, negatif bir z-skorunun bizi çan eğrisinin en soluna yerleştirdiği ve alanın önemli bir bölümünün o z-skorunun sağında yer aldığı düşünüldüğünde, bu olasılık %50'den oldukça fazladır.

Özetle, ortalama sıfır ve standart sapma bir ile karakterize edilen standart normal dağılım, istatistikte temel bir kavramdır. Bir değerin ortalamadan olan standart sapmalarının sayısını ölçen z puanlarını kullanarak, dağılımdaki belirli aralıklarla ilişkili olasılıkları belirleyebiliriz. Bu olasılıkları hesaplamak için genellikle Phi(z) olarak gösterilen kümülatif dağılım fonksiyonu (CDF) kullanılır. CDF değerlerini hesaplamak için hesap makineleri veya istatistiksel yazılımlar gibi teknolojiler yaygın olarak kullanılır. Unutmayın, standart normal dağılım, herhangi bir normal dağılımdaki değerleri z-puanlarına dönüştürerek standartlaştırmamıza ve karşılaştırmamıza olanak tanır.

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

R Kullanarak Normal Olasılıkları Hesaplama


R Kullanarak Normal Olasılıkları Hesaplama

Herkese merhaba! Bugün, RStudio kullanarak normal dağılımlardaki hesaplama olasılıkları dünyasına dalıyoruz. Sürekli olan normal dağılımlı rasgele değişkenlerle uğraşırken, belirli bir bireysel değer elde etme olasılığını tartışmak anlamlı değildir. Bunun yerine, Kümülatif Dağıtım İşlevine (CDF) güveniyoruz. Bu işlev bir x değeri alır ve normal dağılımda rastgele şans eseri bu x değerinden küçük veya ona eşit bir sayı elde etme olasılığını döndürür.

Bu kavramı daha iyi anlamak için görsel bir temsile bir göz atalım. Grafikte, bir x değerini işaretledim ve gölgeli alan, normal CDF kullanılarak bu x değerine kadar kümülatif olasılığı temsil ediyor. Ortalaması 0 ve standart sapması 1 olan standart normal dağılıma atıfta bulunduğumuzda, genellikle rasgele değişkeni Z olarak gösterir ve CDF'yi temsil etmek için büyük Phi (Φ) kullanırız.

Şimdi, normal dağılımdaki bir değişkenin tek bir sayıdan daha azına değil, belirli bir aralığa düşme olasılığını hesaplamak istediğimiz durumlar vardır. Bunu, üst sayıdan küçük veya ona eşit olma olasılığını hesaplayarak ve alt sayıdan küçük veya ona eşit olma olasılığını çıkararak elde edebiliriz. Bu, sağ alttaki gölgeli alanı sol alttaki gölgeli alandan çıkararak görselleştirilebilir.

Farklı normal dağılımlar ve olasılıklar kullanarak bazı hesaplamalar yaparak bilgimizi test edelim. Bunun için RStudio'ya geçeceğiz. R'de normal dağılım için kümülatif dağılım fonksiyonu olan "Pnorm" fonksiyonunu kullanabiliriz.

İlk olarak, bir N(5, 9) dağılımını ele alalım. X'in 10'dan küçük veya ona eşit olma olasılığını bulmak istiyoruz. x değeri 10, ortalaması 5 ve standart sapması 3 olan "Pnorm"u kullanarak yaklaşık 0,9522'lik bir sonuç elde ederiz.

Şimdi, 10'dan büyük bir x değeri alma olasılığını belirleyelim. 10'dan büyük bir x değeri elde etmek, 10'dan küçük veya ona eşit bir x değeri almanın tümleyeni olduğundan, bunu olasılığını çıkararak hesaplayabiliriz. ikincisi 1'den. "Pnorm(10, 5, 3)"ü 1'den çıkararak, olasılığı yaklaşık olarak 0,048 buluyoruz.

Şimdi, ortalama 100 ve varyans 20 olan normal bir dağılıma odaklanalım. X'in 92 ile 95 arasında olma olasılığıyla ilgileniyoruz. X'in 95'ten küçük veya ona eşit olma olasılığını hesaplayarak başlıyoruz. "Pnorm(95, 100, sqrt(20))" kullanarak. Ardından, "Pnorm(92, 100, sqrt(20))" kullanarak X'in 92'den küçük veya eşit olma olasılığını çıkarırız. Sonuç yaklaşık 0,095'tir.

Son olarak, standart normal dağılımla çalışalım ve Z'nin -1,2 ile 0,1 arasında olma olasılığını bulalım. "Pnorm(-1.2)" ifadesini "Pnorm(0.1)" değerinden doğrudan çıkararak yaklaşık 0,428 sonucunu elde edebiliriz.

Sonuç olarak, normal dağılımın gücünden ve kümülatif dağılım fonksiyonundan yararlanarak, farklı değer aralıklarıyla ilişkili olasılıkları hesaplayabiliriz. RStudio, bu hesaplamaları verimli bir şekilde gerçekleştirmek için bize "Pnorm" işlevi gibi gerekli araçları sağlar.

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

Ters Normal Hesaplamalar


Ters Normal Hesaplamalar

Herkese merhaba! Bugün, ters normal hesaplamaların büyüleyici dünyasına dalacağız. Φ(z) olarak gösterilen kümülatif dağılım fonksiyonunu (CDF) kullanarak standart normal dağılımdaki olasılıkları nasıl hesapladığımıza dair anlayışımızı tazeleyerek başlayalım. CDF, girdi olarak bir z-skoru alır ve rastgele seçilen bir z-puanının bu değerden küçük veya ona eşit olma olasılığını verir.

Bu kavramı göstermek için, Φ(0,5)'in çizildiği grafiği düşünün. Φ(0.5)'i hesaplamak için standart normal çan eğrisini çizeriz ve z = 0.5'i ortalamanın biraz sağına yerleştiririz. Ardından, z-skorunun solundaki tüm alanı tararız. Φ(0.5), gölgeli bölgenin alanını temsil eder. Çan eğrisi altındaki toplam olasılığın her zaman 1 olduğunu unutmayın, böylece gölgeli alanı toplam alanın yüzdesi olarak yorumlayabiliriz.

Şimdi, Φ^(-1) veya "phi inverse" olarak gösterilen normal CDF'nin tersini inceleyelim. Bu işlem önceki hesaplamayı tersine çevirir. Onu bir z-skoru ile beslemek ve bir olasılık elde etmek yerine, bir olasılık girip karşılık gelen z-puanını geri alıyoruz. Örneğin, Φ^(-1)(0,5) 0'dır çünkü Φ(0) 0,5'tir. Olasılığın yarısı, standart normal dağılımda z = 0'ın solunda yer alır. Benzer şekilde, Φ^(-1)(0,6915) 0,5'tir çünkü Φ(0,5) 0,6915'tir ve Φ^(-1)(0,1587) -1'dir çünkü Φ(-1) 0,1587'dir. Esasen bu iki fonksiyonun giriş ve çıkışlarını tersine çeviriyoruz.

Bu kavramı daha fazla açıklamak için bir örnek ele alalım. Standart bir normal dağılımda 90. yüzdeliği yakalayan z-skorunu bulmak istediğimizi varsayalım. Bu dağılımdan tekrar tekrar yararlanırsak, bu z-skoru, sonuçların %90'ından daha büyük bir sonucu temsil eder. Bunu belirlemek için Φ^(-1) kullanırız ve yaklaşık 1,28 veren Φ^(-1)(0,90) hesaplarız. Böylece, 1.28, standart normal dağılımdaki 90. yüzdeliğe karşılık gelen z puanıdır.

Şimdi, belirli bir olasılık veya yüzdelik dilim için z-skoru ile donanmış olarak, herhangi bir normal dağılımda karşılık gelen değeri kolayca belirleyebiliriz. Standartlaştırılmış bir testteki puanların ortalama 1060 ve standart sapma 195 ile normal dağıldığı bir örneği ele alalım. Puanların %95'ini geçmek için gereken puanı belirlemek için önce 95. yüzdelik dilimini buluruz. R'de Φ^(-1)(0.95) veya qnorm(0.95) kullanarak, z-skoru olarak yaklaşık 1.64 elde ederiz. Bu sonucu yorumlayarak, bir öğrencinin rastgele seçilen bir puandan %95 daha iyi performans gösterme şansına sahip olması için ortalamanın 1,64 standart sapma üzerinde puan alması gerekir.

Gerçek puanı hesaplamak için, x = μ + zσ formülünü kullanırız; burada x, gereken puanı, μ ortalamayı (1060), z, z puanını (1,64) ve σ standart sapmayı (195) gösterir. . Bu değerleri yerine koyduğumuzda, öğrencinin yaklaşık olarak 1379.8 puan alması gerektiğini buluyoruz. Böylece, 1380 civarında puan almak, öğrenciyi yüzde 95'lik dilimde konumlandıracak ve testte rastgele seçilen bir puanı geçme şansının %95'ini sağlayacaktır.

Normal ve ters normal dağılımlardan elde edilen değerlerin, irrasyonel olabildiği için genellikle yaklaşık değerler olduğunu not etmek önemlidir. Tabloları kullanarak ters normal hesaplamaları yapmak mümkün olsa da, bu hesaplamalar için teknolojiyi kullanmak daha yaygın ve uygundur. Örneğin R'de ters normal için komut qnorm'dur. Bir olasılığın tersini bulmak için, qnorm ve ardından istenen olasılığı gireriz. Örneğin, 0,6915'in tersini hesaplamak için qnorm(0,6915) kullanırız ve yaklaşık olarak 0,5 elde ederiz. Benzer şekilde, 0,1587'nin tersi için qnorm(0,1587) kullanırız ve yaklaşık olarak -1 elde ederiz.

Bu hesaplamalar için teknolojinin kullanılması, manuel tabloların kullanılmasına kıyasla doğru sonuçlar vermesi ve zamandan tasarruf sağlaması nedeniyle 21. yüzyılda tercih edilmektedir. R gibi araçlardan yararlanarak, olasılığı sağlayarak ve karşılık gelen z-skorunu alarak ters normal hesaplamaları zahmetsizce gerçekleştirebiliriz.

Özet olarak, ters normal hesaplamalar, normal bir dağılımda belirli bir olasılığa veya yüzdeliğe karşılık gelen z-skorunu belirlememizi sağlar. Bu değerleri elde etmek için Φ^(-1) veya R'deki qnorm gibi ters normal fonksiyonu kullanabiliriz. Bu bilgiler daha sonra bilinçli kararlar vermemize ve çeşitli istatistiksel analizler yapmamıza yardımcı olur.

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

R Kullanarak Ters Normal Hesaplamalar


R Kullanarak Ters Normal Hesaplamalar

Bugün, bazı ters normal hesaplamalar yapmak için R'yi kullanacağız. Çözmemiz gereken üç sorunumuz var.

Problem 1: Standart normal dağılımın 98. yüzdelik dilimini bulun. Diğer bir deyişle, standart normal dağılımda olasılığın %98'inin üzerinde yer alan z-skorunu belirlemek istiyoruz. R'de qnorm komutunu kullanabiliriz. Standart normal dağılımla (ortalama = 0, standart sapma = 1) uğraştığımız için, yüzdeliği argüman olarak doğrudan girebiliriz. Bu nedenle, qnorm(0.98) hesaplıyoruz ve yaklaşık 2.05'lik bir z-puanı elde ediyoruz.

Problem 2: Ortalaması 12 ve varyansı 3 olan normal dağılım altındaki alanın %40'ını kapsayan x değerini bulun. Verilen parametrelerle çan eğrisini görselleştirerek başlayabiliriz. Bunun solunda %40'lık bir alana karşılık gelen bir x değeri bulmak istiyoruz. qnorm kullanarak, istenen alanı 0,40 olan ondalık sayı olarak giriyoruz. Ancak bu standart olmayan bir normal dağılım olduğu için ortalama ve standart sapmayı da belirtmemiz gerekiyor. Bu nedenle, qnorm(0.40, ortalama = 12, sd = sqrt(3)) hesaplıyoruz ve yaklaşık olarak 11.56'ya eşit bir x değeri elde ediyoruz.

Problem 3: Ortalama 9,1 pound ve 2,7 pound standart sapma ile yaklaşık olarak normal dağılan Amerika Birleşik Devletleri'ndeki kişi başına yıllık portakal tüketimini ele alalım. Bir Amerikalı yaşıtlarının %85'inden daha azını yerse, ne kadar tükettiklerini belirlemek isteriz. Burada verilen yüzdelik dilimin (%85) sağındaki alanla ilgileniyoruz. qnorm soldaki alanlarla değerler sağladığından, sağdaki alanı elde etmek için yüzdelik dilimini 1'den çıkarmamız gerekir, bu da 0,15'tir. Karşılık gelen tüketim değerini bulmak için qnorm(0,15, ortalama = 9,1, sd = 2,7) hesaplıyoruz. Sonuç, yılda yaklaşık 6,30 pound portakaldır.

R'deki qnorm fonksiyonunu kullanarak, bu ters normal hesaplamaları verimli bir şekilde yapabilir ve çeşitli istatistiksel problemler için istenen sonuçları elde edebiliriz.

R'de qnorm işlevini kullanmak, normal dağılım altındaki belirli yüzdelik dilimlere veya alanlara karşılık gelen gerekli z-skorlarını veya değerleri sağlayarak, ters normal hesaplamaları verimli bir şekilde yapmamızı sağlar.

Problem 1'de standart normal dağılımın 98. yüzdelik dilimini bulmak istedik. qnorm(0.98) kullanarak, yaklaşık 2.05'lik bir z-puanı elde ettik. Bu, standart normal dağılımda 98. yüzdeliğe karşılık gelen değerin ortalamanın 2,05 standart sapma üzerinde olduğu anlamına gelir.

Problem 2'de ortalaması 12 ve varyansı 3 olan bir normal dağılım altında alanın %40'ını kapsayan x değerini bulmayı amaçladık. qnorm fonksiyonunda ortalama ve standart sapmayı qnorm(0.40, ortalama = 12) olarak belirledikten sonra sd = sqrt(3)), yaklaşık 11.56 x değeri elde ettik. Bu da verilen normal dağılımda solundaki alanın %40'ını yakalamaya karşılık gelen x'in değerinin yaklaşık olarak 11,56 olduğunu göstermektedir.

Problem 3'te, Amerika Birleşik Devletleri'nde ortalama 9,1 pound ve 2,7 pound standart sapma ile normal bir dağılım izleyen kişi başına yıllık portakal tüketimini ele aldık. Yaşıtlarının %85'inden azını yiyen bir bireyin tüketim miktarını belirlemek istedik. qnorm(0.15, ortalama = 9.1, sd = 2.7) hesaplayarak, bir bireyin akranlarının %85'inden daha azını tüketmesi için tüketim seviyesinin yılda 6,30 pound civarında olması gerektiğini bulduk.

Genel olarak, R'deki qnorm işlevi, bize belirli yüzdelikler veya alanlara dayalı gerekli z-skorlarını veya değerleri sağlayarak ters normal hesaplamaları gerçekleştirme sürecini basitleştirir. Bu, normal dağılımların özelliklerine dayalı olarak bilinçli kararlar vermemizi ve analiz etmemizi sağlar.

Inverse Normal Calculations Using R
Inverse Normal Calculations Using R
  • 2020.08.02
  • www.youtube.com
It's easy to compute inverse normal values using R. Let's learn the qnorm() command! If this vid helps you, please help me a tiny bit by mashing that 'like' ...
 

Örnekleme Dağılımları


Örnekleme Dağılımları

Herkese merhaba, bugün istatistiklerin örnekleme dağılımları kavramını tartışacağız. İstatistiksel çıkarımda, amacımız popülasyon parametrelerini tahmin etmek için örnek istatistikleri kullanmaktır. Bununla birlikte, numune istatistikleri bir numuneden diğerine farklılık gösterme eğilimindedir; bu, tekrar tekrar numune alırsak aynı istatistik için farklı değerler elde edeceğimiz anlamına gelir.

Bunu bir örnekle açıklayalım. Numaralandırılmış fişler içeren bir çantamız olduğunu ve bir tahta istasyonu istatistikçisinin rastgele 5 fiş çekerek 24, 11, 10, 14 ve 16 numaralarını elde ettiğini hayal edin. x-çubuk olarak gösterilen örnek ortalama 15 olarak hesaplanır. , bu işlemi birkaç kez tekrarlarsak, x-bar için her seferinde farklı değerler elde edeceğiz. Örneğin, sonraki örneklerde, örnek ortalaması olarak 17.8, 18.8 veya 21.6 elde edebiliriz. Bu nedenle, örnek istatistiği x-bar rastgele bir sürecin sonucudur ve rastgele bir değişken olarak kabul edilebilir. İstatistiğin örnekleme dağılımı olarak adlandırdığımız kendi olasılık dağılımına sahiptir.

Şimdi somut bir örnek üzerinde çalışalım. Diyelim ki üç kırmızı çip ve altı mavi çip içeren bir çantamız var. Değiştirme ile rastgele üç fiş çekersek, x'in örnekleme dağılımını bulmak isteriz, bu da çekilen kırmızı fişlerin sayısını temsil eder. x için dört olası değer vardır: 0, 1, 2 veya 3. Her bir değerle ilişkili olasılıkları belirlemek için, her bir çekilişi, kırmızının başarılı ve mavinin başarısız olduğu bir Bernoulli denemesi olarak ele alırız. Her biri üçte bir olasılıkla üç özdeş çekiliş yürüttüğümüz için, n = 3 ve p = 1/3 ile bir binom dağılımına sahibiz. Binom dağılım formülünü kullanarak olasılıkları hesaplayarak, x = 0, 1, 2 ve 3 olasılıklarının sırasıyla 0,296, 0,444, 0,296 ve 0,064 olduğunu buluruz. Bu olasılıklar, x'in örnekleme dağılımını tanımlar.

Ortalama, istatistiksel çıkarım için en sık kullanılan istatistiktir, bu nedenle 'örnek ortalamanın örnekleme dağılımı' ifadesiyle sıklıkla karşılaşırsınız. Aynı popülasyondan aynı büyüklükteki numuneleri çekerken numune ortalamasının alabileceği tüm olası değerlerin olasılık dağılımını temsil eder. Örneğin çanta örneğini tekrar ele alalım, ancak bu sefer çipler 1'den 35'e kadar numaralandırılmıştır. n=5 büyüklüğünde numuneler aldığımızda, numune ortalamasının x-bar olarak gösterilen numune dağılımını tarif etmek istiyoruz. Değiştirmeden. Örnekleme işlemini bin kez tekrarlayarak ve her seferinde örnek ortalamayı hesaplayarak, 15 ile 165 arasında değişen bin sayıdan oluşan bir liste elde ederiz. Bu örnek ortalamaların çoğu orta aralıkta yer alır ve bir histogram oluşturarak gözlemleriz. örnekleme dağılımının yaklaşık olarak bir çan eğrisi şeklini izlemesi. Gelecekteki bir tartışmada inceleyeceğimiz gibi, bu çan eğrisi paterni bir tesadüf değildir.

Örnek ortalamanın örnekleme dağılımı, çeşitli istatistiksel çıkarımlara olanak sağlayan tahmin edilebilir bir merkeze ve yayılıma sahiptir. Özellikle, ortalama mu ve standart sigma sapması olan büyük bir popülasyondan n büyüklüğünde örnekler alırsak, örnek ortalamanın ortalaması (x-çubuk) popülasyon ortalamasına (mu) eşit olacaktır. Ek olarak, örneklem araçlarının standart sapması, popülasyon standart sapmasına (sigma) bölünerek n'nin kareköküne eşit olacaktır. Bu ilişkiler, örneklem ortalamasının popülasyon ortalamasının bir tahminini sağladığını ve popülasyon içindeki bireysel gözlemlerden daha az değişken olduğunu göstermektedir.

Bunu göstermek için, standart bir testteki ortalama puanın 1060 ve standart sapmanın 195 olduğu bir örneği ele alalım. Popülasyondan rastgele 100 öğrenci seçtiğimizi varsayalım. Bu durumda, popülasyonun yeterince büyük olduğunu ve böylece değiştirmeden örneklemenin kabul edilebilir olduğunu varsayıyoruz. Örnek ortalamasının x-çubuk olarak gösterilen örnekleme dağılımı, 1060'lık bir merkeze ve 19.5'lik bir standart sapmaya sahip olacaktır.

Açıklığa kavuşturmak için, 100 öğrenciden oluşan bir örneklem toplayacak ve bu işlemi birçok kez tekrarlayarak ortalama test puanlarını hesaplayacak olsaydık, ortalama olarak örneklem ortalamasının 1060 olacağını bulurduk. Belirtildiği gibi örneklem ortalamalarının yayılması 19.5'lik standart sapma, popülasyon içindeki bireysel puanların standart sapmasından önemli ölçüde daha küçük olacaktır.

Örnekleme dağılımının merkezi ve yayılımı gibi özelliklerini anlamak, anlamlı istatistiksel çıkarımlar yapmamızı sağlar. Örnek ortalamasının örnekleme dağılımından yararlanarak, popülasyon parametrelerini tahmin edebilir ve gözlemlenen örnek istatistiklerine dayalı olarak popülasyon hakkında sonuçlar çıkarabiliriz.

Genel olarak, istatistiklerin örnekleme dağılımları, örnek istatistiklerinin değişkenliği ve bunların popülasyon parametreleriyle ilişkisi hakkında bilgi sağlayarak istatistiksel çıkarımda çok önemli bir rol oynar.

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

Merkezi limit teoremi nedir?


Merkezi limit teoremi nedir?

Bugün, istatistikteki en önemli teoremlerden biri olarak kabul edilen Merkezi Limit Teoremini (CLT) tartışacağız. CLT, numune ortalamasının (x-çubuk) numune dağılımının şeklini tanımlar ve numune dağılımlarının sağlam bir şekilde anlaşılmasını gerektirir.

CLT'yi kavramak için örnekleme dağılımlarına aşina olmanız önerilir. Size kolaylık olması için yukarıda bağlantısını verdiğim örnekleme dağılımlarıyla ilgili bir video izleyebilirsiniz.

Şimdi CLT'yi inceleyelim. Ortalama (μ) ve standart sapmaya (σ) sahip bir popülasyondan 'n' büyüklüğünde basit rastgele örnekler aldığımızı varsayalım. Popülasyonun şekli hakkında pek bir şey bilmiyor olabiliriz, ancak 'n' yeterince büyükse (genellikle 30 civarında), numune ortalamasının örnekleme dağılımı normal bir dağılıma yaklaşacaktır. Popülasyonun kendisi normal dağılıyorsa, o zaman x-çubuğunun örnekleme dağılımı 'n'den bağımsız olarak tamamen normal olacaktır. Ek olarak, x çubuğunun ortalaması her zaman μ olacaktır ve x çubuğunun standart sapması σ bölü 'n'nin karekökü olacaktır.

Özünde, Merkezi Limit Teoremi, örneklenen popülasyondan bağımsız olarak, örnek boyutu yeterince büyük olduğunda, x-bar dağılımının μ ortalaması ve σ standart sapması bölü karekök ile yaklaşık olarak normal olacağını belirtir. 'n'. Zihinsel olarak, popülasyondan aynı boyutta çok sayıda örnek aldığınızı ve her örnek için örnek ortalamasını hesapladığınızı hayal edin. Münferit numune ortalamaları biraz farklılık gösterebilse de, ortalamaları popülasyon ortalamasına eşit olacaktır ve bu numune araçlarının ortalama etrafında yayılması, popülasyonun standart sapmasına bağlı ancak ondan daha küçük bir standart sapma ile yaklaşık olarak çan şeklinde olacaktır.

Bu kavramı açıklamak için bir örnek ele alalım. Arama sürelerinin ortalama (μ) 2 dakika ve standart sapma (σ) 3 dakika ile normal bir dağılım izlediği bir teknik yardım hattımız var. Rastgele seçilen 40 arama örneğinin ortalama süresinin 2,5 dakikadan az olma olasılığını bulmak istediğimizi varsayalım. Bireysel çağrı uzunluklarının tam dağılımını bilmesek de, 40 çağrının örnek ortalamasını incelediğimiz için Merkezi Limit Teoremini kullanabiliriz. Numune ortalaması (x-bar), ortalama 2 ve standart sapma 3 bölü 40'ın karekökü (σ/sqrt(n)) ile yaklaşık olarak normal dağılacaktır.

Olasılığı hesaplamak için, ortalama 2 ve standart sapma 3/sqrt(40) olan dağılımda x-bar = 2,5 için z-skorunu belirliyoruz. Z skorunu (2.5 - 2) / (3 / sqrt(40)) olarak hesaplayarak 1.05 değerini buluyoruz. Daha sonra, z-skorunun 1,05'ten küçük olma olasılığını bulmak için normal bir kümülatif dağılım fonksiyonu (CDF) kullanabiliriz, bu da yaklaşık %85,3 verir. Bu, 40 aramayı örneklediğinde 2,5 dakikadan daha az bir örnek ortalama elde etme şansının %85,3 olduğu anlamına gelir.

Başka bir gösterimde, eşit olasılıkla 1 ile 12 arasında rasgele tamsayılar üreten bir rasgele sayı üreteci düşünelim. Bu senaryo, rastgele birini seçip doğum ayını belirlemeye benzer. Bu üreteçten 2 boyutunda basit rasgele örnekler alırsak, onu birkaç kez çalıştırırsak ve örnek ortalamasını hesaplarsak, kabaca piramit benzeri bir şekle sahip bir histogram gözlemleriz. Sonuçlar 6.5 civarında kümelenme eğilimindedir, bu da 1 veya 12'ye yakın değerlerle karşılaştırıldığında 6.5'e yakın numune alma olasılığının daha yüksek olduğunu gösterir.

Örnek boyutunu 10'a çıkararak, çan şeklindeki bir dağılıma benzemeye başlayan bir histogram gözlemliyoruz ve örnek ortalamalarının yayılması azalıyor. Numune araçlarının çoğu artık 4 ile 9 arasında kalıyor.

Örnek boyutunu 100'e yükseltir ve işlemi tekrarlarsak, histogram daha da çan şeklinde olur ve çoğu örnek ortalaması 6 ile 7 arasında yoğunlaşır. Örnek aracının standart sapması azalmaya devam eder.

Son olarak, 1000 büyüklüğünde numuneler aldığımızda, histogram neredeyse mükemmel bir normal dağılım eğrisini takip eder. Numune araçları, çoğunluğu 6.25 ile 6.75 arasında düşen, nüfusun ortalaması etrafında sıkı bir şekilde kümelenmiştir. Numune büyüklüğü arttıkça numune araçlarının standart sapması küçülmeye devam eder.

Özetlemek gerekirse, örneklem büyüklüğü (n) arttıkça, örneklem ortalaması (x-çubuk) popülasyon ortalamasının (μ) daha güvenilir bir tahmincisi haline gelir. Örnek ortalamasındaki değişkenlik azalır, bu da daha dar ve daha çan şekilli bir örnekleme dağılımına yol açar.

Şimdi, damıtılmış su sebili içeren bir örneği ele alalım. Dağıtıcı galon su doldurur ve dağıttığı miktar, ortalama 1,03 galon ve 0,02 galon standart sapma ile normal bir dağılım izler. Dağıtılan tek bir "galonun" gerçekte 1 galondan az olma olasılığını belirlemek istiyoruz.

Bu olasılığı bulmak için, ortalama 1,03 ve standart sapma 0,02 olan normal dağılımda x = 1 için z-skorunu hesaplıyoruz. z-puanı (1 - 1.03) / 0.02 olarak hesaplanır ve -1.5 olur. Normal kümülatif dağılım fonksiyonunu (CDF) kullanarak, 1 galondan daha düşük bir değer elde etme olasılığının yaklaşık %6,68 olduğunu buluyoruz.

Şimdi, ortalama 10 galonun galon başına 1 galondan az olma olasılığını ele alalım. Merkezi Limit Teoremine göre, örneklem büyüklüğü (n) yeterince büyük olduğunda, popülasyon dağılımından bağımsız olarak, örneklem ortalamasının örnekleme dağılımı normal hale gelir. Bu durumda, x-bar'ın örnekleme dağılımının ortalaması 1,03'tür (popülasyon ortalaması ile aynı) ve standart sapması 0,02/sqrt(10).

1 galondan daha küçük ortalama bir örnek elde etme olasılığını bulmak için z-skorunu (1 - 1,03) / (0,02/sqrt(10)) olarak hesaplıyoruz, bu da -4,74'e eşittir. Normal kümülatif dağılım fonksiyonunu (CDF) kullanarak, 1 galondan daha düşük ortalama bir örnek elde etme olasılığının yaklaşık %0,0001 olduğunu bulduk.

Sonuç olarak, tek bir galonun az doldurulması pek olası olmasa da (yaklaşık %7), 10 galonun ortalamasının galon başına 1 galondan az olması son derece sıra dışı olacaktır.

Son olarak, örneklem büyüklüğü ile ilgili olarak, Merkezi Limit Teoremi, x-bar'ın örnekleme dağılımının büyük örneklem boyutları için normal bir dağılıma yaklaştığını öne sürer. Bununla birlikte, "büyük" bir örneklem büyüklüğünü neyin oluşturduğu sübjektiftir ve popülasyon dağılımının çarpıklığına ve aykırı değerlerin varlığına bağlıdır. Genel olarak, aşırı aykırı değerler olmaksızın oldukça simetrik bir dağılımdan örnekleme yapılırken, Merkezi Limit Teoreminin uygulanması için daha küçük bir örneklem boyutu yeterli olabilir.

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

Merkezi Limit Teoremini Kullanarak Olasılıkları Hesaplama: Örnekler


Merkezi Limit Teoremini Kullanarak Olasılıkları Hesaplama: Örnekler

Herkese merhaba, bugünkü oturumda Merkezi Limit Teoremini kullanarak hesaplama olasılıkları ile ilgili bazı problemler üzerinde çalışacağız. Çözmemiz gereken iki sorunumuz var. Başlayalım!

Problem 1: Belirli bir şeker markasının poşet ağırlıkları ortalama 45 gram ve standart sapması 1,5 gram olan normal bir dağılım göstermektedir. Rastgele seçilen bir torbanın 44 gramdan az şeker içerme olasılığını bulmamız gerekiyor.

Bunu çözmek için normal dağılımı kullanacağız ve z-skorunu hesaplayacağız. Z-skoru, ortalamanın (45) değerden (44) çıkarılması ve standart sapmaya (1,5) bölünmesiyle elde edilir. Bu bize -0.67'lik bir z puanı verir.

Daha sonra, standart normal dağılımda -0,67'den küçük bir değer elde etme olasılığını bulmak için normal kümülatif dağılım fonksiyonunu (CDF) kullanırız. Olasılık yaklaşık olarak 0,252 olarak çıkıyor, bu da rastgele seçilen bir çantanın 44 gramdan az şeker içermesi ihtimalinin %25,2 olduğu anlamına geliyor.

Problem 2: Rastgele seçilen beş torbanın ortalama ağırlığının 44 gramdan az şeker olma olasılığını ele alacağız. Bu problem için Merkezi Limit Teoremini uygulamamız gerekiyor.

Merkezi Limit Teoremine göre, örneklem büyüklüğü yeterince büyük olduğunda (genellikle 30 veya daha fazla), popülasyon dağılımından bağımsız olarak, örneklem ortalamasının örnekleme dağılımı yaklaşık olarak normal olur. Bu durumda, örnekleme dağılımının (x-bar) ortalaması, popülasyon ortalamasıyla (45) aynı olacaktır ve standart sapma, popülasyon standart sapmasının (1,5) örneklem boyutunun kareköküne bölünmesi olacaktır ( √5).

Olasılığı bulmak için, ortalamayı (45) istenen değerden (44) çıkarıp standart sapmaya (√(1.5^2/5)) bölerek z-skorunu hesaplıyoruz. Bu bize -1,49'luk bir z puanı verir.

Normal CDF'yi kullanarak, 44 gramdan daha az ortalama numune alma olasılığının yaklaşık olarak %0,068 veya %6,8 olduğunu bulduk. Bu nedenle, rastgele seçilen beş torbanın ortalama ağırlığının 44 gramdan az şeker olma olasılığı yaklaşık %6,8'dir.

Son olarak, rastgele seçilen 25 torbanın ortalama ağırlığının 44 gramdan az şeker olma olasılığını ele alıyoruz. Örnek boyutu daha büyük olduğu için (25), yine de Merkezi Limit Teoremini uygulayabiliriz.

Öncekiyle aynı prosedürü kullanarak, 1,5/√25 standart sapma ile 44 gramlık bir numune ortalaması için z-skorunu hesaplıyoruz. Bu bize -3,33'lük bir z-skoru verir.

Normal CDF'yi uyguladığımızda, ortalama 44 gramdan az bir numune alma olasılığının yaklaşık olarak 0,004 veya %0,4 olduğunu bulduk. Bu nedenle, rastgele seçilen 25 torbanın ortalama ağırlığının 44 gramdan az şeker olma olasılığı yalnızca %0,4'tür.

Sonuç olarak, Merkezi Limit Teoremi, nispeten küçük bir örneklem boyutu olan 7 ile bile bu olasılıklar için güvenilir bir yaklaşım sağlar. Hesaplanan olasılıklar, orijinal olasılık dağılımından elde edilen tam değerlere oldukça yakındır.

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

Güven Aralıkları Tanıtımı


Güven Aralıkları Tanıtımı

Herkese merhaba, bugün güven aralıkları konusuna dalıyoruz. Bunu tartışırken, parametre ile istatistik arasındaki farkı akılda tutmak çok önemlidir. Bu konsepti hızlıca gözden geçirelim.

Parametre, Amerika Birleşik Devletleri'ndeki tüm veri bilimcilerin ortalama başlangıç maaşı gibi bir popülasyonu tanımlayan bir sayıdır. Öte yandan, istatistik, Amerika Birleşik Devletleri'nde rastgele seçilen 10 veri bilimcinin ortalama başlangıç maaşı gibi bir örneği tanımlayan bir sayıdır.

Genellikle, parametreleri gözlemlemek için doğrudan erişimimiz yoktur. Tüm popülasyondan bilgi toplamak genellikle pratik değildir, bu nedenle istatistik sağlayan örnek verilere güveniriz. İstatistiksel çıkarım, bir istatistikten bir parametreye akıl yürütme sürecidir.

İstatistiksel çıkarımın en temel ve önemli biçimlerinden biri güven aralığıdır. Tüm bunları daha somut hale getirmek için bir örnek ele alalım. Amerika Birleşik Devletleri'ndeki 10 veri bilimcisini rastgele örneklediğimizi ve ortalama başlangıç maaşlarının 97.000 ABD doları olduğunu bulduğumuzu varsayalım. Bu değer, yalnızca örneğimizdeki veri bilimcilere atıfta bulunduğundan bir istatistiği temsil eder. Bununla birlikte, tahmin etmek istediğimiz parametre olan Amerika Birleşik Devletleri'ndeki tüm veri bilimcilerin ortalama başlangıç maaşı hakkında bir çıkarım yapmak istiyoruz.

İstatistiksel x-bar (örnek ortalama) ile μ parametresini tahmin etmek için en iyi tahminimiz, Amerika Birleşik Devletleri'ndeki tüm veri bilimcilerin ortalama başlangıç maaşının 97.000 ABD Doları olduğudur. Ancak, bu tahminin tam olarak doğru olma ihtimalinin çok düşük olduğunu kabul etmek önemlidir. μ parametresinin tam olarak 97.000 $ olması pek olası değildir; biraz daha yüksek veya daha düşük veya hatta önemli ölçüde olabilir.

Tahminimizin kesin olmadığı göz önüne alındığında, tipik olarak x-çubuk artı veya eksi bir miktar hata payı şeklinde bir aralık tahmini sağlamak uygundur. Kritik soru, bu hata payını nasıl belirlediğimizdir. Büyük bir hata payı ile bile, her zaman yanılma olasılığının olduğunu aklımızda tutmalıyız.

Örneğin, gerçek parametrenin (Amerika Birleşik Devletleri'ndeki veri bilimcilerin gerçek başlangıç maaşı) 150.000 ABD Doları olduğu bir durumda, 10 düşük ücretli veri bilimciden oluşan bir örneklem seçtiğimiz bir senaryoyu düşünün. Örnek ortalamamız 97.000 $ olarak kaldı. Bu nedenle, umabileceğimiz en iyi şey, gerçek parametreyi yüksek olasılıkla yakalaması muhtemel bir güven aralığı oluşturmaktır. Bu, aralığın doğru parametreyi zamanın önemli bir yüzdesini içermesi gerektiği anlamına gelir.

Tipik olarak, standart olarak %95'lik bir güven düzeyi kullanılır, ancak uygulamaya bağlı olarak %90 veya %99 gibi başka düzeyler de seçilebilir. Her durumda, güven seviyesi için kullanılan notasyon büyük C'dir. Bunu resmi olarak bir olasılık ifadesi olarak ifade etmek için, bir hata payı (e) bulmayı amaçlıyoruz, öyle ki x-çubuk ve μ olasılığı e'nin içinde olsun birbirleri C'dir.

Örneğimizi daha belirgin hale getirelim. Veri bilimcilerinin başlangıç maaşlarının, 8.000 ABD doları nüfus standart sapması ile normal bir dağılım izlediğinin bilindiğini varsayalım. Amerika Birleşik Devletleri'ndeki tüm veri bilimcilerin ortalama başlangıç maaşı olan μ'yi %95 güvenle tahmin etmemizi sağlayacak bir hata payı (e) bulmak istiyoruz.

Bunu başarmak için standart normal dağılımın özelliklerini kullanacağız. Normal bir dağılım izleyen x rasgele değişkenini alırsak, örnekleme ortalaması (x-çubuk) da normal dağılıma sahip olacaktır. Örnek ortalama dağılımının ortalaması, popülasyon dağılımının ortalaması (μ) ile aynıdır, ancak standart sapma azalır. Örneğimizde, örneklem ortalamasının standart sapması σ/√n'dir, burada σ popülasyon standart sapmasıdır ve n örneklem büyüklüğüdür.

Bu bilgiyle olasılık ifademizi şu şekilde yeniden yazabiliriz: x-bar'ın μ - e ve μ + e arasında olma olasılığı C'ye eşittir. Şimdi bunu sayıyı ölçen z-skorları cinsinden gösterebiliriz. ortalamadan uzak standart sapmalar. Aralığımızı standardize ederek, uygun değerleri belirlemek için standart normal dağılımdan (Z-dağılımı) yararlanabiliriz.

Belirli bir C güven düzeyi için, standart normal eğri altında -z-yıldız ile z-yıldız arasındaki alan C'ye eşit olacak şekilde z-skorunu (z-yıldız) bulmamız gerekir. C için ortak değerler arasında 0,95, bu da 1.960'lık bir z-yıldızına karşılık gelir. z-yıldızımız olduğunda, hata payını σ/√n ile çarparak hesaplayabiliriz.

Örnek büyüklüğümüzün n = 10, örnek ortalamasının 97.000 ABD Doları ve popülasyon standart sapmasının 8.000 ABD Doları olduğu örneğimize dönersek, μ için %95'lik bir güven aralığı oluşturabiliriz. Bu değerleri güven aralığının genel biçiminde değiştirerek, μ için aralık tahmininin 97.000 $ ± 1.958 $ olduğunu buluruz.

Özetle, Amerika Birleşik Devletleri'ndeki tüm veri bilimcilerinin ortalama başlangıç maaşının, tahmini %95'lik bir güvenle 92.042 ABD Doları ile 101.958 ABD Doları arasında olmasını bekliyoruz. Bu, bu örnekleme sürecini tekrarlarsak ve örnek verileri kullanarak güven aralıkları oluşturursak, aralıklarımızın zamanın yaklaşık %95'inde gerçek parametreyi (μ) yakalamasını bekleyeceğimiz anlamına gelir.

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
 

Ortalama için Güven Aralıkları - Örnek


Ortalama için Güven Aralıkları - Örnek

Herkese merhaba, bugün popülasyon standart sapması bilindiğinde bir popülasyon ortalaması için güven aralıklarının oluşturulmasını tartışacağız. Ek olarak, ev banyo terazisi ile ilgili bir örnek kullanarak hata payının büyüklüğünü etkileyebilecek faktörleri keşfedeceğiz.

Banyo terazisi kullanırken, okumaların normal olarak tartılan kişinin gerçek ağırlığına göre dağılacağını varsaymak mantıklıdır. Bununla birlikte, bu okumaların tam olarak doğru olması beklenmemektedir ve biraz daha yüksek veya daha düşük değişebilir. Bu örnekte, ölçeğin popülasyon standart sapması olan 1,2 pound hakkında bilgiye erişimimiz olduğunu varsayalım.

Ana ilgi alanımız, tartılan kişinin μ olarak göstereceğimiz gerçek ağırlığı için bir güven aralığı oluşturmaktır. Bunu başarmak için, bir kişiyi terazide tekrar tekrar tartacağız, bu tartımların örnek ortalamasını hesaplayacağız ve μ = x-çubuk ± z-yıldız * σ / √n formülünü kullanacağız. Burada, x-bar örneklem ortalamasını, n örneklem büyüklüğünü, σ popülasyon standart sapmasını ve z-yıldız istenen güven düzeyine (C) karşılık gelen kritik z-değerini temsil eder.

Örneğimizi daha spesifik hale getirmek için, bir istatistikçiyi terazide beş kez tarttığımızı ve ortalama 153,2 pound ağırlık elde ettiğimizi varsayalım. Bu, örnek ortalamamız olarak hizmet eder. Şimdi, ölçek için 1,2 pound'luk bir standart sapma varsayarak, istatistikçinin gerçek ağırlığı için %90'lık bir güven aralığı oluşturmak istiyoruz. Bu değerleri formülde değiştirerek, aralık tahmininin 153,2 ± 0,88 pound olduğunu buluyoruz.

%90'lık bir güven düzeyi seçtiğimiz için, bu aralığın vakaların yaklaşık %90'ında istatistikçinin gerçek ağırlığını yakalamasını bekleyebiliriz.

Şimdi hata payının yapısını inceleyelim. Hata marjı z-yıldız * σ / √n formülünü takip eder, burada üç temel bileşen vardır: kritik değer z-yıldız (güven düzeyiyle ilişkili), popülasyon standart sapması σ (popülasyondaki yayılmayı yansıtır) ve örneklem büyüklüğü n.

Bu üç bileşenden herhangi birini değiştirerek, tahmin edilebileceği gibi hata payının boyutunu etkileyebiliriz. Güven seviyesini yükseltirsek, karşılık gelen z-yıldız değeri daha büyük olacağından hata payı da artacaktır. Benzer şekilde, popülasyon standart sapmasını σ artırmak, verilerde daha fazla değişken olduğundan daha büyük bir hata marjına neden olur ve bu da örneklemin daha az güvenilir olmasını sağlar. Öte yandan, örneklem büyüklüğü n'nin arttırılması, örneklem ortalaması popülasyon ortalamasının daha doğru bir tahmincisi haline geldiğinden hata payını azaltacaktır.

Bu etkileri göstermek için, standart sapma 1,2 pound ve örneklem büyüklüğü 5 olan %90 güven aralığı örneğimizi yeniden gözden geçirelim. Güven düzeyini %95'e yükseltirsek, z-yıldız değeri 1,960 olur ve bu da daha büyük bir marja neden olur. 1.05 pound hatası. %90 güven düzeyine dönersek ancak standart sapmayı 1,5 pound'a yükseltirsek, hata payı 1,1 pound'a çıkar. Son olarak, standart sapmayı 1,2 pound'da tutar, ancak örneklem büyüklüğünü iki katına çıkararak 10'a çıkarırsak, hata payı 0,62 pound'a düşer ve daha dar bir güven aralığına işaret eder.

Güven düzeyi ve örneklem büyüklüğünü değiştirmek pratik ayarlamalar olsa da, popülasyonun doğasında var olan değişkenliği yansıttığı için standart sapmayı değiştirmek genellikle bizim kontrolümüz dışındadır.

Sonuç olarak, güven aralıkları, ilgilenilen popülasyon parametresi için bir dizi makul değer sağlar. Güven düzeyi, popülasyon standart sapması ve örneklem büyüklüğünden etkilenen hata payı, tahminlerimizin kesinliğini ve güvenilirliğini anlamamıza yardımcı olur. Güven düzeyini artırmak, gerçek parametreyi yakalamada daha yüksek bir güven düzeyi sağlamak için aralığı genişletir. Daha büyük bir popülasyon standart sapması, verilerdeki artan değişkenlik nedeniyle daha geniş bir aralıkla sonuçlanır. Tersine, örneklem boyutunu artırmak, daha fazla bilgi sağladığı ve tahminin doğruluğunu artırdığı için aralığı daraltır.

Tartıştığımız örnekte yapılabilecek iki gerçekçi değişiklik vardır: güven düzeyini ayarlamak ve örneklem büyüklüğünü değiştirmek. Bu değişiklikler kesinlik düzeyini ve tahmin için kullanılan veri miktarını kontrol etmemizi sağlar. Bununla birlikte, ölçeğin standart sapması bizim kontrolümüzde değildir ve bu da onu değiştirmeyi daha az gerçekçi hale getirir.

Hata payını ve güven aralıklarını etkileyen faktörleri anlamak, istatistiksel sonuçların yorumlanmasında çok önemlidir. Tahminlerimizin kesinliği ve güvenilirliğine dayalı olarak bilinçli kararlar almamızı ve anlamlı sonuçlar çıkarmamızı sağlar.

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...