Programlama öğreticileri - sayfa 15

 

Güven Aralıkları ve Merkezi Limit Teoremi


Güven Aralıkları ve Merkezi Limit Teoremi

Herkese merhaba, bugün Merkezi Limit Teoremini uygulayacağız ve popülasyon ortalaması için güven aralıkları oluşturacağız. Popülasyon ortalaması mu için güven aralığı formülü, örneklenen popülasyonun, ortalama mu ve varyans sigma karesi ile tamamen normal bir dağılım izlediği varsayımına dayanır. Ancak birçok durumda bu varsayım makul değildir. Örneğin, bir telefon bankasından ortalama arama süresi belirlenirken, arama sürelerinin dağılımının normal olması pek olası değildir. Çan eğrisi yerine çarpık dağılımlı bir histograma sahip olma olasılığı daha yüksektir.

Yine de, Merkezi Limit Teoremini kullanarak popülasyon ortalaması mu için bir güven aralığı oluşturabiliriz. Bu teorem, örneklem büyüklüğü n yeterince büyük olduğu sürece (genellikle n ≥ 30), popülasyon dağılımının şekli ne olursa olsun, örneklem ortalamasının örnekleme dağılımının yaklaşık olarak normal dağılacağını belirtir. Bunu görselleştirmek için, tekrar tekrar n boyutunda numuneler aldığınızı, her seferinde numune ortalamasını (x bar) hesapladığınızı ve bu numune araçlarının bir histogramını oluşturduğunuzu hayal edin. Merkezi Limit Teoremine göre, bu histogram, popülasyon varyansının örneklem büyüklüğüne bölünmesiyle ölçülen bir dağılımla, popülasyon ortalamasının etrafında ortalanmış çan şeklinde bir eğri sergileyecektir.

Örnek büyüklüğü n arttıkça bu yaklaşımın iyileştiğine dikkat etmek önemlidir. Bu kavramı açıklamak için birkaç örnek üzerinde çalışalım. Telefon bankasına yapılan aramaların standart sapmasının sigma = 1 dakika olduğunu ve 81 büyüklüğünde örneklem elde ettiğimizi varsayalım. sigmanın sapması bölü n'nin karekökü (bu durumda 1 / √81 ≈ 0,11).

Bu bilgilerle, popülasyon dağılımının normal olduğu bilindiğinde olduğu gibi güven aralıklarını hesaplayabiliriz. Ancak, bu güven aralıklarının yalnızca yaklaşık değerler olduğunu unutmamalıyız. Örneğin, 81 büyüklüğünde bir örneklemimiz varsa ve 1,1 dakikalık bir örneklem ortalaması bulursak, aşağıdaki formülü kullanarak popülasyon ortalaması için %95'lik bir güven aralığı oluşturabiliriz:

mu ≈ x çubuk ± z yıldız * sigma / √n

Değerleri (x bar = 1,1, sigma = 1,0, n = 81) yerine koyarak ve %95 güvenliğe (1,960) karşılık gelen kritik z değerini (z yıldızı) kullanarak, popülasyon ortalamasının (mu) yaklaşık olarak olduğunu buluruz. %95 güvenle 1,1 ± 0,22 dakika.

Başka bir örneği ele alalım. Büyük bir şirket, ülke çapındaki perakende mağazalarında binlerce katip istihdam ediyor. 35 kişilik bir örneklemde, haftada ortalama çalışılan saat sayısı 23'tür. Bu şirket tarafından istihdam edilen tüm katiplerin ortalama çalıştığı saat sayısı için %90'lık bir güven aralığı oluşturmak istiyoruz. 5 saat. Aynı formülü kullanabiliriz:

mu ≈ x çubuk ± z yıldız * sigma / √n

Değerleri (x bar = 23, sigma = 5, n = 35) yerine koyarak ve %90 güvenliğe (1,645) karşılık gelen kritik z değerini (z yıldızı) kullanarak, popülasyon ortalamasının (mu) yaklaşık olduğunu buluruz. %90 güvenle 23 ± 1,4 saat.

Özet olarak, popülasyon dağılımı tam olarak normal olmasa bile, popülasyon ortalaması için yaklaşık güven aralıkları oluşturmak için Merkezi Limit Teoremini kullanabiliriz. Bu aralıklar değerli içgörüler sağlar ve tahminlerimizle ilişkili güven düzeyini anlayarak istatistiksel çıkarımlar yapmamıza yardımcı olur.

Confidence Intervals and the Central Limit Theorem
Confidence Intervals and the Central Limit Theorem
  • 2020.08.11
  • www.youtube.com
The central limit theorem lets us build confidence intervals for the mean even when the shape of the population distribution isn't known. If this vid helps y...
 

Güven Aralıkları ve Örnek Büyüklüğü


Güven Aralıkları ve Örnek Büyüklüğü

Herkese merhaba, bugün güven aralıkları ve örneklem büyüklüğünden bahsedeceğiz. Örnek ortalaması "x bar" olan "n" boyutunda basit bir rasgele örneğimiz olduğunda, aşağıdaki formülü kullanarak popülasyon ortalaması "mu" için bir "c" düzeyi güven aralığı oluşturabiliriz:

mu = x çubuk ± z yıldız * sigma / √n

Burada "z yıldızı", "c" güven düzeyine karşılık gelen kritik z puanını temsil eder ve "sigma", popülasyon standart sapmasıdır. "z yıldız * sigma / √n" terimi, örnek ortalamamızın gerçek popülasyon "mu" ortalamasından ne kadar sapabileceğinin bir tahmini olan hata payı olarak adlandırılır.

Bir güven aralığı oluşturmanın arkasındaki fikir, kabaca söylemek gerekirse, "mu"nun zamanın "c" yüzdesi olarak "x bar" hata payı içinde yer almasıdır.

Şimdi pratik bir soruyu ele alalım: Hata payının belirli bir "e" eşiğinden büyük olmamasını istiyorsak, ne kadar büyük bir örneğe ihtiyacımız var? Bu durumda, "e"yi, istenen hata payını, "c"yi, güven düzeyini ve "sigma"yı, popülasyon standart sapmasını (bilindiği varsayılarak) biliyoruz. Denklemi cebirsel olarak çözerek gerekli örneklem büyüklüğünü "n" bulmamız gerekiyor.

Örnek büyüklüğünü hesaplamak için, denklemin her iki tarafını da √n ile çarparız, her iki tarafı da "e" ile böleriz ve sonra her iki tarafın karesini alırız, bu da bize şunu verir:

n = (z yıldız * sigma / e)^2

Sonuçtaki "n" değeri bir tamsayı değilse, ki bu genellikle "z yıldızı" irrasyonel olma eğiliminde olduğundan böyledir, onu en yakın tam sayıya yuvarlarız. Örnek boyutunu artırmanın hata payını azalttığını ve "n"yi aşağı yuvarlamanın potansiyel olarak hata payını istenen "e" eşiğinin ötesine yükseltebileceğini not etmek önemlidir.

Kritik z puanı, "z yıldızı", belirtilen güven düzeyi "c" tarafından belirlenir. Bu değer, teknoloji kullanılarak veya bir tabloya bakılarak hesaplanabilir. İstatistiksel hesaplamalar için tabloların kullanılması genellikle önerilmese de, %95 güven düzeyi (1,960'lık az puanına karşılık gelir) gibi yaygın olarak kullanılan güven düzeyleri söz konusu olduğunda, tablo küçüktür ve kullanımı makuldür.

Bir örnek ele alalım: Bir istatistikçinin ağırlığını, standart sapması 1,2 pound olan bir ölçek kullanarak %95 güvenle en yakın yarım pound'a kadar belirlemek istediğimizi varsayalım. İstatistikçiyi kaç kez tartmamız gerekiyor?

Verilen değerleri örneklem büyüklüğü formülüne yerleştirerek, gerekli minimum örneklem büyüklüğünün 23 tartım olduğunu buluruz ve bunu 23'e yuvarlarız. Bu nedenle, ağırlıklarını en yakın yarım pound ile bilmek için istatistikçiyi 23 kez tartmamız gerekir. %95 güven.

Beklendiği gibi, güven seviyesini arttırırsak veya hata payını azaltırsak, gerekli örneklem büyüklüğü de artacaktır. Tersine, eğer hata payını arttırırsak, ihtiyaç duyulan örneklem büyüklüğü azalacaktır.

Başka bir örnekte, bir üreticinin belirli bir demir çivi türünün ortalama ağırlığını 0,2 gram içinde %99 güvenle belirlemek istediğini ve popülasyon standart sapması 0,5 gram olduğunu varsayalım. Örnek boyutu formülünü uygulayarak, 0,2 gramdan daha kötü olmayan bir hata payı ile %99 güven düzeyi elde etmek için minimum 42 çivilik bir örnek boyutunun gerekli olduğunu bulduk.

Güven aralıklarını ve bunların örneklem büyüklüğüyle ilişkisini anlamak, çalışmaları ve deneyleri etkin bir şekilde planlamamıza olanak tanıyarak, tahminlerimizin istenen güven ve kesinlik düzeyinde doğru ve güvenilir olmasını sağlar.

Confidence Intervals and Sample Size
Confidence Intervals and Sample Size
  • 2020.08.03
  • www.youtube.com
Choosing the correct sample size to accommodate a required margin of error is easy! Let's see how to do it. If this vid helps you, please help me a tiny bit ...
 

t-Dağılımını Kullanan Güven Aralıkları


t-Dağılımını Kullanan Güven Aralıkları

Herkese merhaba, bugünkü oturumda t-dağılımını kullanarak güven aralıkları oluşturacağız. Önceki tartışmalarımızda, mu eşittir x bar artı veya eksi z-yıldız sigma bölü n'nin karekökü formülünü, örnek ortalama x bar ile nüfus ortalamasını yaklaşık olarak hesaplamak ve hata payını hesaplamak için kullandık. Bununla birlikte, bu formül, popülasyon standart sapma sigmasını bildiğimizi varsayar, ki bu genellikle böyle değildir.

Bu sınırlamanın üstesinden gelmek için, örnek standart sapma s'yi kullanarak popülasyon standart sapma sigmasını tahmin edebiliriz. t-dağılımlı güven aralığı formülü, küçük bir değişiklikle öncekine benzer. Kritik z-skoru yerine, seçilen güven düzeyine dayalı kritik t-değerini kullanırız. t dağılımı, t eşittir x bar eksi mu bölü s bölü n'nin karekökü ile verilen t değişkeninin değişkenliğini tanımlar. t-dağılımı, standart normal dağılıma benzer şekilde simetrik ve çan şeklindedir, ancak daha küçük örneklem boyutları için biraz daha fazla yayılmıştır.

Bir güven aralığı oluşturmak için, t'nin negatif t-yıldız ile pozitif t-yıldız arasında olma olasılığı seçilen güven düzeyine eşit olacak şekilde t-yıldız olarak belirtilen kesme değerlerini bulmamız gerekir. t-yıldızı belirledikten sonra, mu eşittir x bar artı veya eksi t-yıldız s bölü n'nin karekökü formülünü kullanarak güven aralığını hesaplayabiliriz.

Bir örnek üzerinde çalışalım. Bir grup araştırmacı, bir Kanada gölündeki sodyum konsantrasyonlarını araştırmak istiyor. 23 örnek topladılar ve milyonda 24.7 parça ortalama ve milyonda 4.2 parça örnek standart sapması buldular. Göldeki ortalama sodyum konsantrasyonu için %95'lik bir güven aralığı oluşturmak istiyoruz. Nüfus standart sapmasını bilmediğimiz için t dağılımını kullanacağız.

Değerleri yerine koyduğumuzda, x bar eşittir 24,7, s eşittir 4,2 ve n eşittir 23 elde ederiz. Kritik t-değerini bulmak için, her iki taraftaki alanın %2,5'ini bırakmaya karşılık gelen t-yıldız değerini belirlememiz gerekir. t-dağılımı. Ters bir t hesaplaması kullanarak, t-yıldızının yaklaşık 2,074 olduğunu bulduk.

Şimdi güven aralığını oluşturabiliriz: 24.7 artı veya eksi 2.074 çarpı 4.2 bölü 23'ün karekökü. Bu ifadeyi sadeleştirerek, 24.7 artı eksi 1.8 güven aralığını elde ederiz.

Kritik t-değeri olan 2.074'ün, aynı güven düzeyi için kritik z-skorundan biraz daha büyük olduğunu belirtmek gerekir. Bunun nedeni, biraz daha geniş bir güven aralığıyla sonuçlanan bazı ek belirsizlikler getirerek popülasyon standart sapmasını tahmin ediyor olmamızdır.

Özetle, popülasyon standart sapmasını bilmeden güven aralıkları oluştururken, t dağılımını kullanırız ve popülasyon standart sapmasını örneklem standart sapması ile tahmin ederiz. Sürecin geri kalanı, bilinen standart sapmayla, ancak kritik z-skorları yerine kritik t-değerleriyle güven aralıkları oluşturmaya benzer.

Confidence Intervals Using the t-Distribution
Confidence Intervals Using the t-Distribution
  • 2020.08.15
  • www.youtube.com
How do we construct confidence intervals when the population standard deviation is unknown? Easy! We use the t-distribution. If this vid helps you, please he...
 

t-Dağılımında Hesaplamak için R'yi Kullanma


t-Dağılımında Hesaplamak için R'yi Kullanma

Herkese merhaba, bugün R'deki t-dağılımını kullanarak bazı hesaplamalar yapacağız. Adım adım üç problem üzerinde çalışacağız. Hemen dalalım!

İlk olarak, kümülatif dağılım fonksiyonunu (CDF) kullanarak t dağılımındaki olasılıkları nasıl hesapladığımızdan bahsedelim. 0,44 gibi belirli bir t-değerini girerek, CDF bize rastgele bu değerden küçük veya ona eşit bir t-skoru elde etme olasılığını verir. Görsel olarak, bu, t-dağılımları çan biçimli desenler sergilediğinden, bir çan eğrisinin grafiğini çizmeye karşılık gelir.

Olasılığı bulmak için ilgilenilen t-skorunu (0,44) etiketliyoruz ve bu skorun solundaki alanı gölgeliyoruz. Bu gölgeli alan, aradığımız olasılığı temsil ediyor. Zorlu ve daha az doğru olabilecekleri için tablolara güvenmek yerine t-dağılımı hesaplamaları için R kullanmanızı şiddetle tavsiye ederim. R'de, bir t dağılımının CDF'sine karşılık gelen komut pt'dir ve bu iki argüman gerektirir: t değeri (0,44) ve serbestlik derecesi sayısı (26).

R'ye geçelim ve pt komutunu çalıştıralım: pt(0.44, 26). Sonuç yaklaşık olarak 0,668'dir ve bu t-dağılımı içinde rasgele 0,44'ten küçük veya buna eşit bir t-skoru elde etme olasılığının %66,8 civarında olduğunu gösterir.

Şimdi ikinci soruna geçelim. 19 serbestlik dereceli bir t dağılımında t'nin -0,8 ile 0,5 arasında olma olasılığını bulmak istiyoruz. Bunu çözmek için t = 0,5'in solundaki alanı hesaplıyoruz ve t = -0,8'in solundaki alanı çıkarıyoruz. Bunu, aralarında çıkarma olan iki pt komutu kullanarak başarabiliriz: pt(0.5, 19) - pt(-0.8, 19). Sonuç yaklaşık olarak 0,472 olup, 19 serbestlik derecesine sahip bir t-dağılımında -0,8 ile 0,5 arasında rastgele bir t-skoru elde etme olasılığının yaklaşık %47,2 olduğunu gösterir.

Üçüncü soruna geçersek, 50 serbestlik dereceli t-dağılımında bir değer (tau) bulmamız gerekir, öyle ki tau'dan küçük veya tau'ya eşit bir t-skoru elde etme olasılığı 0,3'tür. Bu, ters bir CDF hesaplamasını içerir. Olasılığı (0.3) ve serbestlik derecesi sayısını (50) sağlayan R'de qt işlevini kullanabiliriz. qt komutunu çalıştıralım: qt(0.3, 50). Sonuç yaklaşık olarak -0,5277'dir. Herhangi bir t dağılımında çan eğrisinin merkezi t = 0 olduğu için negatif bir sayı elde etmenin makul olduğuna dikkat etmek önemlidir.

Unutmayın, bu hesaplamalar manuel olarak yapılabilir, ancak R, işlemi basitleştirmek için uygun işlevler (pt ve qt) sağlar. Bu işlevlerin kullanılması zamandan tasarruf sağlar ve doğruluğu garanti eder.

Using R to Calculate in the t-Distribution
Using R to Calculate in the t-Distribution
  • 2020.08.15
  • www.youtube.com
R is a fantastic way to do computations in the t-distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rsta...
 

R cinsinden Güven Aralıkları


R cinsinden Güven Aralıkları

Herkese merhaba, bugün R'de güven aralıklarıyla çalışacağız, bu özellikle özet istatistikler yerine gerçek bir veri setimiz olduğunda kullanışlıdır. Bu örnekte, CO2 veri setine bakacağız ve "alım" değişkenine odaklanacağız.

Daha önce, güven aralıklarını örnek ortalaması (x-çubuk) ve örnek standart sapmasını (s) kullanarak hesaplıyorduk, ancak şimdi "t.test" komutunu kullanarak bir kısayol öğreneceğiz. İlgilenilen değişkeni, bu durumda CO2 veri setinden "alımı" sağlayarak, komut varsayılan olarak %95 güven düzeyine sahip olacaktır.

t-testi komutu, bazıları daha sonra hipotez testini tartıştığımızda daha alakalı hale gelecek olan birkaç bilgi parçası sağlar. Şimdilik, dikkat edilmesi gereken önemli ayrıntılar %95 güven aralığı ve nokta tahminidir. Güven aralığı, popülasyon ortalamasını tahmin edebileceğimiz değer aralığını temsil eder. Nokta tahmini, nüfus ortalaması için tek bir değer tahmini işlevi gören örnek ortalamadır.

t-testi çıktısı aynı zamanda örneklem büyüklüğünden bir eksik olan serbestlik derecelerini de içerir. p-değerleri ve alternatif hipotezler gibi diğer bilgiler, anlamlılık testiyle ilgili gelecekteki videolarda tartışılacaktır.

t-testi çıktısı hata payını doğrudan vermese de manuel olarak hesaplayabiliriz. Bir t-güven aralığı için hata marjı şu formüle uyar: T* * (s / sqrt(n)) burada s numune standart sapmasıdır, n numune büyüklüğüdür ve T* kritik t-değeridir. İstenen güven düzeyi.

T*'yi bulmak için "qt" fonksiyonunu kullanırız ve T*'nin solundaki alanı belirtiriz. %95 güven aralığı için, alanın %97,5'inin T*'nin solunda olmasını istiyoruz. Bu nedenle T*'yi "qt(0.975, 83)" olarak hesaplıyoruz. T*'yi numune standart sapması ile çarpmak ve numune boyutunun kareköküne bölmek hata payını verir.

Alternatif olarak, güven aralığını otomatik olarak hesaplamak için R'deki "t.test" işlevini kullanabiliriz. Güven düzeyini değiştirmek için "conf.level=" argümanını ekler ve istenen yüzdeyi belirtiriz. Örneğin, "conf.level = 90" ayarı bize %90'lık bir güven aralığı verir.

Güven düzeyini düşürdüğümüzde ortaya çıkan güven aralığı daralır. Aralığın üst sınırı azalır ve tahminimizde daha yüksek bir kesinlik düzeyine işaret eder.

Özet olarak, güven aralıkları, popülasyon ortalamasını tahmin ettiğimiz bir dizi değer sağlar. R, hesaplamaları basitleştirmek ve doğru sonuçlar elde etmek için "t.test" ve "qt" gibi kullanışlı işlevler sağlar.

Confidence Intervals in R
Confidence Intervals in R
  • 2020.03.27
  • www.youtube.com
Quick t-distribution confidence intervals in R. So easy! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy...
 

Oranlar için Güven Aralıkları


Oranlar için Güven Aralıkları

Herkese merhaba, bugün orantı için güven aralıkları oluşturacağız. Genellikle, tura veya yazı, evet veya hayır veya doğru ve yanlış gibi iki olası sonucu olan rastgele süreçlerle karşılaşırız. Örnek verilere dayanarak bu sonuçların olasılıkları hakkında sonuçlar çıkarmak istiyoruz.

Bu sonuçları analiz etmek için, bir sonucu başarı olarak atayıp bir olarak kodlarken, diğer sonucu başarısızlık olarak kodlar ve sıfır olarak kodlarız. "Başarı" ve "başarısızlık" terimlerinin keyfi olduğunu ve sonuçlar üzerinde herhangi bir değer yargısı ima etmediğini not etmek önemlidir.

Değişkeni bu şekilde kodlayarak, X adını vereceğimiz ayrık bir rasgele değişken yaratırız. X, sırasıyla p ve (1 - p) olasılıklarıyla bir ve sıfır olmak üzere iki değer alabilir. Burada p, başarı olasılığını temsil eder.

Bu rastgele değişken türü için özet bilgileri hesaplayabiliriz. Ortalama veya beklenen değer, rastgele değişkenin tüm olası değerlerinin kendi olasılıkları ile ağırlıklandırılmış toplamıdır. Bir Bernoulli denemesi için ortalama, p'ye eşittir.

Rastgele bir değişkenin standart sapması, her biri olasılıklarıyla ağırlıklandırılmış, bireysel değerler ile beklenen değer arasındaki farkların karelerinin toplamının kareköküdür. Bir Bernoulli denemesi için, standart sapma (p * (1 - p))'nin karekökü ile verilir.

Şimdi, p'nin denemeler boyunca sabit kaldığı n özdeş, bağımsız Bernoulli denemesi yapmayı düşünelim. Bu denemelerdeki başarıların oranı, (1/n) * toplam(xi)'ye eşit olan p-hat olarak gösterilir; burada xi, başarı için bir ve başarısızlık için sıfırdır. Başka bir deyişle, p-hat, n denemedeki başarı oranıdır.

p-hat yalnızca bir örnek ortalama olduğundan, örnekleme araçlarına ilişkin bilgimizi buna uygulayabiliriz. p-hat'ın ortalaması p'ye eşittir, bireysel bir Bernoulli denemesinin ortalaması ile aynıdır. p-hat'ın standart sapması, tek bir Bernoulli denemesinin standart sapması bölü n'nin karekökü olan ((p * (1 - p)) / n)'nin kareköküne eşittir. Merkezi limit teoremine göre, p-hat'ın örnekleme dağılımı, n büyük, tipik olarak 30 veya daha fazla olduğunda yaklaşık olarak normaldir.

Şimdi güven aralıklarını tartışalım. Ortalama olması durumunda, bir güven aralığının temel yapısı mu = x-bar +/- z-star * sigma-sub-x-bar'dır. Benzer şekilde bir orantı için güven aralığı formülü p = p-şapka +/- z-yıldız * sqrt((p-hat * (1 - p-hat)) / n) şeklindedir.

Orantı formülünde, p-hat, örneğimizdeki deneysel başarı oranını temsil ederken, p, tahmin etmeye çalıştığımız genel başarı olasılığını temsil eder. p-hat sıfıra veya bire yakın olduğunda hata payı azalır, bu nedenle bu tür durumlarda bu güven aralığının kullanılmaması tavsiye edilir.

Belirli bir hata payı (e) için gerekli örneklem büyüklüğünü belirlemek için n = (p-hat * (1 - p-hat) * z-star^2) / epsilon^2 formülünü kullanırız. Ön verilerimiz yoksa, mümkün olan en büyük örneklem büyüklüğünü veren en ihtiyatlı tahmini, p-hat = 0,5'i kullanabiliriz. Bu durumda, formül n = (z-yıldız^2) / (4 * epsilon^2) olur.

Bir örnek düşünelim. %95 güvenle bir anket yapmak istediğimizi ve hata payının %3'ten fazla olmaması gerektiğini varsayalım. Hiçbir ön veriye sahip olmadığımız için, ihtiyatlı tahmin olan p-hat = 0.5'i kullanacağız. Formüle z-star = 1,96 ve epsilon = 0,03 değerlerini yerleştirdiğimizde şunu elde ederiz:

n = (1,96^2) / (4 * 0,03^2) ≈ 1067,1

Örnek boyutunun bir tam sayı olması gerektiğinden, hata payının %3'ü geçmemesini sağlamak için değeri yuvarlarız. Bu nedenle, bu anket için 1068 kişilik bir örneklem büyüklüğüne ihtiyacımız olacak.

Özet olarak, orantılar için güven aralıkları oluşturmak, başarı ve başarısızlık değerleri atamayı, örnek ortalamaları ve standart sapmaları hesaplamayı ve güven aralıklarını belirlemek için uygun formülleri kullanmayı içerir. Bu aralıkları kullanma koşullarını göz önünde bulundurmak ve örneklem boyutunu istenen hata payına göre ayarlamak önemlidir.

Confidence Intervals for Proportions
Confidence Intervals for Proportions
  • 2020.10.11
  • www.youtube.com
How can we estimate a population proportion using only a sample proportion? Using a confidence interval, of course! If this vid helps you, please help me a t...
 

Oranlar için Güven Aralıkları: Örnekler


Oranlar için Güven Aralıkları: Örnekler

Bugün orantılar için güven aralıkları oluşturmayı içeren iki örnek problem üzerinde çalışacağız. Gelelim problemlere:

Problem 1: Rastgele seçilmiş 275 Amerikalı yetişkin üzerinde yapılan bir anket, bunların 29'unun kahve içtiğini ortaya koyuyor. Kahve içen tüm Amerikalı yetişkinlerin oranı için %90'lık bir güven aralığı oluşturmamız gerekiyor.

Oranlar için bir güven aralığı formülü kullanılarak: p = p̂ ± z √(p̂(1 - p̂)/n), burada p̂ örnek oranıdır, n örnek boyutudur ve z şuna karşılık gelen kritik z değeridir: İstenen güven düzeyi.

p̂ = 29/275 = 0,1055, n = 275 ve z* = 1,645 (%90 güven düzeyi için) verildiğinde, şu değerleri yerine koyabiliriz:

p = 0,1055 ± 1,645 * √((0,1055 * (1 - 0,1055))/275)

Bu ifadeyi hesaplayarak, kahve içen Amerikalı yetişkinlerin oranı için güven aralığının yaklaşık 0,1055 ± 0,045 olduğunu buluyoruz. Böylece, gerçek oranın (0.0605, 0.1505) aralığında olduğunu %90 güvenle tahmin edebiliriz.

Problem 2: Bir araştırmacı Amerika'da çay içmeyi araştırmak istiyor ve %4'ten büyük olmayan bir hata payını garanti etmek için gereken örneklem büyüklüğünü belirlemesi gerekiyor.

Oranlar için bir güven aralığındaki hata payı formülünü kullanarak: e = z*√(p̂(1 - p̂)/n), örneklem büyüklüğünü çözmek için yeniden düzenleyebiliriz:

n = (z*^2 * p̂(1 - p̂)) / e^2.

Bu durumda, herhangi bir ön veriye sahip değiliz, bu nedenle p̂ için en ihtiyatlı tahmin olan 0,5'i kullanıyoruz (maksimum değişkenliği gösterir). z* = 1,645 (%90 güven düzeyi için) ve e = 0,04 verildiğinde, bu değerleri formülde yerine koyabiliriz:

n = (1,645^2 * 0,5(1 - 0,5)) / 0,04^2

İfadeyi basitleştirerek, gerekli minimum örneklem boyutunun yaklaşık 257.03 olduğunu buluyoruz. Örnek boyutunun bir tam sayı olması gerektiğinden, istenen hata payını aşmamak için yuvarlarız. Bu nedenle, %4'ten büyük olmayan bir hata payını garanti etmek için 258 kişilik bir örneklem büyüklüğü gereklidir.

Özetle, oranlar için güven aralıkları oluşturmak, örnek oranlarını, örnek boyutlarını ve kritik değerleri içeren formüllerin kullanılmasını içerir. Bu formülleri uygulayarak, popülasyon oranlarını belirli bir güven düzeyi içinde tahmin edebilir ve istenen bir hata payını elde etmek için gereken örneklem büyüklüğünü belirleyebiliriz.

Confidence Intervals for Proportions: Examples
Confidence Intervals for Proportions: Examples
  • 2020.10.12
  • www.youtube.com
Constructing a confidence interval for a population proportion using sample data, and planning the sample size of a study. Awesome! If this vid helps you, pl...
 

Hipotez Testine Giriş


Hipotez Testine Giriş

Herkese merhaba, bugünkü oturumda, anlamlılık testi olarak da bilinen hipotez testine gireceğiz. Konsepti daha iyi kavramak için birlikte bir örnek üzerinde çalışacağız. Hadi başlayalım.

Bir çikolata üreticisinin çikolatalarının ortalama 350 gram ağırlığında olduğunu iddia ettiğini varsayalım. Bununla birlikte, iddialarının abartıldığından ve çikolatalarının gerçek ortalama ağırlığının 350 gramdan az olduğundan şüpheleniyorum. Bunu araştırmak için 10 çikolata kalıbı alıyorum ve ağırlıklarını kaydediyorum. Numune ortalamasının 350 gramın altında olması, şirketin iddiasına karşı kanıt sağlayacaktır. 350 grama eşit veya daha fazla ise, iddialarına meydan okumaz.

Örneğimin 350 gramın altında olan ortalama 347 gram ağırlık verdiğini varsayalım. Sonuç olarak, bu sonuç şüphemi desteklemekte ve şirketin iddiasını çürütmektedir. Bununla birlikte, şirket, örneğimin rastgele hafif olabileceğini ve başka bir örnek alırsam, rastgele şans nedeniyle tam olarak 350 gram veya daha fazla verebileceğini iddia edebilir. Bu nedenle, bu iki olasılık arasında karar vermek için bir yönteme ihtiyacım var: şirketin yalan söylemesi veya sonucun şansa bağlı olması.

Böyle bir durumda yapabileceğimiz en iyi şey şirketin iddiasıyla ilgili bir olasılık beyanı yapmaktır. Şirket doğruyu söylüyorsa, tamamen tesadüfen gözlemlediğimiz kadar düşük bir örnek ortalama elde etme olasılığımızı belirlemek istiyoruz. Daha düşük bir olasılık, şirketin iddiasına karşı daha güçlü kanıtları gösterir.

Matematiksel olarak ilerlemek için, şirketin iddiasıyla uyumlu olan ve H0 olarak gösterilen sıfır hipotezini varsayalım. Bu durumda sıfır hipotezi, tüm çikolata kalıplarının popülasyon ortalamasının tam olarak 350 gram olduğunu belirtir. Öte yandan, kurmayı amaçladığımız şeyi temsil eden Ha olarak gösterilen alternatif hipoteze sahibiz. Bu durumda Ha, tüm çikolataların ortalama ağırlığının 350 gramdan az olduğunu iddia etmektedir (Ha: μ < 350).

Hem H0 hem de Ha'nın örnek ortalamaya (x-çubuk) değil popülasyon parametrelerine atıfta bulunduğuna dikkat etmek önemlidir. Henüz x-bar'dan bahsetmedik çünkü onu H0 ile Ha arasında bir karar vermek için kullanacağız.

Olasılığı hesaplamak için x çubuğunun örnekleme dağılımını dikkate almamız gerekir. Sıfır hipotezinin doğru olduğunu varsayıyoruz ve 10 büyüklüğünde birden fazla örnek elde etmeyi tasavvur ediyoruz. X-çubuğunun dağılımı neye benziyor? Tek tek çikolata kalıplarının ağırlıkları değişebilirken, ortalama ağırlık (x-çubuk) ortalama olarak popülasyon ortalamasına (μ) göre hizalanacaktır.

Merkezi limit teoremi ayrıca örnekleme dağılımını anlamamıza yardımcı olur. Yeterince büyük bir örneklem boyutu için (genellikle n > 30), x-çubuğunun örnekleme dağılımı, ortalama μ ve standart sapma σ/√n ile normal bir dağılıma yaklaşır. Popülasyon dağılımının kendisi normal ise, yaklaşıklık kesindir ve x-çubuğun dağılımı tam olarak normaldir.

Sıfır hipotezi altında ortalama ağırlığın 350 gram olduğu tek tek çikolataları temsil eden mavi eğriyi hayal edin. Bazı çubuklar biraz daha ağır veya daha hafif olabilir ve birkaçı önemli ölçüde farklılık gösterebilir. Şimdi x çubuğunun örnekleme dağılımını temsil eden yeşil eğriyi görselleştirin. Sıfır hipotezi doğruysa, bazı küçük farklılıklarla birlikte, ortalama olarak, x-bar 350 gram olacaktır. Bununla birlikte, x-çubuğundaki değişkenlik, tek tek çubuklarla karşılaştırıldığında daha az olacaktır çünkü bir numunede aşırı ağırlıklar birbirini dengeleme eğilimindedir.

4 gram olan çikolataların standart sapmasını bildiğimizi varsayalım. Bu genellikle bildiğimiz bir değer olmasa da, gelecek videolarda buna değineceğiz. μ = 350 gram sıfır hipotezi ve merkezi limit teoremi ile, x-bar'ın örnekleme dağılımı hakkında gerekli tüm bilgilere sahibiz. Ortalama 350 gram ve 4 gram standart sapma bölü 10'un karekökü (örnek büyüklüğü 10 olduğu için) yaklaşık 1.26 gram olan normal bir dağılım izleyecektir.

347 gramdan küçük veya eşit bir örnek ortalama (x-bar) elde etme olasılığını tamamen rastgele şansla hesaplamak için bir z-skoru hesaplayabiliriz. X çubuğunun 347 gramdan küçük veya eşit olma olasılığı, karşılık gelen z puanının (347 - 350) / 1,26'dan küçük veya eşit olma olasılığına eşittir, bu da -2,37'ye sadeleşir.

İstatistik yazılımı veya bir tablo kullanarak, standart bir normal dağılımın -2,37'den küçük veya ona eşit olma olasılığının yaklaşık 0,0089 olduğunu buluruz. Bu olasılığa p-değeri denir.

Şimdi, p-değerinin yorumunu tartışalım. Bu durumda, 0,0089'luk p değeri nispeten küçüktür. p-değeri, sıfır hipotezi (μ = 350 gram) doğruysa, 347 gram veya daha düşük bir numune ortalaması elde etme olasılığını temsil eder. Küçük bir p-değeri, sıfır hipotezi doğruysa, bu kadar düşük bir örneklem ortalamasının gözlemlenmesinin olası olmadığını gösterir.

Dikkate alınması gereken iki olasılık vardır: Birincisi, boş hipotezin doğru olması olasıdır ve tesadüfen yaklaşık 0,0089 kez meydana gelen nadir bir olay (örnek ortalaması 347 gram veya daha az) gözlemledik. İkincisi, sıfır hipotezinin yanlış olması (başlangıçta şüphelendiğimiz gibi) ve alternatif hipotezin (μ < 350 gram) doğru olması mümkündür.

0.0089'luk p-değeri oldukça düşük olduğundan, ilk olasılık pek olası görünmüyor. Bu nedenle sıfır hipotezini (H0: μ = 350 gram) reddediyor ve alternatif hipotezi (Ha: μ < 350 gram) destekliyoruz. Bu, bizi, bu şirket tarafından üretilen çikolata kalıplarının popülasyon ortalama ağırlığının gerçekten de 350 gramdan az olduğunu gösteren güçlü kanıtlar olduğu sonucuna götürüyor.

Kapanışta, bir hipotez testi yürütmenin temel adımlarını ele aldık. Bununla birlikte, yeterince küçük bir p-değeri için eşik belirlemek, alternatif hipotezleri dikkate almak ve popülasyon parametrelerinin bilinmediği durumlarla ilgilenmek gibi henüz ele almadığımız ek sorular da vardır. Gelecekteki videolarda, bu soruları inceleyeceğiz ve hipotez testi hakkında daha fazla bilgi sağlayacağız.

Introduction to Hypothesis Testing
Introduction to Hypothesis Testing
  • 2020.10.29
  • www.youtube.com
Let's talk about hypothesis testing (also known as significance testing). How can we test a claim about a population using just sample data? What is a p-valu...
 

İstatistiksel anlamlılık


İstatistiksel anlamlılık

Herkese iyi günler! Bugün, hipotez testi kavramını daha derinlemesine inceleyeceğiz ve istatistiksel anlamlılık fikrini tartışacağız. Hipotez testleri, en yaygın olanları popülasyon araçları için z testi ve t testi olmak üzere çeşitli biçimlerde gelir. Bununla birlikte, temel mantık aynı kalır.

İlk olarak, sıfır hipotezinin doğru olduğunu varsayıyoruz. Ardından, bir veri örneği toplarız ve boş hipotezin doğru olduğunu varsayarak tamamen rastgele şansla benzer bir örnek elde etme olasılığını hesaplarız. Bu olasılık, testin p-değeri olarak bilinir. Daha düşük bir p-değeri, sıfır hipotezine karşı daha güçlü kanıtlar gösterir.

Bununla birlikte, çoğu durumda, sadece p-değerlerini karşılaştırmak, kesin bir karar vermek için yeterli olmayabilir. Bu nedenle, hipotez testini gerçekleştirmeden önce, anlamlılık düzeyi alfa olarak bilinen önceden belirlenmiş bir kesme p-değeri oluşturmak genellikle yararlıdır. Değişkenlik gösterse de genellikle alfa 0,05 olarak ayarlanır.

Alfadan küçük bir p-değerine dayanan sıfır hipotezini reddettiğimizde, sonuçların istatistiksel olarak anlamlı olduğunu düşünürüz. Başka bir deyişle, kanıtlar alternatif hipotezi desteklemektedir. Şimdi, bu kavramları açıklamak için birkaç örnek inceleyelim.

Örnek 1: Bir çikolata üreticisi, çikolatalarının ortalama ağırlığının 350 gram olduğunu iddia ediyor. Ancak, gerçek ortalama ağırlığın daha düşük olduğundan şüpheleniyoruz. Şirketin iddiasının doğru olduğuna dair boş bir hipotez ve ortalama ağırlığın 350 gramdan az olduğuna dair alternatif bir hipotez belirterek bir anlamlılık testi kurduk. Alfa'nın 0.05'e eşit bir anlamlılık düzeyi kullanmaya önceden karar veririz.

10 büyüklüğünde bir numune topladıktan ve 347 gramlık bir numune ortalamasını hesapladıktan sonra, sıfır hipotezinin doğru olduğunu varsayarak, bu kadar aşırı sonuçlar elde etme olasılığını belirleriz. Bu, 0.0089'luk bir p değeriyle sonuçlanır. Bu p-değeri 0,05'ten küçük olduğu için sıfır hipotezini reddediyoruz ve şirketin çikolatalarının ortalama ağırlığının gerçekten de 350 gramdan az olduğu sonucuna varıyoruz.

Örnek 2: Tıp araştırmacıları, yeni bir kilo verme ilacının etkinliğini test etmek için bir çalışma yürütürler. Alfa'nın 0.01'e eşit bir anlamlılık düzeyi seçerler. Sıfır hipotezi, bir plaseboya kıyasla ortalama kilo kaybının sıfır olduğunu belirtirken, alternatif hipotez, pozitif bir ortalama kilo kaybı önermektedir. Verileri analiz ettikten sonra, 0.045'lik bir p değeri elde ederler. p-değeri, seçilen anlamlılık düzeyi olan 0.01'den büyük olduğu için sıfır hipotezini reddedemezler. Bu nedenle, tedavinin ortalama olarak plasebodan üstün olduğu sonucuna varmak için yeterli kanıt yoktur.

Bunun yerine, alfanın 0,05'e eşit olduğu bir önem düzeyi seçmiş olsalardı, sonucun farklı olabileceğini not etmek önemlidir. Bu, anlamlılık testinin ve alfa eşiklerinin kullanımının olası bir tuzağını vurgular. Karar vermek için hipotez testine körü körüne güvenmek riskli olabilir. Önem düzeyi alfaya dayalı olarak verilen kararların yanında her zaman p-değerini rapor edin. Ek olarak, bir sonraki videoda tartışacağım gibi, p-değerlerini yorumlarken dikkatli olun ve çeşitli faktörleri göz önünde bulundurun.

Statistical Significance
Statistical Significance
  • 2020.10.30
  • www.youtube.com
Let's talk about statistical significance! What's up with alpha anyway?? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For ...
 

Hipotez Testi: Tek ve İki Taraflı Alternatifler


Hipotez Testi: Tek ve İki Taraflı Alternatifler

Bugünün tartışmasında, özellikle tek taraflı ve iki taraflı alternatif hipotezlere odaklanarak hipotez testi kavramını daha derinlemesine inceleyeceğiz. Ortalama için bir hipotez testinin temel yapısını yeniden gözden geçirerek başlayalım.

İlk adım, H₀ olarak gösterilen sıfır hipotezini belirlemektir. Bu ifade, nüfus ortalamasıyla ilgilidir ve aleyhine kanıt toplamayı amaçladığımız iddiayı temsil eder. Bunu takiben, sıfır hipoteziyle çelişen ve tipik olarak kurmaya çalıştığımız hipotezi temsil eden Hₐ olarak gösterilen alternatif bir hipotez kurarız. Bu sürecin arkasındaki fikir, sıfır hipotezine karşı kanıt biriktirerek, dolaylı olarak alternatif hipotez lehine kanıt biriktirmemizdir.

Daha sonra, verileri topluyoruz ve x̄ olarak gösterilen bir örnek ortalama hesaplıyoruz. Oradan, sıfır hipotezinin doğru olduğunu varsayarak, gözlemlediğimiz kadar aşırı bir örnek ortalama elde etme olasılığını (p-değeri) belirleriz. p-değeri, sıfır hipotezine karşı kanıtın gücünü belirtirken, daha düşük değerler, alternatif hipotez lehine daha güçlü kanıtları gösterir. Genellikle, hipotez testini, p-değerini, testin anlamlılık seviyesini gösteren alfa olarak adlandırılan önceden belirlenmiş bir kesme noktasıyla karşılaştırarak sonuçlandırırız. p-değeri alfadan küçükse, boş hipotezi reddederiz. Veri toplamadan önce önem düzeyi alfanın seçilmesi gerektiğine dikkat etmek çok önemlidir.

Şimdi alternatif hipotezleri daha detaylı inceleyelim. Önceki tartışmada, alternatif hipotezin sıfır hipoteziyle çelişmek için seçildiğini belirtmiştik. Mu eşittir mu₀ şeklindeki basit bir sıfır hipotezi için bile, burada mu₀ varsayılan bir değeri temsil eder, üç potansiyel alternatif hipotez vardır:

  1. mu < mu₀: Bu alternatif hipotez, popülasyon ortalamasının mu'nun varsayılan değer olan mu₀'den küçük olduğunu iddia eder.
  2. mu > mu₀: Bu alternatif hipotez, nüfus ortalaması mu'nun varsayılan değer olan mu₀'den büyük olduğunu öne sürer.
  3. mu ≠ mu₀: Bu alternatif hipotez, mu'nun özgül değerine ilişkin hiçbir varsayımda bulunmaz.

İlk iki alternatif hipotez, belirli bir yöne odaklandıkları için tek taraflı alternatifler olarak adlandırılırken, üçüncü alternatif iki taraflı alternatif hipotez olarak bilinir. Bu alternatiflerin her biri, sıfır hipoteziyle biraz farklı şekillerde çelişir.

Ortalama için bir hipotez testi yürütürken, bu seçenekler arasındaki seçim gerçek dünyadaki hususlara bağlıdır. Genel bir kılavuz olarak, popülasyon ortalamasının sağlanan değerden daha büyük veya daha küçük olamayacağını veya olmaması gerektiğini varsaymak için gerçek dünya faktörlerine dayanan özel bir neden olmadıkça iki taraflı alternatif hipotezin seçilmesi tavsiye edilir. sıfır hipotezi, mu₀.

Anlayışımızı geliştirmek için bazı örneklerle devam edelim. İlk örnek, çikolatalarının ortalama ağırlığının 350 gram olduğunu iddia eden bir şekerleme şirketini içeriyor. Ortalama ağırlığın gerçekte daha az olduğundan şüphelenirsek, sıfır hipotezi şirketin iddiası olurken, alternatif hipotez mu < 350 gram olacaktır. Bu durumda, sadece çikolataların ortalama ağırlığının 350 gramın altında olma ihtimaliyle ilgileniyoruz.

İkinci örnekte, bir öğretim kılavuzu, belirli bir alıştırmanın ortalama 30 dakika sürdüğünü iddia etmektedir. Sıfır hipotezi kılavuzun iddiası mu = 30 olacaktır ve alternatif hipotez mu ≠ 30 olacaktır. Burada, mu'nun 30'dan küçük veya büyük olması olasılığını dışlamak veya göz ardı etmek için haklı bir nedenimiz yok.

Üçüncü örnekte, bir yağ değiştirme işletmesi, bir yağ değişimini ortalama olarak 15 dakikada tamamladığını iddia ediyor. Gerçek zamanın daha uzun olduğundan şüphelendiğimizi varsayalım.

p-değeri anlamlılık düzeyinden (alfa) küçük veya ona eşitse, boş hipotezi reddederiz. Bu, verilerin sıfır hipotezine karşı güçlü kanıtlar sağladığı ve alternatif hipotezi desteklediği anlamına gelir. Öte yandan, p-değeri anlamlılık düzeyinden büyükse sıfır hipotezini reddetmekte başarısız oluruz. Bu durumda, veriler sıfır hipotezini reddetmek için yeterli kanıt sağlamaz ve alternatif hipotez için yeterli desteğimiz yoktur.

Sıfır hipotezini reddetmenin, sıfır hipotezinin doğru olduğu anlamına gelmediğini not etmek önemlidir. Bu basitçe, verilerin alternatif hipotezi desteklemek için önemli kanıtlar sağlamadığı anlamına gelir. Sıfır hipotezine karşı kanıt olmaması, onun gerçekliğini kanıtlamaz.

Tek taraflı veya iki taraflı alternatif hipotez arasındaki seçim, belirli araştırma sorusuna ve ele almak istediğiniz hipotezlere bağlıdır. Nüfus ortalamasının belirli bir değerden önemli ölçüde farklı olup olmadığını belirlemekle ilgileniyorsanız, iki taraflı bir alternatif hipotez seçersiniz. Bu, ortalamanın varsayılan değerden daha büyük veya daha küçük olma olasılığını göz önünde bulundurmanıza olanak tanır.

Bununla birlikte, ortalamanın varsayılan değerden yalnızca daha büyük veya daha küçük olabileceğine inanmak için belirli bir nedeniniz varsa, tek taraflı bir alternatif hipotez seçebilirsiniz. Bu, testin odağını sıfır hipotezinden yalnızca bir sapma yönüne daraltır.

Özet olarak, hipotez testi, aleyhinde kanıt toplamak istediğiniz ifadeyi temsil eden bir sıfır hipotezi ve sıfır hipoteziyle çelişen alternatif bir hipotez formüle etmeyi içerir. Veriler toplanır ve numune ortalaması gibi bir test istatistiği hesaplanır. Daha sonra sıfır hipotezinin doğru olduğu varsayılarak gözlemlenen kadar aşırı bir test istatistiği elde etme olasılığını temsil eden p-değeri hesaplanır. Tek taraflı veya iki taraflı alternatif hipotez seçimi, araştırma sorusuna ve popülasyon parametresi hakkındaki spesifik varsayımlara bağlıdır. Son olarak, p-değeri anlamlılık düzeyi ile karşılaştırılır ve verilerin sağladığı kanıtlara dayalı olarak sıfır hipotezinin reddedilip reddedilmeyeceğine karar verilir.

Hypothesis Testing: One- and Two-Sided Alternatives
Hypothesis Testing: One- and Two-Sided Alternatives
  • 2020.10.31
  • www.youtube.com
How do we determine the an alternative hypothesis when setting up a hypothesis test? How does our choice affect the way we calculate a p-value?