Alım-satım fırsatlarını kaçırıyorsunuz:
- Ücretsiz alım-satım uygulamaları
- İşlem kopyalama için 8.000'den fazla sinyal
- Finansal piyasaları keşfetmek için ekonomik haberler
Kayıt
Giriş yap
Gizlilik ve Veri Koruma Politikasını ve MQL5.com Kullanım Şartlarını kabul edersiniz
Hesabınız yoksa, lütfen kaydolun
Hipotez Testi: Örnek
Hipotez Testi: Örnek
Bugün, ortalama için bir hipotez testi örneğini inceleyeceğiz. Spesifik örneğe dalmadan önce, genel prosedürü gözden geçirelim. Aleyhinde kanıt toplamak istediğimiz fikri temsil eden sıfır hipotezi ve desteklemeye çalıştığımız alternatif hipotez de dahil olmak üzere her zaman hipotezler oluşturmakla başlar. Sıfır hipotezinin doğru olduğunu varsayarak, bu varsayım altında örnek ortalamamızın (X bar) tüm olası örnek ortalamaları arasında nereye düştüğünü inceleriz.
Bunu yapmak için, sıfır hipotezi bağlamında sonucumuzun sapmasını ölçen bir z-skoru hesaplıyoruz. Nüfus ortalamasının (μ) belirli bir değerden küçük veya büyük olup olmadığını test eden tek taraflı bir alternatif hipotez için, elde ettiğimizden daha düşük veya ona eşit bir z-skoru elde etme olasılığını hesaplarız. İki taraflı bir alternatif hipotez için, her iki olasılığı da hesaplarız ve sonra uygun şekilde ikiye katlarız.
En biçimsel temsilde, elde ettiğimiz z-skorunun negatif mutlak değerinden küçük veya ona eşit bir z-skoru alma olasılığını buluruz. Kümülatif dağılım fonksiyonunu kullanarak hem sol hem de sağ kuyrukları hesaba katarız. p-değerini elde ettikten sonra, onu seçilen anlamlılık düzeyi (alfa) ile karşılaştırırız. p-değeri alfadan küçükse sıfır hipotezini reddederiz ve alternatif hipotezin desteklendiği sonucuna varırız.
Şimdi bunu gerçek bir örneğe uygulayalım. Bir tüketici destek grubu, tablet başına ortalama 1000 miligram C vitamini içerdiğini iddia eden organik bir takviyenin C vitamini içeriğini test ediyor. 32 örneklem büyüklüğü ile, 1008.9 miligramlık bir örneklem ortalaması buluyorlar. Popülasyon standart sapması (σ) 21 miligram olarak verilmiştir. Görevimiz, ürünün iddiasını reddetmek için yeterli kanıt olup olmadığını belirlemektir. Anlamlılık düzeyi (alfa) 0,05 olarak ayarlanmıştır.
Genel prosedürü takiben, hipotezleri kurarak başlıyoruz. Boş hipotez, ürünün ortalama 1000 miligram C vitamini içeriği iddiasının doğru olduğu, alternatif hipotez ise gerçek ortalamanın 1000 miligramdan farklı olduğu yönündedir. Yalnızca 1000'den küçük veya büyük değerleri dikkate almak için özel bir gösterge olmadığından, iki taraflı bir alternatif hipotezi tercih ediyoruz.
Ardından, (örnek ortalama - beklenen değer) / (örnek ortalamanın standart sapması) formülünü kullanarak z-skorunu hesaplıyoruz. Sıfır hipotezini varsayarak, 1000 miligramlık bir ortalama değer kullanırız ve numune ortalamasının standart sapmasını σ / √n olarak hesaplarız; burada n numune boyutudur. Sonuç olarak, z-puanı 2,39 olarak bulundu, bu da 1008,9 miligramlık örnek ortalamamızın sıfır hipotezi altında beklenen ortalamadan 2,39 standart sapma saptığını gösteriyor.
p-değerini belirlemek için, sahip olduğumuz kadar uç bir z-skoru elde etme olasılığını bulmamız gerekir (pozitif veya negatif). Bu durumda, 0,0084 veren P(Z ≤ -2,39) hesaplıyoruz. Bu iki taraflı bir test olduğundan, 0,0168 elde etme olasılığını ikiye katlarız.
p-değerini anlamlılık düzeyiyle karşılaştırdığımızda, 0.0168'in gerçekten de 0.05'ten küçük olduğunu bulduk. Bu nedenle, sıfır hipotezini reddetmek ve ekin ortalama 1000 miligram C vitamini içermediği sonucuna varmak için yeterli kanıtımız var.
Önem Testlerinde Tip I ve Tip II Hatalar
Önem Testlerinde Tip I ve Tip II Hatalar
Bugün, anlamlılık testinin planlandığı gibi gitmediği durumları tartışacağız. Hepsini sadece üç dakika içinde ele alalım. Hadi başlayalım.
Hipotez testinde, H sıfır için iki olası durumla karşılaşırız (sıfır hipotez): doğru veya yanlış olabilir. Testin sonunda iki potansiyel kararımız var: H sıfırını reddetmek veya reddetmemek. Bu bize toplam dört olası sonuç verir. Bu iki kararın kombinasyonlarını inceleyebiliriz. Bu sonuçları özetleyen bir tablom var ve bunlardan ikisi bizi tatmin ediyor: yanlış olduğunda H'yi reddetmek ve doğru olduğunda H'yi reddetmemek. Ancak istenmeyen iki durum vardır.
Bu konuyu derinlemesine incelerken, başlangıçta H sıfırın doğru mu yoksa yanlış mı olduğu hakkında önceden bilgi sahibi olmadığımıza dikkat etmek önemlidir. Bu tür bilgileri elde edersek, genellikle çok sonra gelir. Şimdi, iki olumsuz sonucu tartışalım. İlki, Tip 1 hatası veya yanlış pozitif olarak adlandırılır. Bu, doğru olmasına rağmen sıfır hipotezini reddettiğimizde ortaya çıkar. Rastgele bir olay meydana geldiğinde olur ve biz onu yanlışlıkla önemli olarak yorumlarız. İkinci durum, Tip 2 hatası veya yanlış negatiftir. Bu, aslında yanlış olmasına rağmen sıfır hipotezini reddetmediğimizde ortaya çıkar. Bu durumda, önemli bir şey oluyor, ancak testimiz bunu tespit edemiyor.
"Yanlış pozitif" ve "yanlış negatif" terimleri, mantıksal çerçevenin anlamlılık testine benzer olduğu tıbbi testlerden kaynaklanır. Tıbbi testlerde, bir hastalığı test ediyor olabilirsiniz ve test onun varlığını veya yokluğunu gösterebilir. Genel Tip 1 ve Tip 2 hatalar, istenen sonuçları onay işaretleriyle vurgulayarak sağlanan tabloda özetlenmiştir.
Hızlıca birkaç örnek üzerinden gidelim. Bir çikolata üreticisinin, çubuklarının ortalama olarak 350 gram ağırlığında olduğunu iddia ettiğini varsayalım. Fazla tahmin ettiklerinden şüpheleniyorum, bu yüzden bir örnek topluyorum ve 0,0089 p değeriyle iddialarını reddediyorum. Bununla birlikte, üreticinin iddiası gerçekten doğruysa ve çubuklarının ortalama ağırlığı 350 gram ise, Tip 1 hatası veya yanlış pozitif yapmış olurum.
İşte başka bir örnek: Bir restoran, sandviçlerinden birinin ortalama sodyum içeriğinin 920 miligram olduğunu iddia ediyor. Bir örneği analiz ediyorum ancak alfa düzeyi 0,01 olan iddiayı reddetmek için yetersiz kanıt buluyorum. Restoranın iddiası yanlış olsaydı, ortalama sodyum içeriği aslında 950 miligram diyelim, iddiayı reddetmeyerek Tip 2 hatası yapmış olurdum.
Kritik bölgeleri kullanarak hipotez testi
Kritik bölgeleri kullanarak hipotez testi
Herkese merhaba, bugün kritik bölgeleri kullanarak hipotez testini tartışacağız. Bu yaklaşım eski usul olarak kabul edilebilse de, ele alacağımız teoriyle hala alakalı. Bu nedenle, temel bir anlayışa sahip olmak faydalıdır.
Geçmişte, p değerlerinin hesaplanması bugün olduğundan daha zorlayıcıydı. Hesaplamalar için, sınırlı doğruluğa ve sonlu girişlere sahip olan normal dağılım tabloları gibi tablolara güvenmeyi içeriyordu. Bu hesaplamalara olan ihtiyacı en aza indirmek için, kritik bölgeler veya reddetme bölgeleri kavramı yaygın olarak kullanılmıştır.
Günümüzde hipotez testi için tipik süreç, örnek verilere dayalı bir p-değerinin hesaplanmasını ve bunun seçilen önem düzeyiyle (alfa) karşılaştırılmasını içerir. Ancak kritik bölgelerle bu süreci tersine çeviriyoruz. Daha sonra Z-yıldızı veya T-yıldızı olarak gösterilen test istatistiği için bir kesme değeri tanımlayan bir anlamlılık seviyesi (alfa) seçerek başlıyoruz. Örnek veri, bu kesme değerinden daha aşırı bir örnek istatistiği verirse, sıfır hipotezini reddetmemize yol açar.
Bunu açıklamak için bir örnek düşünelim. Diyelim ki iki taraflı bir alternatif hipotezimiz var ve normal dağılıma ve alfa anlamlılık düzeyi 0,05'e eşit olan bir test yürütüyoruz. Bu durumda, alfa 0,05'e eşittir, dağılımda 0,05'lik gölgeli bir alana karşılık gelir (her iki tarafta 0,025). Ters bir normal hesaplama yaparak (R'deki Q normu komutunu kullanarak), Z-yıldız kritik değerini 1,96 olarak buluruz. Bu nedenle, örneklem istatistiği (Z-yıldızı) 1,96'dan (mutlak değer) büyükse, sıfır hipotezini reddetmemiz gerektiğini gösterir.
Başka bir örnek olarak, 8 serbestlik dereceli bir t-dağılımını ve tek taraflı bir alternatifi (sağ taraflı alternatif) ele alalım. Önem düzeyi olarak alfa eşittir 0.01'i seçtiğimizi varsayalım. Bu durumda, T-yıldızının sağında 0,01'lik bir alan vardır ve solda 0,99'luk bir alana karşılık gelir. R'de 0.99 ve 8 değerleri ile bir ters t CDF (QT komutunu kullanarak) kullanarak, T-yıldızını yaklaşık olarak 2.9 olarak buluruz. Numunenin t istatistiği 2,9'dan büyükse, gölgeli bölgeye girer ve bu da bizi boş hipotezi reddetmeye götürür.
Normal dağılım durumunda, kritik Z değerini kritik bir örneklem ortalaması hakkında bir ifadeye çevirebiliriz. Aşağıdaki örneği ele alalım: Belirli bir kola markasının kutularının içeriği, 0,2 onsluk bir standart sapma ile normal olarak dağılır. Kutuların ortalama içeriğinin 12 ons olduğu sıfır hipotezini, aslında 12 onstan daha az oldukları şeklindeki alternatif bir hipoteze karşı test etmek için 15 büyüklüğünde bir örnek kullanmak istiyoruz. Tek taraflı bir alternatif ve alfa 0,05'e eşit olduğunda, kritik Z değeri -1,645'tir. Bu nedenle, örneklem ortalaması (X-çubuk) ortalamanın 1,645 standart sapmadan daha fazla altındaysa, boş hipotezi reddetmemiz gerekir. Spesifik olarak, numune ortalaması 11.92 onstan azsa, boş hipotezi reddederiz.
t-Dağılımı ile Hipotez Testi
t-Dağılımı ile Hipotez Testi
Herkese merhaba, bugün t dağılımını kullanarak hipotez testini tartışacağız. Bu senaryoda, popülasyonun standart sapmasının bilinmediği durumlarla uğraşıyoruz. Daha önce, popülasyon standart sapmasını (Sigma) bildiğimizi varsayarak Z istatistiklerini kullanarak hipotez testi gerçekleştirdik. Bununla birlikte, istatistiksel çıkarımda amaç, nüfus hakkında fikir edinmek için örnek bilgileri kullanmaktır, bu nedenle Sigma'yı bilmemek yaygın bir durumdur. Bu gibi durumlarda, örneklem standart sapma(lar)ını kullanarak popülasyon standart sapmasını tahmin ederiz ve benzer hesaplamalar ile devam ederiz.
Zorluk, Sigma s ile değiştirildiğinde, (X-bar - mu)/(s/sqrt(n)) ifadesinin artık normal bir dağılım izlememesi nedeniyle ortaya çıkar. Hem X-bar hem de s, her yeni örnekte değişir ve dağılımın (n-1) serbestlik dereceli bir t dağılımını takip etmesini sağlar. Neyse ki, bu ayarlamayı düşündüğümüzde, hesaplamalar büyük ölçüde aynı kalıyor.
Sigma bilinmediğinde bir hipotez testi yapmak için sıfır ve alternatif hipotezlerle başlarız. Sıfır hipotezinin doğru olduğunu varsayarak, gerçek örnek veriler için t-istatistiğini hesaplıyoruz: (X-bar - mu_naught)/(s/sqrt(n))). Daha sonra alternatif hipoteze dayalı olarak p-değerlerini hesaplıyoruz.
Mu'nun belirli bir değerden küçük olduğundan şüphelendiğimiz sol taraflı bir alternatif hipotez için, sıfır hipotezi doğru olduğunda elde ettiğimiz değerden küçük veya ona eşit bir t değeri elde etme olasılığını buluruz. Bu, ilk resimdeki gölgeli alana karşılık gelir.
Benzer şekilde, mu'nun verilen bir değerden büyük olduğu sağ taraflı bir alternatif hipotez için, elde ettiğimizden daha büyük bir t-değeri elde etme olasılığını belirleriz. Bu, t değerinin sağındaki alana karşılık gelir.
İki taraflı bir test söz konusu olduğunda, her iki alanı da dikkate alırız. Elde ettiğimizden daha büyük (mutlak değer olarak) bir t değeri elde etme olasılığını hesaplıyoruz ve sonra onu ikiye katlıyoruz.
p-değerini elde ettikten sonra, karar vermek için onu seçilen önem düzeyi (alfa) ile karşılaştırırız. p-değeri alfadan küçükse, boş hipotezi reddederiz. Ancak, manuel olarak hesaplamalar yaparken, örnek verilerden t-değerini elde etmek yanıltıcı olabilir. İstatistiksel yazılım veya hesap makineleri gibi teknolojilerin kullanılması önerilir. Örneğin R'de, PT(t, n-1) komutu, (n-1) serbestlik dereceli bir t-dağılımında verilen bir t-değerinin solundaki alanı hesaplar.
Bu süreci göstermek için bir örnek ele alalım. Bir deney sırasında yedi farenin kilo kaybına sahip olduğumuzu varsayalım. Deney sırasında farelerin ağırlık kaybettiği sonucuna varmak için yeterli kanıt olup olmadığını belirlemek istiyoruz, alfa anlamlılık düzeyi 0,05'e eşittir. Popülasyon standart sapması verilmediğinden, bir t-testi durumuyla uğraşıyoruz.
Teste başlamak için, verilerin rastgele şansa bağlı olduğunu varsayarak sıfır hipotezini ve deney sırasında farelerin ortalama olarak kilo verdiğini iddia eden alternatif hipotezi kuruyoruz. Bu durumda, kilo almak yerine kilo vermeye odaklanan tek taraflı bir alternatif hipotez seçiyoruz.
Daha sonra, numune ortalamasını ve numune standart sapmasını kullanarak t istatistiğini hesaplıyoruz. Elde edilen t-değeri ile gözlenen değerden büyük veya ona eşit bir t-değerinin tesadüfen elde edilme olasılığını temsil eden p-değerini hesaplıyoruz.
Bu olasılığı değerlendirmek için, (n-1) serbestlik dereceli bir t dağılımına atıfta bulunuyoruz. Soldaki alanı 1'den çıkararak t değerinin sağındaki alanı hesaplıyoruz. R'de bu, PT işlevi kullanılarak yapılabilir. Eğer p-değeri seçilen anlamlılık seviyesinden (alfa) büyükse, sıfır hipotezini reddetmekte başarısız oluruz.
Örneğimizde hesaplanan p değeri 0,059'dur. 0.059, 0.05 anlamlılık düzeyinden büyük olduğu için sıfır hipotezini reddetmek için yeterli kanıtımız yok. Bu nedenle, deneyin farelerin ortalama olarak kilo vermesine neden olduğu sonucuna varamayız.
Sıfır hipotezini reddetmenin, sıfır hipotezinin doğru olduğu anlamına gelmediğine dikkat etmek önemlidir. Basitçe, kanıtların alternatif hipotezi destekleyecek kadar güçlü olmadığı anlamına gelir.
Özetle, hipotez testiyle uğraşırken ve popülasyon standart sapması bilinmiyorsa, t-dağılımını kullanabilir ve standart sapmayı numune standart sapmasını kullanarak tahmin edebiliriz. Daha sonra t istatistiğini hesaplıyoruz, alternatif hipoteze dayalı olarak p değerini hesaplıyoruz ve bir karar vermek için anlamlılık düzeyiyle karşılaştırıyoruz. İstatistiksel yazılım veya tabloların kullanılması, hesaplamaları basitleştirebilir ve daha doğru sonuçlar verebilir.
t-Dağılımı ile Önem Testi: Örnek
t-Dağılımı ile Önem Testi: Örnek
Herkese merhaba, bugün size t-dağılımını kullanan başka bir hipotez testi örneğini göstermek istiyorum. Bu örnek, belirli bir çim türündeki karbon alım oranlarına odaklanmaktadır. Geleneksel bilgelik, ortalama alım oranının saniyede metrekare başına 34.0 mikro mol olduğunu öne sürüyor. Ancak, bir grup araştırmacının şüpheleri var. Bir çalışma yürüttüler ve 9.7'lik bir örnek standart sapması ile 30.6'lık bir örnek ortalaması elde ettiler. Şimdi, 0,05 anlamlılık düzeyinde, bu verilerin geleneksel bilgeliğe karşı güçlü kanıtlar sağlayıp sağlamadığını belirlemek istiyorlar.
Herhangi bir anlamlılık testinde olduğu gibi, hipotezlerimizi açıkça belirterek başlayalım. Karşı çıkmayı amaçladığımız sıfır hipotezi, örnek verilerimizin yalnızca rastgele şansın bir sonucu olduğunu varsayar ve geleneksel bilgelik doğrudur. Öte yandan, alternatif hipotez, gerçek ortalama alım oranının 34.0'dan büyük veya küçük olması olasılığını belirlemeye çalışır. Bu durumda, her iki senaryoyu da kapsayan iki taraflı alternatif bir hipotezi ele alacağız.
Ardından, örnek ortalamamızın (x-çubuk) sıfır hipotezi altında beklediğimizle karşılaştırıldığında ne kadar aşırı olduğunu değerlendirmek istiyoruz. Test istatistiğini (T), sıfır hipotezi (mu-naught) altındaki beklenen ortalamayı numune ortalamasından çıkararak ve numune standart sapmasına (s) bölü numune boyutunun (n) kareköküne bölerek hesaplıyoruz. Bu hesaplama T = -2.27 verir.
Yalnızca rastgele şans nedeniyle -2,27 gibi aşırı bir test istatistiği elde etme olasılığını belirlemek için, dağılımın her iki tarafını da dikkate almamız gerekir. -2.27'nin solundaki ve sağındaki birleşik gölgeli alanı hesaplıyoruz, bu da bize testin p değerini veriyor. R'de, T'nin -2,27'den küçük olma olasılığını temsil eden en soldaki alanı hesaplamak için PT komutunu kullanabiliriz. Ardından, dağılımın her iki tarafını da hesaba katmak için bu alanı ikiye katlarız.
-2.27 ve serbestlik derecesi (df) örneklem büyüklüğü eksi bire (41) eşit olan R'de PT komutunu uyguladıktan sonra sol taralı alanın 0.029 olduğunu buluyoruz. Bu değeri iki katına çıkarmak, bize testin p değerine karşılık gelen toplam gölgeli alanı verir.
Hesaplanan p değeri 0,029'dur ve bu, 0,05 olan önem düzeyimizden (alfa) daha küçüktür. Bu nedenle, sıfır hipotezini reddediyoruz ve bu çim türünde ortalama karbondioksit alım oranının aslında saniyede metrekare başına 34.0 mikro mol olmadığı sonucuna varıyoruz.
Sonuç olarak, t-dağılımını kullanan hipotez testi, popülasyon standart sapması bilinmediğinde sıfır hipotezine karşı kanıtın gücünü değerlendirmemize izin verir. Test istatistiğini hesaplayarak, onu kritik değerle (anlam düzeyi) karşılaştırarak ve p-değerini hesaplayarak sıfır hipotezinin geçerliliği hakkında bilinçli kararlar verebiliriz.
R'de hipotez testi
R'de hipotez testi
Herkese merhaba! Bugün, t.test komutunu kullanarak R'de hipotez testi yapacağız. New York City'den hava kalitesi ölçümlerinin basit bir rastgele örneği olarak ele alacağımız yerleşik hava kalitesi veri seti ile ilgili birkaç problem üzerinde çalışacağız.
R oturumlarımın başında genellikle yaptığım Tidverse paketini zaten yüklediğim R'ye geçelim. Ayrıca hava kalitesi veri seti için yardım dosyasını da çıkardım. Bu veri seti 1973'te toplandı, yani en yeni veri değil. Veri setine göz atmak için view komutunu kullanabiliriz. İlgilendiğimiz iki değişken olan rüzgar ve güneş radyasyonu da dahil olmak üzere altı değişken üzerine 153 gözlemden oluşuyor.
Herhangi bir istatistiksel test yapmadan önce, verileri görselleştirmek iyi bir uygulamadır. O halde qplot komutunu kullanarak bir histogram oluşturalım. Rüzgar değişkenine odaklanacağız ve bir histogram istediğimizi belirteceğiz.
Şimdi birinci soruna geçelim. Bir yetkili, şehirdeki ortalama rüzgar hızının saatte dokuz mil olduğunu iddia ediyor. Verilere dayanarak bu iddianın makul olup olmadığını belirlemek istiyoruz. Ortalama rüzgar hızının saatte 9 mil olduğu boş hipoteziyle bir t-testi kullanacağız. Histograma bakıldığında, bu değerin biraz sağında olmasına rağmen makul görünüyor. t.test komutunu kullanarak t-testini gerçekleştireceğiz. Rüzgar değişkenini ona iletiyoruz ve sıfır hipotezini mu = 9 olarak belirtiyoruz. Varsayılan olarak, R iki taraflı bir alternatif hipotez varsayar. t.test komutu bize örnek ortalama, t-istatistiği ve p-değerini sağlar. Örnek ortalaması 9,96'dır ve hesaplanan t-istatistiği 3,36'dır, bu da 0,1'in altındaki bir p-değerine karşılık gelir. Bu kadar küçük bir p-değeri ile, bu verilerin yalnızca rastgele şans nedeniyle boş hipotezden önemli ölçüde sapma göstermesi makul değildir. Bu nedenle sıfır hipotezini reddediyoruz ve New York'taki ortalama rüzgar hızının saatte dokuz mil olmadığı sonucuna varıyoruz.
İkinci soruna geçerek, ortalama güneş radyasyonu 175 langley'in üzerindeyse, belirli bir güneş dizisinin uygun maliyetli olup olmayacağını değerlendirmek istiyoruz. Tek taraflı bir alternatif hipotez kullanacağız, burada sıfır hipotezi ortalama güneş radyasyonunun 175 langley olduğu ve alternatif hipotezin daha büyük olduğu. Güneş radyasyonu değişkeninin bir histogramını oluşturarak verileri görselleştireceğiz. Yine, sıfır hipotezi histograma göre makul görünüyor. t.test komutunu kullanarak, güneş radyasyonu değişkenini geçerek ve sıfır hipotezini mu = 175 olarak belirleyerek t-testini gerçekleştireceğiz. Ek olarak, tek taraflı alternatif hipotezi, alternative = "daha büyük" argümanını kullanarak belirtmemiz gerekiyor. . t.test komutu bize örnek ortalama, t-istatistiği ve p-değerini sağlar. Örnek ortalaması 185,9'dur ve hesaplanan t-istatistiği 1,47'dir, bu da 0,07'lik bir p değeriyle sonuçlanır. 0,07'lik bir p-değeri ile, New York'taki ortalama güneş radyasyonunun, güneş enerjisi dizisinin satın alınmasını haklı çıkarmak için eşik olan 175 langley'in üzerinde olduğu iddiasını destekleyecek ikna edici kanıtımız yok. Bu nedenle, sonuçlar çıkarmaktan kaçınmalıyız ve ortalama güneş radyasyonunu doğru bir şekilde değerlendirmek için daha fazla çalışmaya ihtiyaç vardır.
Özetle, t-testi kullanılarak yapılan hipotez testi, örnek verilere dayalı olarak iddiaların veya hipotezlerin akla yatkınlığını değerlendirmemizi sağlar. Sıfır ve alternatif hipotezleri belirleyerek, testi gerçekleştirerek ve ortaya çıkan p-değerini inceleyerek, hipotezleri kabul etme veya reddetme konusunda bilinçli kararlar verebiliriz. Verilerin histogramlar veya diğer grafikler aracılığıyla görselleştirilmesi, analiz sırasında ek bilgiler sağlayabilir.
Oranlar için Hipotez Testi
Oranlar için Hipotez Testi
Herkese merhaba! Bugün, bu sefer orantılara odaklanarak hipotez testi araştırmamıza devam edeceğiz. İlgili temel kavramları anlamak için bir örneği inceleyerek bu konuya yaklaşacağız.
Hemen konuya girelim. Bir yorumcu, Amerika Birleşik Devletleri'ndeki altı yaşındaki çocukların %30'unda çinko eksikliği olduğunu iddia ediyor. Bu iddiayı bir örnek toplayarak ve α = 0.05 anlamlılık düzeyinde bir hipotez testi yaparak değerlendirmek istiyoruz. Daha fazla araştırma yapmak için altı yaşındaki 36 kişiyle anket yaparak veri topluyoruz ve bunların 5'inde %30'dan az çinko eksikliği olduğunu tespit ediyoruz. Ancak, bu farkın yalnızca rastgele şansa bağlanıp bağlanamayacağını belirlememiz gerekiyor. Asıl sorumuz şu: Böyle bir numunenin elde edilmesi ne kadar olası değil?
Bu soruyu ele almak için, elde ettiğimiz örneklem oranını (P-hat) (36 üzerinden 5) sıfır hipotezi altında iddia edilen oran ile karşılaştırıyoruz. Popülasyon oranını P₀ veya P-naught olarak gösterelim. Sıfır hipotezimiz, nüfus oranının 0,30 (%30) olduğunu varsayar. Bu durumda alternatif hipotez, nüfus oranının 0,30'a eşit olmadığıdır. %30'dan büyük veya küçük olduğunu varsaymak için belirli bir nedenimiz yok, bu nedenle her iki olasılığı da göz önünde bulunduruyoruz. Varsayılan olarak, tek taraflı bir alternatif için zorlayıcı bir neden olmadığı sürece iki taraflı bir alternatifi tercih ederiz.
Hesapladığımız örnek oranı (P-hat) 0,139'dur ve %30'dan önemli ölçüde düşüktür. Ancak bu fark istatistiksel olarak anlamlı mı? Bunu değerlendirmek için, P-hat'ın örnekleme dağılımını analiz ediyoruz. Tekrar tekrar aynı boyutta numuneler aldığımızı ve her seferinde çinko eksikliklerinin oranını hesapladığımızı hayal ediyoruz. Örnek boyutunun (n) büyük olduğunu varsayarsak (burada n = 36 için durum böyledir), örnekleme dağılımı çan şeklinde bir eğriye sahip olacaktır. Merkezini ve yayılımını belirleyebiliriz. Örnek oranının (P-hat) ortalaması popülasyon oranıyla (P) aynı olurken, P-hat'ın standart sapması P(1-P)/n'nin karekökü olacaktır. Daha detaylı anlatıma ihtiyacınız varsa oranlar için güven aralıkları videomu izlemenizi tavsiye ederim.
Artık örnekleme dağılımının, bilinen ortalama ve standart sapma ile çan şeklindeki bir eğriyi izlediğini bildiğimize göre, bir z-skoru hesaplayabiliriz. Gözlenen değer (P-hat) ile beklenen değer (P-naught) arasındaki farkı hesaplar ve standart sapmaya böleriz. Değerleri takmak (P-hat = 0,139, P-naught = 0,30, n = 36), -2,11'lik bir z puanı verir.
Gözlemlediğimiz kadar aşırı (hatta daha da aşırı) bir P-şapka elde etme olasılığını değerlendirmek için karşılık gelen z-skorlarını inceleriz. Bu durumda, -2,11'den düşük veya 2,11'den büyük bir z-skoru alma olasılığıyla ilgileniyoruz. Bunu standart normal dağılımın kümülatif dağılım fonksiyonunu (CDF) değerlendirerek hesaplayabiliriz. İstatistiksel yazılım veya web uygulamaları kullanarak, -2,11'den düşük bir z puanı alma olasılığının yaklaşık 0,017 olduğunu bulduk. Bununla birlikte, dağılımın her iki ucunu da dikkate aldığımız için, bu değeri ikiye katlamamız gerekiyor, bu da yaklaşık 0,035'lik bir p değeriyle sonuçlanıyor.
p-değerini seçtiğimiz anlamlılık düzeyiyle (α = 0.05) karşılaştırdığımızda, p-değerinin α'dan küçük olduğunu buluruz. Bu nedenle, boş hipotezi reddediyoruz ve yorumcunun iddiasının muhtemelen yanlış olduğu sonucuna varıyoruz. Amerika Birleşik Devletleri'nde çinko eksikliği olan altı yaşındaki çocukların oranı %30 değildir.
Örnek boyutu ve normal yaklaşım söz konusu olduğunda, akılda tutulması gereken birkaç temel kural vardır. Normal yaklaşım, numune en az beş başarılı ve beş başarısız olduğunda iyi çalışma eğilimindedir. Matematiksel olarak, bu, örneklem büyüklüğünün (n) ve numune oranının (P) çarpımının beşten büyük veya eşit olması ve ayrıca numune büyüklüğünün (n) ürünü ve numune oranının tamamlayıcısı olması gerektiği anlamına gelir. (1-P) de beşten büyük veya beşe eşit olmalıdır.
Bizim durumumuzda, normal yaklaşım koşullarını karşılayan 36 örnek büyüklüğümüz ve 0.139 örnek oranımız (P-hat) vardı. Bu nedenle, istatistiksel çıkarımlarımız için normal dağılıma güvenle güvenebiliriz.
Genel olarak, daha büyük numune boyutlarının normal yaklaşımla daha iyi sonuçlar verme eğiliminde olduğunu da belirtmekte fayda var. Örnek boyutu arttıkça, normal dağılım, P-hat'ın örnekleme dağılımının daha doğru bir temsili haline gelir.
Özetle, örneğimizdeki 36 kişilik örneklem büyüklüğünün, hipotez testimizde normal yaklaşımı kullanmamız için yeterince büyük olduğu sonucuna varabiliriz.
Umarım bu, örneklem büyüklüğünün normal yaklaşımdaki rolünü açıklığa kavuşturur ve oranlar için hipotez test etme sürecinin kapsamlı bir açıklamasını sağlar.
Oranlar İçin Hipotez Testi: Örnek
Oranlar İçin Hipotez Testi: Örnek
Herkese merhaba! Bugün, oranlar için bir hipotez testi örneği üzerinde çalışacağız. Soruna dalalım. Bir üniversite, öğrencilerinin %65'inin dört yıl veya daha kısa sürede mezun olduğunu iddia etmektedir. Ancak bu iddianın doğruluğu konusunda şüpheler var. Daha fazla araştırma yapmak için 120 öğrenciden oluşan basit bir rastgele örneklem alınmış ve 120 öğrenciden sadece 68'inin belirtilen zaman dilimi içinde mezun olduğu bulunmuştur. Bu oranın iddia edilen %65'in altında olması üniversitenin iddiasını çürütmektedir. Şimdi soru, bu kanıtın iddianın olası olmadığını gösterecek kadar güçlü olup olmadığı veya bunun rastgele şansa atfedilip atfedilemeyeceğidir. Bunu belirlemek için, bir p-değeri hesaplayacağız ve 0,05'lik bir anlamlılık düzeyi (α) kullanarak bir karar vereceğiz.
İlk olarak, boş ve alternatif hipotezleri formüle etmemiz gerekiyor. Sıfır hipotezi, sonuçların yalnızca rastgele şansa bağlı olduğunu ve dört yıl veya daha kısa sürede mezun olan öğrencilerin gerçek oranının gerçekten 0,65 olduğunu belirtir. Öte yandan, alternatif hipotez, üniversitenin mezuniyet oranını olduğundan fazla tahmin ettiğini ve nüfus oranının 0,65'ten az olduğunu öne sürüyor. Bu durumda, yalnızca mezuniyet oranının %65'ten düşük olma olasılığıyla ilgilendiğimiz için tek taraflı bir alternatif hipotez uygundur.
Sıfır hipotezinin doğru olduğunu varsayarak, örneklem büyüklüğü (n) yeterince büyük olduğunda, oranın (P-şapka) örnekleme dağılımının yaklaşık olarak normal olacağını belirten merkezi limit teoremini uygulayabiliriz. Bu dağılımın ortalaması popülasyon ortalamasına (P) eşittir ve standart sapma, P çarpı 1 eksi P bölü n'nin karekökü ile verilir. Bizim durumumuzda sıfır hipotezinin doğru olduğunu varsaydığımız için popülasyon oranı (P) 0,65'tir.
Şimdi, gözlemlenen orandan daha aşırı veya daha aşırı bir sonucun yalnızca rastgele şansla elde edilme olasılığını belirlemek için z-skorunu hesaplayalım. Değerleri yerine takarak, -1,91'lik bir z puanı buluyoruz. Gözlemlenenden daha küçük veya ona eşit bir oran elde etme olasılığını temsil eden bu z-skoru ile ilişkili olasılığı bulmak için normal kümülatif dağılım fonksiyonunu (CDF) kullanırız. Bu, tablolar, web uygulamaları veya istatistiksel yazılımlar gibi çeşitli araçlar kullanılarak yapılabilir. Örneğin, R'de "Pnorm(-1.91)" komutu 0.028 değerini verir.
Bu p-değerini 0,05'lik anlamlılık düzeyi (α) ile karşılaştırdığımızda, p-değerinin α'dan küçük olduğunu gözlemliyoruz. Bu nedenle, üniversitenin dört yıllık mezuniyet oranını abarttığı sonucuna varmanın makul olduğunu belirten boş hipotezi reddediyoruz.
Dağılım Grafiklerine Giriş
Dağılım Grafiklerine Giriş
Herkese merhaba! Bugün, aynı anda toplanan birden çok değişkeni içeren verilerin görsel gösterimleri olan dağılım grafiklerini inceleyeceğiz. Dağılım grafikleri, gerçek dünyadaki veri toplama senaryolarında sıklıkla ortaya çıktıkları için çok önemlidir. Genellikle birden fazla bilgi toplarız. Örneğin, bir grup öğrenci için SAT matematik ve sözel puanlarımız, tıbbi bir çalışmadaki bireylerin boyları ve ağırlıkları veya çeşitli arabaların motor boyutu ve yakıt tüketimi ile ilgili verilerimiz olabilir. Her durumda, veriler eşleştirilir, yani bir değişkenin her değeri, diğer değişkenin belirli bir değerine karşılık gelir ve bire bir ilişki oluşturur. Bu tür eşleştirilmiş veriler mevcut olduğunda, dağılım grafikleri oluşturabiliriz.
Bir tablo kullanarak bir örnek düşünelim. Tablodaki her sütun bir bilim veya mühendislik alanını temsil etmektedir; üstteki sayı 2005 yılında o alanda kadınlara verilen doktora sayısını, alttaki sayı ise aynı yıl içinde erkeklere verilen doktora sayısını göstermektedir. Kadınların doktoralarının x-değerleriyle ve erkeklerin doktoralarının y-değerleriyle temsil edildiği bu verileri çizerek, bir dizi puan elde ederiz. Tablodaki ikinci veri sütununa karşılık gelen (2168, 2227) gibi bazı noktalar etiketlenmiştir. 2005 yılında kadınlara 2168, erkeklere 2227 doktora derecesi verilen bir bilim dalını temsil etmektedir.
Dağılım grafiklerini incelerken, bunları niteliksel olarak tanımlamak değerlidir. Bu örnekte, soldan sağa doğru hareket ettikçe değerlerin arttığı durumlar olmasına rağmen, verilerde genel bir düşüş eğilimi gözlemliyoruz. Genel olarak, verilerin şekli aşağı doğru eğimli olma eğilimindedir ve bu da iki değişken arasında negatif bir ilişkiyi gösterir. Bununla birlikte, ilişki doğrusal olmadığı, yani grafiğin düz bir çizgi izlediği anlamına gelmediği sürece "negatif korelasyon" terimini kullanmaktan kaçınmamız gerektiğine dikkat etmek önemlidir. Bu durumda, veriler doğrusal bir ilişki göstermez.
Bu arsanın bir başka dikkat çekici yönü, sağ üst köşedeki aykırı değerdir. Aykırı değerler, veri girişi hataları, analizi etkileyen olağandışı durumlar veya daha fazla araştırma gerektiren ilginç olaylar gibi çeşitli kategorilere ayrılabilir. Son olarak, hangi değişkenin yatay eksene, hangisinin dikey eksene yerleştirileceğini düşünmek çok önemlidir. Bir çalışmada bir değişken diğerini doğal olarak açıklıyor veya etkiliyorsa açıklayıcı değişken olarak yatay eksene yerleştirilmelidir. Tersine, açıklanan veya etkilenen değişken, yanıt değişkeni olarak dikey eksende olmalıdır. Örneğin, gaz kilometre örneğinde, kilometreyi motor boyutuyla (deplasman) açıklanmış olarak görmek mantıklıdır, bu nedenle kilometreyi dikey eksene yerleştiririz. Ancak bu seçim bir miktar öznellik içerebilir ve çalışmanın bağlamına bağlı olarak rollerin tersine döndüğü senaryolar olabilir.
Dağılım Grafikleri ve Korelasyon
Dağılım Grafikleri ve Korelasyon
Herkese merhaba! Bugün, korelasyona kısa bir giriş yapacağız. Bu konuyu sadece üç dakika içinde ele alacağız. Başlayalım!
Bir dağılım grafiğini incelediğimizde, bazen verilerin kabaca düz bir çizgi izlediği doğrusal bir ilişki gözlemleriz. Bu gibi durumlarda, değişkenler arasındaki korelasyonu tartışabiliriz. Bununla birlikte, değişkenler doğrusal bir ilişkiden başka bir ilişkiye sahip olduğunda "korelasyon" terimini kullanmanın cazibesine direnmek önemlidir. Korelasyonlar zayıf veya güçlü olabilir ve pozitif veya negatif olabilir.
Pozitif bir korelasyon, grafikte soldan sağa doğru hareket ettikçe veri noktalarının genel şeklinin yukarı doğru eğimli olduğunu gösterir. Tersine, negatif bir korelasyon, soldan sağa doğru okurken veri noktalarının genel şeklinin alçaldığını ima eder. Daha güçlü korelasyonlar, hayal edilen çizgi etrafında daha sıkı bir şekilde kümelenen veri noktaları ile karakterize edilirken, daha zayıf korelasyonlar daha dağınık veri noktaları gösterir.
Korelasyonu ölçmek için korelasyon katsayısı adı verilen bir istatistik kullanırız (genellikle "r" olarak gösterilir). -1 ile 1 arasında değişir. 0'a yakın değerler daha bulutlu veya daha dağınık verileri gösterir. Verilen örneklerde, 0,4 veya -0,4'lük bir korelasyon orta düzeyde bir korelasyonu temsil ederken, 0,9 veya -0,9 daha güçlü bir korelasyonu ifade eder. 1 veya -1 korelasyonu, tüm veri noktalarının tam olarak doğru üzerinde bulunduğu mükemmel bir doğrusal ilişkiyi gösterir.
"r" korelasyon katsayısının doğrunun eğimi ile karıştırılmaması gerektiğine dikkat etmek önemlidir. "r" işareti, eğimin pozitif mi yoksa negatif mi olduğunu gösterir, ancak "r"nin kendisi eğimi özel olarak temsil etmez. Bunun yerine, korelasyon katsayısı, verilerin merkezinden geçtiği hayal edilen hattan verilerin ne kadar yayıldığını yansıtır.
Değişkenler doğrusal bir ilişki göstermediğinde, onların ilintisiz olduğunu söyleriz. Bu gibi durumlarda korelasyon katsayısını yorumlarken dikkatli olun. Parabolik bir şekilde olduğu gibi değişkenler arasında açık bir ilişki olsa bile, korelasyonun hesaplanması sıfıra yakın bir değer verir.
Şimdi, hesaplama korelasyonunu tartışalım. Kısacası, manuel olarak hesaplanması önerilmez. Neyse ki, bize yardımcı olacak yazılım paketleri gibi araçlarımız var. Örneğin R'de komut "cor" dur. X ve Y değerlerini (ilişkilendirmek istediğimiz iki değişken) sağlayarak korelasyon katsayısını hemen elde edebiliriz. Verilen tablo ile ilk satırı X, ikinci satırı Y olarak atarsak, korelasyon değerini elde etmek için basitçe "cor(X, Y)" komutunu kullanabiliriz. Bu örnekte, 0,787'lik bir korelasyon elde ettik ve bu orta derecede pozitif bir korelasyona işaret ediyor.