Programlama öğreticileri - sayfa 12

 

Verileri Niteliksel Olarak Tanımlama


Verileri Niteliksel Olarak Tanımlama

Herkese merhaba, bugün gözlemlerimizi etkili bir şekilde iletmek için kelime dağarcığı oluşturmaya odaklanarak veri kümesi şekillerinin niteliksel tanımını tartışacağız. Histogramlar, frekans poligonları ve gövde grafikleri gibi çeşitli grafik gösterimleri inceleyeceğiz ve özelliklerini tartışacağız. Bazı örneklere dalalım:

Öncelikle bir histogramı inceleyelim. Bu durumda grafik, sol yarısı sağ yarısına benzeyen simetrik bir şekil sergiler. Gerçek veriler nadiren mükemmel simetri sergilese de, belirli değerleri saptamak yerine genel şekli açıklamaya odaklanıyoruz. Başka bir simetrik dağılım türü, veri değerlerinin bölmeler arasında eşit olarak dağıtıldığı tek biçimli bir grafiktir. Bu, yatay olarak düz bir şekille sonuçlanır ve değerlerin her bölmeye düşme olasılığının eşit olduğunu gösterir.

Şimdi simetrik olmayan veri setlerini inceleyelim. Bir değişiklik için histogramlar yerine kök grafikleri dikkate alacağız. Bu kök grafiği örneğinde asimetrik bir şekil gözlemleyebiliriz. 92 civarında yer alan merkezin her iki tarafında da dağılımın aynı olmadığı açıktır. Üstelik asimetrinin yönünü de ayırt edebiliriz. Bu durumda, merkezden uzakta, daha yüksek sayılara doğru daha uzun bir kuyruk vardır. Bu sağa çarpık bir dağılımı gösterir.

Öte yandan, burada sola çarpık bir gövde grafiği var. Veriler daha büyük değerlere doğru yoğunlaşırken, küçük değerler tarafında daha uzun bir kuyruk fark ediyoruz. Veri kümesinin kapsamlı bir şekilde anlaşılmasını sağlamak için asimetri yönünü doğru bir şekilde tanımlamak önemlidir.

Son olarak, 160 veya 170 civarında tek bir büyük aykırı değer nedeniyle başlangıçta sağa çarpık görünebilecek bir veri kümesini ele alalım. Ancak, bu aykırı değeri göz ardı edersek, dağılım potansiyel olarak bir çan eğrisine benzeyen oldukça simetrik bir şekil sergiler. Hataları, istisnai durumları veya ayrı analiz gerektiren olguları temsil edebilecekleri için aykırı değerleri belirlemek çok önemlidir. Verilerin genel şeklini tanımlarken, aykırı değerler kabul edilmeli ancak çok fazla dikkate alınmamalıdır.

Veri kümesi şekillerini tanımlamak için bir sözcük dağarcığı geliştirerek, verilerde gözlemlenen temel özellikleri ve kalıpları etkili bir şekilde iletebiliriz. Bir veri kümesinin şeklini anlamak, onun özelliklerini yorumlamaya yardımcı olur ve anlamlı içgörüler elde etmemizi sağlar.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Ortalama, Medyan ve Modu Anlamak


Ortalama, Medyan ve Modu Anlamak

Herkese merhaba, bugün ortalama, medyan ve mod kavramlarını merkezi eğilim ölçüleri olarak yorumlamalarına odaklanarak tartışacağız. Her önlemin kendi yararı vardır ve bunları anlamak çok önemlidir. Hemen tanımlarına geçelim.

Ortalama, bir veri kümesinin sayısal ortalamasını temsil eder. Kümedeki tüm değerlerin toplanması ve toplamın değer sayısına bölünmesiyle hesaplanır. Ortalama, özellikle örneklerle uğraşırken genellikle X-çubuğu veya üzerinde bir çizgi olan X ile gösterilir.

Ortanca, verileri tam olarak ikiye bölen değerdir. Medyanı bulmak için verileri en düşükten en yükseğe doğru düzenleyin. Tek sayıda değer varsa, medyan ortadaki değerdir. Çift sayıda değer için, medyanı bulmak için ortadaki iki değerin ortalamasını alın. Medyan genellikle büyük M ile gösterilir.

Mod, veri kümesindeki en yaygın değerdir. İki veya daha fazla değer aynı frekansa sahipse bir dağılımın birden çok modu olabilir, ancak tüm veriler aynı frekansa sahipse, dağılımın modu yoktur deriz.

Bir örnek düşünelim. 16 değer içeren bir veri setimiz olduğunu varsayalım. Ortalama, tüm değerlerin toplanıp 16'ya bölünmesiyle hesaplanır. Bu durumda ortalama 67,9375'tir. Medyan, çift sayıda değere sahip olduğumuz için, ortadaki iki değerin ortalaması alınarak bulunur ve sonuç 65,5 olur. En yaygın değer olan mod 65'tir.

Her merkezi eğilim ölçüsünün grafiksel bir yorumu da vardır. Bir histogramda mod, histogramdaki en yüksek noktadır ve en sık görülen değeri temsil eder. Ortanca, alanı eşit olarak bölerek histogramı ikiye bölen değerdir. Ortalama, histogramın dengelenmesini sağlayan değerdir.

Bir histogram örneğini ele alalım. Mod, histogramın en yüksek olduğu, bu durumda 3'ten biraz daha büyük olan x değeri belirlenerek belirlenebilir. Medyan, histogram alanını ikiye bölen değerdir ve yaklaşık 4,5'tir. Ortalama, histogramı dengeleyecek değerdir, 5'ten biraz daha azdır.

Neden üç merkezi eğilim ölçüsüne ihtiyacımız var? Her önlemin avantajları ve dezavantajları vardır. Ortalama, istatistiksel analizde yaygın olarak kullanılır ve sezgiseldir. Ancak, aykırı değerlerden oldukça etkilenir ve çarpık dağılımlar için uygun olmayabilir.

Medyanın hesaplanması ve anlaşılması kolaydır ve aykırı değerlere duyarlı değildir. Ancak, veri kümesindeki tüm bilgileri kullanmaz ve istatistiksel çıkarımda zorluklar ortaya çıkarabilir.

Mod, kategorik değişkenler için bile evrensel bir merkezi eğilim ölçüsüdür. Bununla birlikte, en yaygın değer mutlaka dağılımın ortasını temsil etmez, bu da onu bir merkez ölçüsü olarak daha az güvenilir hale getirir.

Bir aykırı değer de dahil olmak üzere küçük bir sınav puanları veri kümesi düşünün. Bu durumda, 79'un ortalaması, tipik bir öğrencinin performansını tam olarak tanımlamaz. 94'ün medyanı daha açıklayıcı bir ölçüdür. Aykırı değerin kaldırılması, medyan değişmeden kalırken ortalama önemli ölçüde değiştiği için farkı daha net ortaya çıkarır.

Ortalama, medyan ve mod arasındaki farkları anlamak, farklı senaryolardaki güçlü yanlarını ve sınırlamalarını göz önünde bulundurarak bir veri kümesinin merkezi eğilimlerini etkili bir şekilde yorumlamamıza ve iletmemize olanak tanır.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

R'de Yüzdelikler ve Nicelikler


R'de Yüzdelikler ve Nicelikler

Bugün R'deki yüzdelikleri ve nicelikleri tartışacağız. Anlamlarını gözden geçirerek başlayalım.

Yüzdelikler, bir veri kümesindeki bir değerin göreli konumunu ölçmenin bir yoludur. Genel olarak, bir veri kümesinin p-inci yüzdelik değeri, verilerin yüzde p'sinden büyük bir değerdir. Örneğin, 50. yüzdelik medyan, 25. yüzdelik dilim birinci çeyrek ve 75. yüzdelik dilim üçüncü çeyrektir. Verilerin yüzde 75'inin üzerinde kalan değeri temsil eder.

Yüzdelikleri hesaplamak için farklı yöntemler mevcuttur ve evrensel olarak kabul edilmiş bir yaklaşım yoktur. Ancak iyi haber şu ki, tüm yöntemler çok benzer sonuçlar veriyor. Yüzdelikleri hesaplamak için verimli ve doğru hesaplamalar sunan R gibi teknolojilere güvenmek en iyisidir.

Öte yandan nicelikler, esasen yüzdelik dilimlerle aynıdır. Bununla birlikte, "yüzdelikler" tamsayı değerleriyle ilişkilendirilirken, "yüzdelikler" terimi genellikle ondalık değerlere atıfta bulunulurken kullanılır. Örneğin, 15. yüzdelik dilime sahip olabilirsiniz ancak 0,15'lik dilime sahip olabilirsiniz. Kantillerin avantajı, değerleri gerektiği kadar çok ondalık basamakla ifade ederek daha fazla kesinlik sağlamalarıdır.

Şimdi, R'ye geçelim ve Amerika Birleşik Devletleri'ndeki Old Faithful gayzerinin dakika cinsinden ölçülen patlama uzunluğu ve bekleme süresi hakkında bilgi içeren "sadık" veri kümesini kullanarak yüzdelik dilimleri ve nicelikleri nasıl hesaplayacağımızı keşfedelim.

R'deki yüzdelikleri ve nicelikleri hesaplamak için "kuantil" işlevini kullanabiliriz. İki argüman gerektirir. İlk olarak, ilgilendiğimiz değişkeni belirtiyoruz, bu durumda bu değişken "sadık$bekliyor". Ardından, ondalık olarak yazılan istenen niceliği belirtiyoruz. Örneğin, 35. yüzdelik dilimini (0,35 dilim) hesaplamak için nicelik argümanı olarak 0,35 yazarız. Komutu çalıştırarak bu durumda 65 gibi bir sonuç elde ederiz. Bu, tüm püskürmelerin yaklaşık %35'inin 65'ten az veya buna eşit bir bekleme süresine sahip olduğu anlamına gelir.

R'de, bir nicelik vektörü sağlayarak birden çok niceliği aynı anda hesaplamak mümkündür. Örneğin, "c()" işlevini kullanarak 0,35, 0,70 ve 0,95 niceliklerini belirtebiliriz. Sonuç, ilgili nicelikleri içeren bir vektör olacaktır: 65, 81 ve 89.

Bir başka yararlı komut da değişkenin özetini sağlayan "özet" komutudur. "faithful$waiting" değişkenini komuta ileterek, birinci çeyrek (yüzde 25), medyan (yüzde 50), üçüncü çeyrek (75. yüzde) ve ayrıca minimum, maksimum ve ortalama değerleri elde ederiz.

Şimdi karşı soruyu ele alalım. Veri setinde bir değerimiz varsa ve yüzdelik dilimini belirlemek istiyorsak "ecdf" komutunu kullanabiliriz. Komut, "faithful$waiting" gibi ilgilenilen değişkeni belirterek ve veri kümesinden 79 gibi belirli bir değer sağlayarak bu değerin yüzdelik dilimini döndürür. Bu örnekte sonuç 0,6617647 olup, 79'luk bir bekleme süresinin yaklaşık olarak 66. yüzdelik dilime karşılık geldiğini gösterir.

Yüzdelikleri ve nicelikleri anlamak, bir veri kümesindeki değerlerin göreli konumunu değerlendirmemize olanak tanıyarak verilerin dağılımına ve özelliklerine ilişkin değerli bilgiler sağlar.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Örnek Varyans ve Standart Sapma


Örnek Varyans ve Standart Sapma

Herkese merhaba, bugün örneklem varyansı ve standart sapma kavramını inceleyeceğiz. Bu iki ölçüm, bir veri kümesindeki değişkenliğin veya yayılmanın boyutunu anlamamıza yardımcı olur. Veri kümesindeki değerlerin ortalamadan ne kadar saptığına dair içgörü sağlarlar.

Formüllere bir göz atalım. Formüllerde, "n" toplam örneklem büyüklüğünü, "X_i" veri kümesindeki değerleri (örneğin, X_1, X_2, X_3 vb.) ve "X bar" (üzerinde çizgi olan X) ifade eder. örnek ortalamayı temsil eder. Bu ölçümleri hesaplamak için genellikle R gibi bir teknoloji kullansak da, özellikle artık bu hesaplamaları manuel olarak yapmadığımız için, temel kavramları anlamak çok önemlidir.

Her iki ölçümdeki anahtar bileşen, her bir değerin (X_i) numune ortalamasından sapmasını temsil eden "X_i eksi X bar" terimidir. Başka bir deyişle, her bir değerin ortalamadan pozitif veya negatif olarak ne kadar farklı olduğunu ölçer. İdeal olarak, bu sapmaların ortalamasını belirlemek istiyoruz, ancak pozitif ve negatif sapmalar birbirini götürdüğü için basit bir ortalama almak sıfır verir. Bunu ele almak için, ortalamayı hesaplamadan önce her sapmanın (X_i eksi X çubuk) karesini alıyoruz. Bu, ortalamadan sapmaların karelerinin ortalamasını temsil eden örneklem varyansı formülüyle sonuçlanır.

Ancak varyans formülünde n yerine (n-1)'e böldüğümüze dikkat etmişsinizdir. Bunun birkaç nedeni var, ancak basit olanı şu: Örnek ortalamayı (X bar) hesaplarken, X_i değerlerinden yalnızca (n-1) ihtiyacımız var. Bunun nedeni, X çubuğunun, tüm X_i'nin toplamının n'ye bölünmesiyle hesaplanmasıdır. Böylece, X çubuğumuz olduğunda herhangi bir X_i değerini çözebiliriz. (n-1) ile bölmek bunu açıklar ve (n-1) farklı sapmaların ortalamasını hesaplamamızı sağlar, tüm n'leri değil. Bu şekilde, örneklem varyansını anlamlı bir değişkenlik ölçüsü olarak elde ederiz.

Diğer bir konu varyansın orijinal verilerle aynı ölçekte olmaması, onu soyut hale getirmesidir. Bunu ele almak için, numune standart sapması için formülle sonuçlanan numune varyansının karekökünü alırız. Standart sapma daha fazla hesaplama gerektirmesine ve teorik olarak zorlayıcı olmasına rağmen, varyanstan daha kolay yorumlanabilir ve görselleştirilebilir. Hem varyansın hem de standart sapmanın farklı bağlamlarda kullanımları vardır.

Yalnızca dört değerden oluşan bir veri kümesine sahip bir örneği ele alalım. Örnek varyansını ve standart sapmayı hesaplamak için önce dört değeri toplayıp dörde bölerek ortalama 121 elde ederek örnek ortalamasını hesaplarız. Varyans formülünü kullanarak her değer için sapmaların karesini alırız (X_i eksi X çubuk) ve üçe bölerek (değer sayısından bir eksik) kareli sapmaların ortalamasını alın. Bu, 220'lik bir varyans verir. Ancak, bu değer anında yorumlanabilirlikten yoksundur. Bunu ele almak için, varyansın karekökünü alırız, bu da 14,8'lik bir standart sapma ile sonuçlanır. Bu değer, veri setindeki yayılma ölçüsü olarak daha anlamlıdır.

Teknoloji açısından, R'de sırasıyla varyans ve standart sapmayı hesaplamak için "var" ve "sd" gibi komutları kullanabiliriz. Zaman kazandırdığı ve doğru sonuçlar sağladığı için bu hesaplamalar için teknolojiden yararlanılması önemle tavsiye edilir. Varyans ve standart sapmanın manuel olarak hesaplanması çoğu durumda artık gerekli değildir.

Ayrıca, vakaların çoğunda, veri değerlerinin yaklaşık üçte ikisinin ortalamanın bir standart sapması içinde olacağını not etmek önemlidir. Çan şeklindeki bir dağılım (normal dağılım) için, verilerin yaklaşık %68'i bir standart sapma içinde, yaklaşık %95'i iki standart sapma içinde ve neredeyse tamamı (%99,7) ortalamanın üç standart sapması içinde yer alır. Bu ampirik kural veya 68-95-99.7 kuralı olarak bilinir.

Bunu göstermek için, 0 ile 100 arasındaki tamsayılardan rastgele seçilen 200 değerlik bir veri seti düşünelim. Bu veri setinin ortalaması 49,9 ve standart sapması 27,3'tür. Ampirik kuralı uygulayarak, ortalamanın bir standart sapma üstüne ve altına gidersek, değerlerin %68'ini yakalarız, bu da 136 değere karşılık gelir. Dağılım bir çan şeklini takip ederse (normal dağılım), daha kesin tahminler yapabiliriz. Bu durumda, değerlerin yaklaşık %95'i (200 üzerinden 190) ortalamanın iki standart sapması içinde ve neredeyse tüm değerler (200 üzerinden 199) ortalamanın üç standart sapması içinde yer alacaktır.

Ampirik kuralı kullanan bir örnekle daha bitirelim. Varsayalım ki standart bir testten yaklaşık olarak çan şeklinde bir dağılım izleyen puanlarımız var. Ortalama puan 1060 ve standart sapma 195'tir. Ampirik kuralı uygulayarak, puanların yaklaşık %68'inin 865 ile 1255 arasında olacağını tahmin edebiliriz (ortalamanın bir standart sapma altında ve üstünde). Puanların yaklaşık %95'i 670 ile 1450 arasında olacaktır (ortalamanın altında ve üstünde iki standart sapma). Son olarak, puanların yaklaşık %99,7'si 475 ve 1645 (ortalamanın altında ve üstünde üç standart sapma) aralığında olacaktır.

Varyansı ve standart sapmayı anlamak, bir veri kümesindeki yayılmayı ve değişkenliği kavramamıza yardımcı olur. Teknoloji hesaplamalarını kolaylaştırırken, verileri etkili bir şekilde yorumlamak ve analiz etmek için temel kavramları anlamak çok önemlidir. Bu ölçümleri kullanarak değerli içgörüler elde edebilir ve verilerin özelliklerine dayalı olarak bilinçli kararlar verebiliriz.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Z Puanları


Z Puanları

Herkese merhaba, bugünkü tartışmamızda standart puanlar olarak da bilinen z-skorlarını keşfedeceğiz. Bu yöntem, bir veri kümesindeki değerlerin göreli konumunu ölçmemizi sağlar.

Bir z-skoru, bir değerin ortalamadan saptığı standart sapmaların sayısını temsil eder. Örneğin, ortalaması 50 ve standart sapması 8 olan bir veri setimiz varsa, 62 değerinin z-skoru 1,5 olacaktır. Bu, 62 değerinin ortalamanın 1,5 standart sapma üzerinde olduğu anlamına gelir.

Z-puanları, simetrik dağılımlara sahip veri kümelerindeki, özellikle çan şeklindeki veya normal dağılımı izleyenler arasındaki göreli konumları değerlendirmek için özellikle yararlıdır. Ancak, çarpık verilerle veya aykırı değerler içeren veri kümeleriyle uğraşırken, ortalama ve standart sapma, verilerin merkezini ve yayılımını doğru şekilde temsil etmeyebilir. Sonuç olarak, bu gibi durumlarda z-puanlarının kullanışlılığı azalır.

Bir z-skorunu hesaplama formülü şöyledir: z = (x - μ) / σ, burada x, veri kümesindeki değerdir, μ ortalamadır ve σ standart sapmadır. Ortalama bazen x-bar ile ve standart sapma s ile temsil edilir, ancak formül aynı kalır.

Z-puanları, farklı veri kümelerindeki değerlerin göreli konumlarını karşılaştırırken özellikle değerlidir. Bunu açıklamak için bir örnek düşünelim. Amerika Birleşik Devletleri'ndeki yetişkin erkeklerin ortalama boyu 69,4 inç ve standart sapma 3,0 inç'tir. Öte yandan, Amerika Birleşik Devletleri'ndeki yetişkin kadınların ortalama boyu 64,2 inç ve standart sapma 2,7 inç. Şimdi, 64,2 inç boyunda bir erkek ile 69,4 inç boyunda bir kadının göreli nadirliğini karşılaştırabiliriz.

Adam için z-skorunu hesaplamak için (64.2 - 69.4) / 3.0 formülünü kullanıyoruz. Ortaya çıkan z-puanı -1,73'tür, bu da erkeğin boyunun erkeklerin ortalama boyunun 1,73 standart sapma altında olduğunu gösterir. Kadın için z puanı (69,4 - 64,2) / 2,7'dir ve z puanı 1,93'tür. Bu, kadının boyunun, kadınların ortalama boyunun 1,93 standart sapma üzerinde olduğu anlamına gelir. İki z-skorunun mutlak değerlerini karşılaştırarak, kadının boyunun kadınların ortalama boyuna göre daha sıra dışı olduğu sonucuna varabiliriz.

Tek başına z puanlarının "olağan" ve "olağandışı" değerler arasında kesin bir ayrım sağlamadığına dikkat etmek önemlidir. Yaygın bir kural, ortalamadan ikiden fazla standart sapma uzaktaki değerleri olağandışı olarak ve üçten fazla standart sapma uzaktaki değerleri çok olağandışı olarak kabul etmektir. Ancak, bu yalnızca bir pratik kuraldır ve karar nihai olarak bağlama ve verilerin özel dağılımına bağlıdır.

Bunu göstermek için, 76 inç boyunda bir adamın durumunu ele alalım. Aynı formülü ve erkekler için verilen ortalama ve standart sapmayı kullanarak, 2,2'lik bir z-skoru hesaplıyoruz. Mutlak değer olarak bu değer 2'den büyük olduğu için, erkeğin boyunun geleneklere göre olağandışı olduğunu düşünürüz.

Ampirik kural, yaklaşık olarak çan şeklindeki dağılımlarla uğraşırken bir kılavuz sağlar. Değerlerin yaklaşık %68'i ortalamanın bir standart sapmasına (z-skorları -1 ile 1 arasında), yaklaşık %95'i iki standart sapmaya (z-skorları -2 ile 2 arasında) ve yaklaşık %99,7'si üçe düşüyor standart sapmalar (-3 ile 3 arasında z-skorları).

Sonuç olarak, z-skorları, bir veri kümesindeki değerlerin göreli konumunu değerlendirmek için yararlı bir yol sunar. Farklı veri kümelerindeki değerleri karşılaştırmak ve belirli bir değerin nadir olup olmadığını belirlemek için özellikle değerlidirler. Bununla birlikte, z-puanlarını yorumlarken dağılımın şeklini, aykırı değerlerini ve verilerin bağlamını göz önünde bulundurmak önemlidir.

Kısa bir örnekle bitirelim. Amerika Birleşik Devletleri'ndeki yetişkin kadınların boylarına ilişkin, yaklaşık olarak çan şeklindeki bir dağılımı izleyen bir veri setimiz olduğunu varsayalım. Ortalama yükseklik 64,2 inç, standart sapma 2,7 inç'tir.

Ampirik kuralı kullanarak, kadınların belirli bir yüzdesinin içine düştüğü boy aralıklarını tahmin edebiliriz. Ortalamanın bir standart sapması içinde, kadınların boylarının yaklaşık %68'i bulunacaktır. 64,2'den 2,7'yi çıkarırsak 61,5 inç, 2,7'yi eklersek 66,9 inç elde ederiz. Böylece, kadınların boylarının yaklaşık %68'inin 61,5 ile 66,9 inç arasında olacağını tahmin edebiliriz.

İki standart sapmaya genişlettiğimizde, kadınların boylarının yaklaşık %95'inin bu aralıkta olduğunu görüyoruz. 2,7'yi ortalamadan iki kez çıkararak 58,8 inç elde ederiz ve 2,7'yi iki kez ekleyerek bize 69,6 inç verir. Bu nedenle, kadınların boylarının yaklaşık %95'inin 58,8 ila 69,6 inç arasında olması beklenebilir.

Son olarak, verilerin yaklaşık %99,7'sini kapsayan üç standart sapma içinde, 56,1 inç elde etmek için ortalamadan üç kez 2,7 çıkarırız ve 71,7 inç elde etmek için üç kez 2,7 ekleriz. Bu nedenle, kadınların boylarının yaklaşık %99,7'sinin 56,1 ile 71,7 inç arasında olacağını tahmin edebiliriz.

Z puanlarını ve yorumlarını anlamak, bir veri kümesindeki değerlerin göreli konumunu ve nadirliğini değerlendirmemize olanak tanıyarak istatistik, araştırma ve veri analizi gibi çeşitli alanlarda değerli bilgiler sağlar.

Unutmayın, z-skorları, veri kümesinin ortalamasını ve standart sapmasını göz önünde bulundurarak, göreli konumun standartlaştırılmış bir ölçüsünü sağlar. Farklı veri kümelerindeki dağılımı anlamak ve değerleri karşılaştırmak için güçlü bir araçtır.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

Aykırı Değerler için Beş Sayılı Özet ve 1,5 x IQR Testi


Aykırı Değerler için Beş Sayılı Özet ve 1,5 x IQR Testi

Herkese merhaba! Bugün, beş rakamlı özet ve aykırı değerler için 1,5 kat IQR testi kavramlarını inceleyeceğiz. Bir veri kümesinin çeyreklerini tanımlayarak başlayalım. Çeyrekler, bir veri kümesini dört eşit parçaya bölen değerlerdir. İlk çeyrek (Q1) verilerin yaklaşık %25'inin üzerinde, ikinci çeyrek (Q2) verilerin yaklaşık yarısının (medyan olarak da bilinir) üzerinde ve üçüncü çeyrek (Q3) verilerin yaklaşık %75'inin üzerinde yer alıyor. veri.

Veri kümesi eşit olarak bölünmezse, dört eşit parçaya bölünmenin kesin olmayabileceğini not etmek önemlidir. Birinci ve üçüncü çeyrekler, önce ortanca belirlenerek bulunabilir. Q1 ve Q3'ü bulmak için veri setini bir üst ve bir alt yarıya ayırır ve bu iki yarının ortancalarını hesaplarız. Üst yarının ortancası Q3, alt yarının ortancası ise Q1'dir.

Bunu açıklamak için bir örnek üzerinde çalışalım. En düşükten en yükseğe doğru sıralanmış 17 değer içeren aşağıdaki veri kümesini göz önünde bulundurun. Medyan veya Q2, ortadaki değer olacaktır ve bu durumda dokuzuncu değerdir (çünkü 17 değerlerin tek sayısıdır). Bu nedenle ortanca 42'dir. Q1'i bulmak için sekiz değeri ortancadan küçük kabul ederiz. Bunları sıralayarak 16, 18, 20 ve 22'yi buluyoruz. Bu çift bir değer olduğu için ortadaki iki değerin ortalamasını alıyoruz ve bu bize 18'i veriyor. Benzer şekilde Q3 için sekiz değerden büyük kabul ediyoruz. 45, 48, 50 ve 55 olan medyan. Yine ortadaki iki değerin ortalamasını alarak Q3'ü 52 olarak elde ederiz.

Dolayısıyla, bu örnek için çeyrekler Q1 = 18, Q2 = 42 ve Q3 = 52'dir. Bir veri kümesinin beş numaralı özeti, veri kümesindeki minimum ve maksimum değerlerle birlikte bu çeyreklerden oluşur. Bizim durumumuzda beş rakamlı özet 5, 18, 42, 52 ve 93'tür; burada 5 minimum değeri ve 93 maksimum değeri temsil eder.

Diğer bir yararlı ölçü, verilerin orta yarısının yayılmasını ölçen çeyrekler arası aralıktır (IQR). Q3 ve Q1 arasındaki fark olarak hesaplanır. Örneğimizde, IQR 52 - 18 = 34'tür. IQR, veri kümesinin orta %50'si içindeki değer aralığına odaklanır ve aşırı değerlerden daha az etkilenir.

Şimdi başka bir örneği ele alalım. Aşağıda listelenmiş 22 öğrencinin sınav puanlarının olduğunu varsayalım. Puanların dağılımını beş rakamlı özet ve IQR kullanarak açıklamak istiyoruz. İlk olarak, aşırı değerlerden etkilenebileceği için ortalamayı bir merkez ölçüsü olarak kullanırken dikkatli olmalıyız. Bu durumda, ortalama 75,3'tür, ancak birkaç öğrenci son derece düşük puan aldığından, ortalama tipik öğrenci performansını doğru bir şekilde temsil etmeyebilir. Benzer şekilde, minimum ve maksimum değerlerin (sırasıyla 2 ve 100) arasındaki fark olan aralık, uç değerler nedeniyle yanıltıcı olabilir.

Daha doğru bir açıklama elde etmek için beş rakamlı özeti hesaplıyoruz. Puanları sıraladığımızda minimum değeri 2, maksimum değeri 100 olarak buluyoruz. Medyan (Q2) ortadaki değerdir ki bu durumda 80'dir. medyan, iki orta değer olarak 76 ve 83. Ortalamalarını alarak, Q1'i 79 olarak buluyoruz. Benzer şekilde, veri setinin üst yarısı için medyanı 83, Q3'ü 83 olarak buluyoruz.

Bu nedenle, bu veri kümesi için beş rakamlı özet 2, 79, 80, 83 ve 100'dür. Bu özetten, puanların orta yarısının 79 ile 83 arasında olduğunu gözlemliyoruz, bu da puanların sıkışık bir şekilde kümelendiğini gösteriyor. medyan.

Veri kümesindeki aykırı değerleri belirlemek için 1,5 kat IQR testini kullanabiliriz. Daha önce hesaplanan IQR, 83 - 79 = 4'tür. IQR'yi 1,5 ile çarpmak bize 6 verir. Değerlerin aykırı değer olarak kabul edilmediği aralığı belirlemek için Q1'den 6 çıkarır ve Q3'e 6 ekleriz. Bu durumda, 73'ün altındaki veya 89'un üzerindeki herhangi bir değer, bu kurala göre aykırı değer olarak ele alınmalıdır.

Bu testi veri kümesine uygulayarak, 2 ve 100'ün aykırı değerler olarak kabul edilmesi gerektiğini bulduk. Bir profesör olarak, sınav eğrisini belirlerken bu aşırı puanları göz ardı etmeniz veya onlara daha az ağırlık vermeniz önerilir.

Beş rakamlı özet, IQR ve IQR'nin 1,5 katı testini kullanarak, puanların dağılımını daha iyi anlıyoruz ve genel analizi etkileyebilecek potansiyel aykırı değerleri belirleyebiliyoruz.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

kutu grafikleri


kutu grafikleri

Bugün, kutu ve bıyık grafikleri olarak da bilinen kutu grafiklerini tartışacağız. Kutu grafiği, beş rakamlı özete dayalı tek değişkenli bir veri kümesinin grafiksel bir temsilidir. Onları daha iyi anlamak için hemen bir örneğe dalalım.

Diyelim ki kendisi için beş rakamlı bir özet ve bir kutu grafiği oluşturmak istediğimiz bir veri kümemiz var. Veri seti şu şekildedir: 34, 42, 48, 51.5 ve 58. İlk olarak, minimum (34) ve maksimum (58) değerleri bulmak için sayıları artan sırada düzenleriz. Değerler tek sayı olduğu için medyan ortadaki değerdir, bu durumda bu değer 48'dir.

Daha sonra, veri setini iki yarıya ayırıyoruz: alt yarı ve üst yarı. Alt yarının ortancası 42, üst yarının ortancası 51,5'tir. Bu değerler sırasıyla birinci çeyrek (Q1) ve üçüncü çeyrek (Q3) olarak bilinir.

Beş rakamlı özeti kullanarak kutu grafiğini oluşturabiliriz. Kutu grafiği, Q1 ile Q3 arasındaki aralığı temsil eden bir kutudan oluşur. Kutunun altı Q1'e karşılık gelir, kutunun üstü Q3'e karşılık gelir ve kutunun içindeki yatay çizgi medyanı temsil eder. Kutu grafiğinin "kolları" kutudan minimum ve maksimum değerlere kadar uzanır (sırasıyla 34 ve 58).

Kutu grafiğinin amacı, verilerin dağılımını görselleştirmektir. Kutu, veri kümesinin ortadaki %50'sini temsil ederken, kollar kalan değerleri kapsar. Verilen örnekte uç değerler olmadığı için kutu grafiğinde aykırı değerler görüntülenmez.

Beş rakamlı özeti belirlemek, 1,5 kat IQR testini kullanarak aykırı değerleri test etmek ve bir kutu grafiği oluşturmak istediğimiz başka bir örneği ele alalım. Veri kümesi şu şekildedir: 62, 64, 75, 81.5 ve 110.

Q1'i Q3'ten çıkararak çeyrekler arası aralığı (IQR) hesapladığımızda 17,5 olduğunu buluyoruz. 1,5 kat IQR testini gerçekleştirmek için IQR'yi 1,5 ile çarpıyoruz. IQR'nin 1,5 katını Q1'den (64 - 1,5 * 17,5) çıkararak 37,5 elde ederiz. IQR'nin 1,5 katını Q3'e (81,5 + 1,5 * 17,5) ekleyerek 107,75 elde ederiz. 37,5'in altındaki veya 107,75'in üzerindeki herhangi bir değer aykırı değer olarak kabul edilmelidir.

Bu durumda 110 değeri üst sınırı aşar ve aykırı değer olarak sınıflandırılır. Kutu grafiğini oluştururken, kutu grafiğinin kollarını yalnızca aykırı olmayan en uç değerlere kadar çiziyoruz. 110'luk aykırı değer ayrı bir nokta ile gösterilir ve üst kol yalnızca aykırı olmayan aralık içindeki en yüksek değeri temsil eden 90'a kadar uzanır.

Kutu grafikleri, bir kategorik ve bir nicel değişkenin çizilmesi gibi gruplar arasındaki verileri karşılaştırırken özellikle yararlıdır. Genellikle yan yana kutu çizimi olarak adlandırılan bu tür çizim, farklı grupların net bir görsel karşılaştırmasını sağlar. Örnek olarak, üç türün taç yaprağı genişliklerini karşılaştırdığımız ünlü iris veri kümesini ele alabiliriz: setosa, versicolor ve virginica. Kutu grafiğini inceleyerek setosa türünün genel olarak diğer iki türe göre daha dar taçyapraklara sahip olduğunu gözlemleyebiliriz. Ek olarak, her gruptaki petal genişlikleri arasındaki yayılma farklılıklarını ayırt edebiliriz.

Özet olarak, kutu çizimleri, beş sayı özetinin özlü bir şekilde görselleştirilmesini sağlar ve farklı gruplar arasında kolay karşılaştırmaya izin verir. Bir veri kümesinin minimum, ilk çeyrek (Q1), medyan, üçüncü çeyrek (Q3) ve maksimum değerlerini görüntüler. Kutu, alt kısmı Q1'de ve kutunun üstü Q3'te olacak şekilde verilerin ortadaki %50'sini temsil eder. Kutunun içindeki çizgi medyanı temsil eder.

Kutu grafikleri ayrıca, 1,5 kat IQR testi tarafından belirlenen aralığın dışında kalan değerler olan aykırı değerleri görüntüleme yeteneğine de sahiptir. Aykırı değerleri belirlemek için IQR'yi (Q3 - Q1) hesaplar ve 1,5 ile çarparız. Daha sonra IQR'nin 1,5 katını Q1'den çıkarırız ve IQR'nin 1,5 katını Q3'e ekleriz. Alt sınırın altındaki veya üst sınırın üzerindeki tüm değerler aykırı değer olarak kabul edilir.

Aykırı değerlerle bir kutu grafiği oluştururken, grafiğin kolları yalnızca aykırı olmayan en uç değerlere kadar uzanır. Aykırı değerler, kutu çiziminin kollarının dışındaki ayrı noktalar olarak tasvir edilir. Bu, kutu grafiğinin aykırı olmayan verilerin dağılımını doğru bir şekilde temsil etmesini sağlar ve yanıltıcı yorumlamalardan kaçınır.

Kutu grafikleri, farklı gruplar veya kategoriler arasındaki verileri karşılaştırırken özellikle yararlıdır. Birden çok kutu grafiğini yan yana çizerek, dağılımları karşılaştırmak ve analiz edilen değişkenlerdeki farklılıkları anlamak daha kolay hale gelir.

Örneğin, iris veri setini kullanarak setosa, versicolor ve virginica türlerinin petal genişliklerini karşılaştırmak için yan yana bir kutu çizimi oluşturabiliriz. Bu, türler arasındaki petal genişliğindeki farklılıkları ve her grup içindeki değerlerin dağılımını görsel olarak gözlemlememizi sağlar.

Özet olarak, kutu çizimleri, beş numaralı özetin görsel bir özetini sunarak veri dağılımını anlamayı ve farklı grupları karşılaştırmayı kolaylaştırır. Bir veri kümesindeki aykırı değerlerin merkezi eğilimi, yayılımı ve varlığı hakkında içgörü sağlayarak, onları veri analizi ve görselleştirme için değerli bir araç haline getirir.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

R'deki kutu grafikleri


R'deki kutu grafikleri

Herkese merhaba! Bugün, qplot komutunu kullanarak R'de güzel kutu grafikleri oluşturmayı öğreneceğiz. R'de kutu grafikleri oluşturmanın birden çok yolu vardır, ancak görsel olarak en çekici olanlar genellikle, düzenli paket ailesinin bir parçası olan ggplot2 paketinden gelir. Öyleyse, hadi içine dalalım!

Bu işlevleri daha önce kullanmadıysanız, install.packages komutunu kullanarak düzenli evren paketini makinenize yüklemeniz gerekir. Henüz yapmadıysanız, bu adım hızlıdır. Kurulduktan sonra, işlevlerine erişmek için her oturumun başındaki library(tidyverse) komutunu kullanarak paketi belleğe yüklemeniz gerekir.

Bu eğitimde, ggplot2 paketinden qplot komutunu kullanmaya odaklanacağız. Şimdi, kutu grafiği oluşturmaya ilişkin iki örnekle başlayalım.

İlk olarak, bazı verileri manuel olarak girelim. 21 kişilik bir sınıftaki matematik sınavındaki öğrencilerin puanlarını temsil edebilecek, uzunluğu 21 olan "skorlar" adlı bir vektör oluşturacağız.

Puanların bir kutu grafiğini oluşturmak için qplot komutunu kullanırız. Temel sözdizimi aynı kalır: x ve y eksenleri için değişkenleri belirtin ve bir kutu grafiği istediğimizi belirtmek için geom argümanını kullanın. Bu durumda, puanları x ekseni üzerinde çizeceğiz.

Kutu grafiğimizi görsel olarak daha çekici hale getirmek için bazı iyileştirmeler yapabiliriz. İlk olarak y = "" kullanarak y eksenindeki anlamsız sayıları kaldırabiliriz. Ardından, dikey bir kutu grafiği istiyorsak, puanlar için y'yi kullanarak ve x ekseni etiketini kaldırarak eksenleri değiştirebiliriz. Sırasıyla color ve fill argümanlarını kullanarak kutunun çizgilerine ve iç kısmına da renk ekleyebiliriz. Son olarak, ylab ve ana argümanları kullanarak etiketleri özelleştirebilir ve grafiğe bir başlık ekleyebiliriz.

Şimdi, civciv ağırlıkları adı verilen yerleşik bir veri kümesi kullanan ikinci örneğe geçelim. Bu veri seti iki değişkenli 71 gözlem içerir: farklı civcivlerin ağırlıkları ve onlara verilen yemler. Farklı yem türleri arasında civciv ağırlıklarının dağılımını karşılaştırmak için yan yana bir kutu grafiği oluşturacağız.

Önceki örneğe benzer şekilde, qplot komutunu kullanıyoruz ve veri setini data = civciv ağırlıkları kullanarak belirtiyoruz. Ardından, y ekseninde ağırlıklar ve x ekseninde ilerlemeler ile dikey bir kutu grafiği istediğimizi belirtiyoruz. Kutu grafiklerini besleme türüne göre ayırt etmek için fill argümanını kullanabilir ve onu besleme değişkeniyle eşleyebiliriz.

Bir kez daha, yazı tipi stilleri, etiket boyutları ve punto boyutları dahil olmak üzere özelleştirme için birçok başka seçenek vardır. Çevrimiçi arama yaparak daha fazlasını keşfedebilirsiniz.

Yalnızca birkaç değişiklikle, R'de profesyonel görünümlü kutu çizimleri oluşturabiliriz. Bu örnekler, veri görselleştirme için ggplot2 paketinin gücünü ve esnekliğini göstermektedir.

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
 

Olasılık Deneyleri, Sonuçlar, Olaylar ve Örnek Uzaylar


Olasılık Deneyleri, Sonuçlar, Olaylar ve Örnek Uzaylar

Herkese merhaba! Bugün, olasılığın temellerini inceleyeceğiz. Örnek uzaylar, sonuçlar, olaylar ve daha fazlası gibi konuları keşfedeceğiz. Rastgele deney olarak da bilinen bir olasılık deneyi, sonucun kesin olarak tahmin edilemediği bir deneydir. Ancak, tekrarlanan denemeler belirli eğilimleri ortaya çıkarabilir. Birkaç örneğe bir göz atalım.

  1. Yazı tura atın ve tura mı yazı mı geldiğini kaydedin.
  2. 10 seçmenle iletişime geçmek ve kime oy vermeyi düşündüklerini sormak için rastgele bir çevirici kullanın.
  3. İki zar atın ve sayıların toplamını kaydedin.
  4. İki zar atın ve altının kaç kez göründüğünü sayın.

Son iki örnekte, eylem aynı olmasına rağmen (iki zar atmak), kaydedilen verilerin biraz farklı olduğuna dikkat edin. Bu nedenle, onları ayrı olasılık deneyleri olarak görüyoruz. Şimdi biraz kelime dağarcığı üzerinde konuşalım.

Bir olasılık deneyindeki belirli bir denemenin sonucuna sonuç denir. Bir olasılık deneyindeki tüm olası sonuçların toplanması, örnek uzay olarak adlandırılır (büyük S ile gösterilir). Örnek uzayın bir alt kümesine olay denir.

Bunu açıklamak için bir örnek ele alalım. Diyelim ki iki yazı tura atıyoruz ve sonuçları kaydediyoruz. Örnek uzay dört sonuçtan oluşur: tura-tura, tura-yazı, yazı-tura ve yazı-yazı. E olayını "her iki atış da aynı" olarak tanımlarsak, o zaman bu olay içinde iki sonucumuz olur: tura-tura ve yazı-yazı. Bu olay, örnek uzayın bir alt kümesidir.

Genel olarak bir olay, bir olasılık deneyi sırasında meydana gelebilecek bir şeyi temsil eder, ancak bunun gerçekleşmesi için birçok yol olabilir. Bir önceki örnekte "her iki takla da aynıdır" olayı iki farklı şekilde gerçekleşebilir.

Bir olay tek bir şekilde gerçekleşebiliyorsa, yani tek bir sonuçtan oluşuyorsa buna basit olay deriz. E' olarak veya bazen E'nin üzerinde bir çubukla gösterilen bir E olayının tümleyeni, örnek uzayda E'de olmayan tüm sonuçların kümesidir. E meydana geldiğinde, E' meydana gelmez ve bunun tersi de geçerlidir.

Örneğin, bir döndürücü kullanarak 1'den 9'a kadar bir tamsayıyı rastgele seçtiğimizi varsayalım. E "sonuç bir asal sayıdır" olayı olsun. Örnek uzay, 1'den 9'a kadar olan tam sayılardır ve E, 10'dan küçük asal sayılar kümesidir: {2, 3, 5, 7}. E'nin tümleyeni (E'), asal olmayan 10'dan küçük sayılardan oluşan E'nin oluşmadığı olaydır: {1, 4, 6, 8, 9}.

Ortak sonuçları yoksa iki olay ayrıktır, yani olasılık deneyinin bir denemesinde her ikisi de aynı anda gerçekleşemez. Örneğin, dört yazı tura atmayı ve sonuçları kaydetmeyi düşünün. E "ilk iki atış tura" olayı olsun ve F "en az üç yazı var" olayı olsun. Bu iki olay aşağıdaki gibi temsil edilebilir:

E: {HHHH, HHHH...} F: {TTTTT,TTTTTH,TTTTHT,TTTT...}

E ve F kümeleri arasında paylaşılan hiçbir sonucun olmadığına dikkat edin. Bu nedenle, bu olaylar ayrıktır.

Bir olayın olasılığını tanımlamanın farklı yolları vardır ve ampirik olasılık (veya istatistiksel olasılık) ve klasik olasılık (veya teorik olasılık) olmak üzere iki yaygın yaklaşım vardır.

Ampirik olasılık gözleme dayalıdır. Birden çok kez bir olasılık deneyi yaparız, olayın kaç kez meydana geldiğini sayarız ve bunu toplam deneme sayısına böleriz. Olayın geçmişte meydana gelme oranlarına karşılık gelir. Örneğin, bir madeni parayı 100 kez atarsak ve 53 kez tura gelirse, madeni paranın tura gelmesinin ampirik olasılığı 53/100 veya %53'tür.

Öte yandan, klasik olasılık, bir örneklem uzayındaki tüm sonuçların eşit derecede olası olduğu durumlarda geçerlidir. Olaydaki sonuç sayısını sayıyoruz ve bunu örnek uzaydaki toplam sonuç sayısına bölüyoruz. Matematiksel olarak, E olayının önem derecesinin (öğe sayısı) S örnek uzayının önem derecesine bölünmesiyle ifade edilir. Örneğin, adil bir zar atarsak, eşit derecede olası altı sonuç vardır ve eğer ilgileniyorsanız beş elde etmenin basit olayı E, klasik olasılık 1/6'dır.

Başka bir örneği ele alalım. Adil bir madeni parayı üç kez atarsak, eşit derecede olası sekiz sonuç vardır: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. E tam olarak iki tura gelme olayı olsun. Örnek uzayda, E olayında üç sonuç (HHH, HHT ve HTH) vardır. Bu nedenle, E olayının klasik olasılığı 3/8'dir.

Şimdi, büyük bir üniversitede istatistik dersine giriş niteliğindeki frekans dağılımını kullanarak bir olasılık sorusunu inceleyelim. Dağılım, her sınıf düzeyindeki öğrenci sayısını gösterir: 67 birinci sınıf öğrencisi, 72 ikinci sınıf öğrencisi vb. Bu sınıftan rastgele bir kişi seçersek, ikinci sınıf öğrencisi olma olasılığı nedir? Bu klasik bir olasılık sorusudur.

Verilen frekans dağılımında toplam 222 sonuç (sınıftaki öğrenciler) vardır ve bunların 72'si ikinci sınıflara karşılık gelir. Böylece, ikinci sınıf öğrencilerinin rastgele seçilme olasılığı 72/222, yani yaklaşık %32,4'tür.

Şimdi aynı sıklık dağılımını kullanan biraz farklı bir soruya odaklanalım. Kursa kaydolan bir sonraki kişinin son sınıf öğrencisi veya son sınıf öğrencisi olma olasılığı nedir? Bu sefer ampirik olasılıkla ilgileniyoruz çünkü gelecekteki kayıt hakkında kesinliğimiz yok.

Halihazırda kayıt yaptırmış olan öğrencilerle ilgili elimizdeki verilere bakıyoruz. Bunların arasında 29 genç ve 54 yaşlı var. Ampirik olasılığı hesaplamak için, olaya uyan öğrenci sayısını (ortaokul veya son sınıf) toplam kayıtlı öğrenci sayısına böleriz. Bu nedenle, olasılık (29 + 54) / 222, yaklaşık %37,7'dir.

Ampirik veya klasik olasılıkla uğraşıyor olsak da, bazı gerçeklerin doğru olduğunu not etmek önemlidir. Herhangi bir olayın olasılığı 0 ile 1 arasındadır. Olasılığı 0 olan bir olay imkansızken, 1 olasılığı olan bir olay kesindir. Örnek uzayı S olarak gösterilirse, S'nin oluşma olasılığı her zaman 1'dir.

E ve F ayrık olaylarımız varsa (ortak sonuçları olmadan), bunlardan en az birinin meydana gelme olasılığı, bunların bireysel olasılıklarının toplamıdır. Bununla birlikte, birbirlerini dışladıkları için hem E hem de F'nin aynı anda olma olasılığı 0'dır.

Ek olarak, tamamlayıcı olaylarımız varsa (olası tüm sonuçları kapsayan olaylar), bunların olasılıklarının toplamı her zaman 1'dir. E olayı gerçekleşirse, tamamlayıcısının (E') olmama olasılığı 1 eksi E'nin olma olasılığıdır.

Günlük dilde, olasılığı sıklıkla sezgi ve kişisel deneyime dayalı gayri resmi olarak kullanırız. Bu sübjektif olasılık olarak bilinir. Ancak istatistikte, titiz hesaplamalar için ampirik ve klasik olasılığa güveniriz. Öznel olasılık, matematiksel kesinlikten yoksundur ve istatistiksel analizin odak noktası değildir.

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
 

Olasılıklar için Toplama Kuralı


Olasılıklar için Toplama Kuralı

Herkese merhaba, bugün olasılıklar için toplama kuralından bahsedeceğiz. Bu kural, olay birliklerinin olasılıklarını hesaplamamızı sağlar. Kuralın basitleştirilmiş bir versiyonuyla başlayalım.

Diyelim ki A ve B olmak üzere ayrık iki olay var, yani ortak sonuçları yok. Bu durumda, herhangi bir olayın olma olasılığı, bunların bireysel olasılıklarının toplamıdır. Bu şu şekilde yazılabilir:

P(A ∪ B) = P(A) + P(B)

Burada A ∪ B, A veya B'de olan tüm sonuçların kümesini temsil eder, esasen "A veya B" anlamına gelir. Ortak sonuçları olmadığı için ayrık olayların her ikisinin birden meydana gelemeyeceğini unutmamak önemlidir. Bazen bu olaylara karşılıklı olarak münhasır denir.

Toplama kuralının bu versiyonunu göstermek için bir örnek ele alalım. İki kez adil bir zar attığımızı ve A olayını ilk zarın altı olması ve B olayını zarların toplamının üç olması olarak tanımladığımızı varsayalım. Bu olaylar birbirini dışlar çünkü ilk atış altı ise toplam üç olamaz. Şimdi, A veya B olasılığını hesaplamak için (ilk atış altı veya toplam üç), bu olayların bireysel olasılıklarına ihtiyacımız var.

İlk atışın altı olma olasılığı 1/6'dır çünkü altı olası sonuç vardır ve bunlardan sadece biri altıdır. İki zar atışının toplam 36 olası sonucu olduğu ve iki sonucun toplamının üç (1+2 ve 2+1) olduğu düşünüldüğünde, zarların toplamının üç olma olasılığı 2/36'dır. Bu olasılıkları toplayarak toplam 2/9 olasılık elde ederiz.

Larson ve Farber'in "Temel İstatistikler" ders kitabından alınan başka bir örneğe geçelim. Ev sahiplerine yapılan bir ankette, ev temizliği arasında geçen süre soruldu. Sonuçlar, farklı zaman aralıklarını gösteren bir pasta grafikte özetlenir. Rastgele seçilen bir ev sahibinin temizlikler arasında iki haftadan fazla zaman geçmesine izin verme olasılığını bulmak istiyoruz.

Bu durumda, pasta grafiğin mavi veya sarı bölümünden bir ev sahibi seçme olasılığıyla ilgileniyoruz. Bu bölümler birbirini dışladığı için (evinizi hem üç haftada bir hem de dört haftada bir veya daha fazla temizleyemezsiniz), bu olayların olasılıklarını ekleyebiliriz. Evi üç haftada bir temizleme olasılığı %10, dört hafta veya daha fazla temizleme olasılığı ise %22'dir. Bu olasılıkları toplamak bize %32'lik bir toplam olasılık verir.

Şimdi, iki olayın, A ve B'nin ayrık olmadığı daha genel bir durumu ele alalım. Bu senaryoda, toplama kuralı biraz daha karmaşık hale gelir. A veya B olasılığı şu şekilde verilir:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Burada A ∩ B, hem A hem de B'deki sonuçları temsil eder. A ∩ B'nin olasılığını çıkarmak önemlidir çünkü A ve B örtüştüğünde, A ∩ B'deki sonuçlar iki kez sayılır (bir kez A'da ve bir kez B'de) ).

Toplama kuralının bu versiyonunu göstermek için, sigara içme alışkanlığı ve emniyet kemeri kullanımı ile ilgili bir anketten bir örnek verelim. Anket, 242 katılımcıya alışkanlıkları hakkında sorular sordu ve sonuçları bir tablo özetledi. Rastgele seçilen bir katılımcının sigara içmemesi veya emniyet kemeri takmaması olasılığını bulmak istiyoruz.

Sigara içmeme olayı A, emniyet kemeri takmama olayı B olsun. A veya B (A ∪ B) olasılığıyla ilgileniyoruz. Bunu hesaplamak için A, B ve A ∩ B'nin bireysel olasılıklarına ihtiyacımız var. 242 kişilik örneklemde sigara içmeyen 169 kişi olduğu için sigara içmeme olasılığı 242'de 169'dur. Emniyet kemeri takmama olasılığı 242 üzerinden 114'tür. Şimdi, hem sigara içmeyen hem de emniyet kemeri takmayan bireyleri temsil eden A ∩ B olasılığına da ihtiyacımız var. Tablodan böyle 81 kişinin olduğunu görüyoruz.

Ayrık olmayan olaylar için toplama kuralını kullanarak, A veya B olasılığını aşağıdaki gibi hesaplayabiliriz:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Değerleri değiştirerek şunu elde ederiz:

P(A ∪ B) = 169/242 + 114/242 - 81/242

İfadeyi basitleştirerek şunu buluruz:

P(A ∪ B) = 202/242

Şimdi, bireysel olasılıkları toplayarak doğrudan A veya B olasılığını hesaplayalım. Bu durumda, tablonun her bir hücresindeki olaylar birbirini dışladığından, ayrık olaylar için toplama kuralını kullanabiliriz. A veya B'yi temsil eden beş hücrenin olasılıklarını ekleyerek şunu elde ederiz:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (kalan olasılıklar)

Toplamayı yaptıktan sonra tekrar 202/242 olasılığına ulaşıyoruz.

Bu nedenle, her iki yöntem de 202/242 olan aynı A veya B olasılığını verir.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...