Alım-satım fırsatlarını kaçırıyorsunuz:
- Ücretsiz alım-satım uygulamaları
- İşlem kopyalama için 8.000'den fazla sinyal
- Finansal piyasaları keşfetmek için ekonomik haberler
Kayıt
Giriş yap
Gizlilik ve Veri Koruma Politikasını ve MQL5.com Kullanım Şartlarını kabul edersiniz
Hesabınız yoksa, lütfen kaydolun
R programlama kullanarak verileri kaydetme. Yeni bir değişken oluşturmak için timberverse ve dplyr paketlerini kullanma
R programlama kullanarak verileri kaydetme. Yeni bir değişken oluşturmak için timberverse ve dplyr paketlerini kullanma
Bugün, R'de verileri yeniden kodlamanın büyüleyici konusunu inceleyeceğiz. Ama önce, verileri yeniden kodlama ile ne demek istediğimizi açıklığa kavuşturalım. Bu süreci göstermek için Star Wars veri setini kullanacağız. Eğer halihazırda Tidverse paketini bilgisayarınıza yüklediyseniz, bu veri setine erişiminiz olacak ve evinizden takip edebilirsiniz.
Star Wars veri kümesi, Luke Skywalker, Princess Leia ve daha fazlası gibi Star Wars karakterlerini temsil eden satırlardan ve ad, boy, kütle ve cinsiyet gibi çeşitli değişkenleri temsil eden sütunlardan oluşur. Amacımız, orijinal veri setini bazı önemli farklılıklar içeren yeni bir veri setine dönüştürmektir.
Oluşturacağımız değiştirilmiş veri setinde dikkat edilmesi gereken birkaç değişiklik var. İlk olarak, yükseklik sütunu, orijinal veri setinde olduğu gibi santimetre yerine metre kare cinsinden ifade edilir. İkincisi, cinsiyet sütununda orijinal değerler yerine erkek ve dişiyi temsil etmek için sırasıyla "M" ve "F" kullanılır. Ek olarak, veri kümesindeki tüm eksik değerleri kaldırdık. Son olarak, karakterleri bir metreden uzun ve 75 kilodan fazla olmak üzere belirli kriterlere göre "büyük" veya "küçük" olarak sınıflandıran "boyut" adlı yeni bir değişken oluşturduk.
Başlamak için, veri manipülasyonu için gerekli işlevleri sağladığından,dridiverse paketinin yüklendiğinden emin olalım. Paketi yalnızca bir kez kurmanız gerekir, ancak library() veya request() işlevini kullanarak her oturum için paketi yükleyebilirsiniz. Titiz evren paketi yüklendikten sonra, Star Wars veri kümesine de erişebileceksiniz.
Star Wars veri kümesiyle çalışmak için SW adında yeni bir nesne oluşturalım. Yıldız Savaşları veri kümesini SW nesnesine atamak için atama operatörünü (<-) kullanacağız. Bu sayede orijinal veri setini değiştirmeden değişiklikler yapabilir ve işlemler gerçekleştirebiliriz. Şimdi çalışmak istediğimiz değişkenleri seçelim. Bunu başarmak için, operasyonları birlikte zincirlemek için boru operatörünü (%>%) kullanacağız.
İlk olarak, istediğimiz değişkenleri (isim, kütle ve cinsiyet) seçmek için select() işlevini kullanacağız. Ayrıca, rename() işlevini kullanarak "kütle" değişkenini "ağırlık" olarak yeniden adlandıracağız. Bu kodu çalıştırarak, seçilen değişkenler korunacak ve SW veri setinde "kütle" sütunu "ağırlık" olarak yeniden adlandırılacaktır.
Ardından, eksik değerleri ele alacağız. Burada ayrıntılı olarak ele almayacak olsak da, veri analizinizde eksik değerleri uygun şekilde ele almanız önemlidir. Şimdilik, eksik değerleri veri kümesinden kaldıracağız. Kayıp değerlerle başa çıkma tekniklerini ayrı bir videoda ele alacağız.
Şimdi "yükseklik" değişkenini santimetreden metreye dönüştürmeye odaklanalım. mutate() işlevini ve boru operatörünü kullanarak, her değeri 100'e bölerek "yükseklik" sütununu değiştireceğiz. Bu bölme, yüksekliklerin santimetre yerine metre cinsinden ifade edilmesini sağlar.
"Cinsiyet" değişkenine geçersek, "MAfrodit" gibi "erkek" ve "kadın" dışında değerler içerdiğini fark ederiz. Bunu ele almak için, veri kümesini filtrelemek ve yalnızca "erkek" ve "dişi" değerleri olan gözlemleri tutmak istiyoruz. Filtreleme için iki yaklaşım göstereceğiz. İlk yaklaşım, filter() işlevini kullanmayı ve gözlemleri "erkek" veya "dişi" cinsiyetlerle tutmak için koşulları belirtmeyi içerir. İkinci, daha zarif yaklaşım, gözlemleri "erkek" veya "dişi" değerlerle tutmak için %in% operatörünü kullanarak birleştirme kullanır. Her iki yaklaşım da aynı sonucu verir - veri setinde yalnızca "erkek" ve "dişi" gözlemler kalır.
"Gender" değişkenini filtreledikten sonra, "gender" değişkenindeki değerleri yeniden kodlamaya geçebiliriz. Şu anda "erkek" ve "dişi" değerleri içeriyor, ancak bunları sırasıyla "M" ve "F" olarak temsil etmek istiyoruz. Bunu başarmak için mutate() işlevini ve recode() işlevini kullanacağız.
recode() işlevinde, yeniden kodlamak istediğimiz değişkeni, bu durumda "cinsiyet" olarak belirleyeceğiz. Ardından, eski_değer = yeni_değer sözdizimini kullanarak yeni değerleri atayacağız. Bizim durumumuzda, "erkek"i "M" ve "dişi"yi "F" olarak yeniden kodlanacak şekilde ayarlayacağız.
Bu kodu çalıştırarak, SW veri kümesindeki "cinsiyet" değişkeni güncellenecek ve "male" ve "female" yerine sırasıyla "M" ve "F" yazılacaktır.
Son olarak, belirli kriterlere göre "beden" adında yeni bir değişken oluşturacağız. "Boyut" değişkeni, karakterleri boylarına ve kilolarına göre "büyük" veya "küçük" olarak sınıflandırır. Yine mutate() işlevini ve boru operatörünü kullanacağız.
mutate() içinde, koşullarını tanımlayarak "size" değişkenini oluşturacağız. Yüksekliğin bir metreden ve ağırlığın 75 kilogramdan fazla olup olmadığını kontrol etmek için mantıksal operatörler kullanacağız. Koşullar karşılanırsa, karşılık gelen gözleme "büyük" atarız; aksi halde "küçük" olarak atarız. Bu, mutate() içindeki if_else() işlevi kullanılarak elde edilir.
Bu kod yürütüldükten sonra, SW veri kümesine "boyut" değişkeni eklenerek her karakterin boy ve kilolarına göre "büyük" veya "küçük" olarak sınıflandırılıp sınıflandırılmadığını gösterir.
Sonuç olarak, veri analizi konusunda tutkuluysanız ve R programlamayı öğrenmeye hevesliyseniz, doğru yere geldiniz. Abone ol butonuna basın ve gelecek videolardan haberdar olmak için bildirim ziline tıklayın.
R programlama kullanarak 10 veri filtreleme ipucu. Verilerinizi filtrelemek ve alt gruplara ayırmak için düzenli evreni kullanın.
R programlama kullanarak 10 veri filtreleme ipucu. Verilerinizi filtrelemek ve alt gruplara ayırmak için düzenli evreni kullanın.
Bu videoda, filtre işlevini kullanarak R'de verileri nasıl filtreleyeceğimizi keşfedeceğiz. Filtreleme, belirli kriterlere göre belirli veri alt kümelerini çıkarmamıza olanak tanır. Bunu yapmak için, R'de veri manipülasyonu ve analizi için güçlü bir dizi araç sağlayan timberverse paketini kullanacağız. Filtre işlevine dalmadan önce, temelleri kısaca tartışalım.
Ortamı Kurmak:
Başlamak için, kütüphane işlevini kullanarak düzenli evren paketini yüklememiz gerekiyor. Titiz evreni paketi, R'nin kelime dağarcığını ve işlevselliğini genişleten yığın evreni ekosistemini içerir.
Verileri Keşfetmek: Bu gösteri için, Titiz Evreni paketinde yerleşik bir veri kümesi olarak bulunan "msleep" veri kümesiyle çalışacağız. "Msleep" veri kümesi, ad, toplam uyku, vücut ağırlığı ve beyin ağırlığı gibi değişkenler dahil olmak üzere farklı memeliler hakkında bilgiler içerir. Bu veri seti, filtreleme için uygulama verilerimiz olarak hizmet edecektir.
Bir Veri Alt Kümesi Oluşturma: Bir veri alt kümesi oluşturmak için önce "msleep" veri kümesinin bir kopyasını oluşturacağız ve bunu "=" atama operatörünü kullanarak "verilerim" adlı yeni bir nesneye atayacağız.
my_data <- msleep
Değişkenlerin Seçilmesi: Ardından, birlikte çalışmak istediğimiz belirli değişkenleri seçeceğiz. Bu durumda, "ad" ve "uyku_toplam" sütunlarıyla ilgileniyoruz. Bu sütunları seçmek için seçme işlevini kullanırız ve atama işlecini kullanarak sonucu "verilerim" nesnesine geri depolarız.
my_data <- my_data %>% select(name, sleep_total)
Verileri Filtreleme: Şimdi ana kısım olan filtre işlevi geliyor. Belirli kriterlere göre veri kümemizden satır çıkarmak için bu işlevi kullanacağız. Filtre işlevini kullanmanın birkaç yolu vardır ve size on farklı örnek üzerinden yol göstereceğim.
Tek Kritere Göre Filtreleme:
Başlamak için, verileri yalnızca uyku toplamı 18'den fazla olan memelileri içerecek şekilde filtreleyelim. Filter işlevini kullanıyoruz ve durumu "sleep_total > 18" olarak belirliyoruz.
my_data <- my_data %>% filter(sleep_total > 18)
"!" kullanarak filtreleme Şebeke:
Ayrıca "!" Belirli bir koşulun tersini filtrelemek için operatör. Bu durumda, toplam uykusu 18'den az olan memelileri filtreleyeceğiz.
my_data <- my_data %>% filter(!(sleep_total < 18))
"ve" kullanarak Çoklu Kriterlere göre filtreleme:
Mantıksal "ve" operatörünü (",") kullanarak verileri birleştirerek birden çok kritere dayalı olarak verileri filtreleyebiliriz. Örneğin, sıralamanın "primat" olduğu ve vücut ağırlığının 20'den fazla olduğu memelileri çıkaralım.
my_data <- my_data %>% filter(order == "primate", body_weight > 20)
"veya" kullanarak Çoklu Kriterlere göre filtreleme:
Bazı durumlarda, birkaç kriterden en az birini karşılayan satırları çıkarmak isteyebiliriz. Bunu mantıksal "veya" operatörünü ("|") kullanarak başarabiliriz. Örneğin, inek, köpek veya keçi olan memelileri çıkaralım.
my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")
Birleştirme kullanarak filtreleme:
Her bir kriteri ayrı ayrı belirtmek yerine, bir dizi değer oluşturabilir ve bunu filtre işlevi içinde kullanabiliriz. Bu yaklaşım, birden çok değeri filtrelemek için daha zarif bir yol sağlar. Örneğin, bir ad vektörü oluşturarak ve bunu filter işlevinde kullanarak aşağıdaki gibi filtreleyebiliriz:
names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)
"arasında" Operatörü kullanarak filtreleme:
Satırları bir değer aralığına göre filtrelemek için "arasında" operatörünü kullanabiliriz. Verileri yalnızca toplam uykuları 16 ile 18 (dahil) arasında olan memelileri içerecek şekilde filtreleyelim.
my_data <- my_data %>% filter(between(sleep_total, 16, 18))
Belirli Bir Değere Yakın Değerler İçin Filtreleme:
Bir değişken içerisinde belirli bir değere yakın olan gözlemleri filtrelemek istiyorsak "near" fonksiyonunu kullanabiliriz. Örneğin, verileri 0,5'lik bir tolerans dahilinde toplam uykuları 17'ye yakın olan memelileri içerecek şekilde filtreleyelim.
my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))
Eksik Değerler İçin Filtreleme:
Belirli bir değişkenin eksik değerlere sahip olduğu satırları filtrelemek için "is.na" işlevini kullanabiliriz. "Koruma" değişkeninde yalnızca eksik değerlere sahip memelileri içerecek şekilde verileri filtreleyelim.
my_data <- my_data %>% filter(is.na(conservation))
Eksik Olmayan Değerler İçin Filtreleme:
Tersine, belirli bir değişkende eksik değerlere sahip satırları filtrelemek istiyorsak, "!" "is.na" işleviyle birlikte operatör. "Koruma" değişkeninde eksik değerlere sahip memelileri hariç tutmak için verileri filtreleyelim.
my_data <- my_data %>% filter(!is.na(conservation))
Sonuç: Filtre işlevini ve çeşitli filtreleme tekniklerini kullanarak, kriterlerimize göre belirli veri alt kümelerini çıkarabiliriz. Filtreleme, ilgili gözlemlere odaklanmamızı ve daha fazla analizi kolaylaştırmamızı sağlar. Spesifik veri filtreleme ihtiyaçlarınıza uyacak farklı ölçütler ve kombinasyonlarla denemeler yapmayı unutmayın.
Bu videoyu faydalı bulduysanız ve veri analizi ve R programlama hakkında daha fazla bilgi edinmek istiyorsanız, bu kanala abone olmayı ve gelecekteki videolardan haberdar olmak için bildirimleri etkinleştirmeyi unutmayın.
Yeni başlayanlar için R.R programlama ile verilerinizi temizleyin
Yeni başlayanlar için R.R programlama ile verilerinizi temizleyin
Tekrar hoşgeldiniz! Bugün, veri temizleme konusuna dalıyoruz. Verilerle çalışırken, birçok kişi hemen istatistiksel analize geçmek için can atıyor. Ancak, doğru ve güvenilir sonuçlar elde etmek için sistematik bir yaklaşım benimsemek önemlidir. Bu videoda, analizden önceki çok önemli bir adım olan verilerinizi temizleme sürecinde size yol göstereceğiz.
Öncelikle, verilerinizi keşfederek başlayalım. Bu konuyu daha önceki bir videoda ele aldım, bu yüzden henüz yapmadıysanız kontrol ettiğinizden emin olun. Veri keşfi, veri kümenizin yapısını ve içeriğini tanımanıza yardımcı olur. Verilerinizi iyi bir şekilde anladıktan sonra, temizlemeye devam edebilirsiniz.
Peki, verilerinizi temizlemekle ne demek istiyoruz? İşin içinde birkaç önemli görev var. İlk olarak, her değişkenin doğru bir şekilde kategorize edildiğinden emin olmak önemlidir. Gerekirse ayarlamalar yapmanız ve değişken türlerini değiştirmeniz gerekebilir. Bunu nasıl yapacağınızı birazdan göstereceğim.
Ardından, çalışmak istediğiniz değişkenleri seçmek ve istenmeyen satırları veya gözlemleri filtrelemek isteyebilirsiniz. Bu adım, özellikle büyük veri kümeleriyle uğraşırken önemlidir. Analizinizle ilgili belirli verilere odaklanmanıza olanak tanır.
Veri temizlemenin bir diğer önemli yönü de eksik verilerin işlenmesidir. Bu videoda kayıp değerleri bulma ve bunlarla başa çıkma tekniklerini tartışacağız. Ek olarak, kopyaların nasıl tanımlanıp ele alınacağını ve gerekirse değerlerin nasıl yeniden kodlanacağını ele alacağız.
Devam etmeden önce şunu belirteyim ki R ile çalışırken her zaman düzenli evren paketlerini kullanırım. Titiz evren, R'nin işlevselliğini artıran ve çok çeşitli yararlı işlevler sağlayan bir paketler koleksiyonudur. Henüz yapmadıysanız, düzenli evren paketlerini kurduğunuzdan ve yüklediğinizden emin olun.
Şimdi kullanacağımız veri setlerinden bahsedelim. R, uygulama ve öğrenme için kullanabileceğiniz yerleşik veri kümeleriyle birlikte gelir. Bu derste, düzenli evreni yükledikten sonra kullanılabilir hale gelen Star Wars veri kümesini kullanacağız. "data()" yazıp mevcut seçenekleri keşfederek bu veri kümelerine erişebilirsiniz. Örneğin, "view(starwars)" yazarak Star Wars veri setini görüntüleyebilirsiniz.
Şimdi değişken tiplerine odaklanalım. Her değişkenin doğru bir şekilde tanımlanmasını ve kategorize edilmesini sağlamak önemlidir. Star Wars veri kümesindeki değişken türlerini keşfetmek için "glimpse(starwars)" işlevini kullanabiliriz. Bu, değişken adları ve türleri de dahil olmak üzere veri kümesinin bir özetini sağlayacaktır.
Bazı durumlarda, bir karakter değişkenini faktör değişkenine dönüştürmek isteyebilirsiniz. Faktörler, önceden tanımlanmış düzeylere veya kategorilere sahip olabilen kategorik değişkenlerdir. Bunu yapmak için "as.factor()" işlevini kullanabilirsiniz. Örneğin, Star Wars veri setindeki "gender" değişkenini bir faktöre dönüştürmek için "starwars$gender <- as.factor(starwars$gender)" kodunu kullanabilirsiniz. Bu, değişken türünü değiştirecek ve veri kümesini buna göre güncelleyecektir.
Bir faktör değişkeninin düzeylerini veya kategorilerini belirtmeniz gerekirse, "levels()" işlevini kullanabilirsiniz. Örneğin "gender" değişkenindeki seviyelerin sırasını değiştirmek isterseniz "levels(starwars$gender) <- c('masculine', 'feminine')" kodunu kullanabilirsiniz. Bu, özel ihtiyaçlarınıza göre kategorilerin sırasını özelleştirmenizi sağlar.
Ardından, değişkenleri seçmeyi ve satırları filtrelemeyi tartışalım. R'de, çalışmak istediğiniz değişkenleri seçmek için "select()" işlevini kullanabilirsiniz. Örneğin, Star Wars veri kümesinden "select(starwars, name, height, ends_with('color'))" kodunu kullanarak "name" ve "height" gibi değişkenleri seçebilirsiniz.
Memnun satırları filtrelemek için. Ama bu durumda istediğimiz bu değil. Sarı veya kahverengi saç rengine sahip gözlemleri dahil etmek istiyoruz. Bu nedenle, gözlemin koşullardan herhangi birini karşılaması gerektiğini belirtmek için mantıksal operatör "veya" (| ile temsil edilir) kullanırız.
Şimdi, kayıp verilerle ilgilenen veri temizlemenin bir sonraki bölümüne geçelim. Veri kümelerinde çeşitli nedenlerle eksik veriler oluşabilir ve bunların uygun şekilde işlenmesi önemlidir. Star Wars veri kümesi söz konusu olduğunda, is.na() işlevini kullanarak eksik değerleri kontrol edebiliriz.
Eksik verileri bulmak ve bunlarla ilgilenmek için kodumuza bir adım daha ekleyebiliriz:
Bu kodda öncelikle istediğimiz değişkenleri (isim, boy ve "renk" ile biten değişkenler) seçiyoruz. Ardından, "sarışın" veya "kahverengi" olan saç rengi değerleri için filtre uygularız. Son olarak, yükseklik değerinin eksik olduğu gözlemleri hariç tutmak için !is.na(yükseklik) koşulunu kullanırız.
Ardından, veri kümesindeki kopyalar sorununu ele alalım. Veri setinde birden çok özdeş gözlem olduğunda yinelemeler meydana gelebilir. Kopyaları bulmak ve bunlarla başa çıkmak için kodumuza bir adım daha ekleyebiliriz:
Bu kodda, star_wars_filtered veri kümesinden mükerrer gözlemleri kaldırmak ve her bir gözlemin benzersiz olmasını sağlamak için Different() işlevini kullanıyoruz.
Son olarak, veri kümesindeki değerlerin nasıl yeniden kodlanacağını tartışalım. Bazen, analizimize daha iyi uyması için belirli değişkenlerin değerlerini değiştirmemiz gerekebilir. Bu durumda saç rengi değişkenini "sarı" 1 ve "kahverengi" 2 olacak şekilde yeniden kodlamak istediğimizi varsayalım. Bunu kodumuza bir adım daha ekleyerek başarabiliriz:
Burada, hair_color değişkeninin değerlerini değiştirmek için mutate() işlevini recode() işleviyle birlikte kullanıyoruz. "Sarışın"ın 1 olarak ve "kahverengi"nin 2 olarak yeniden kodlanması gerektiğini belirtiyoruz.
Artık veri temizleme işlemini tamamladık. İstenen değişkenleri seçtik, istenmeyen gözlemleri filtreledik, eksik verileri ele aldık, kopyaları kaldırdık ve gerekirse değerleri yeniden kodladık.
Bunların veri temizleme sürecindeki bazı temel adımlar olduğunu ve belirli adımların veri kümesine ve analiz gereksinimlerine bağlı olarak değişebileceğini unutmayın. Bununla birlikte, bunun gibi sistematik bir yaklaşımın izlenmesi, verilerinizin daha fazla analiz için temiz ve uygun bir formatta olmasını sağlamaya yardımcı olabilir.
Umarım bu açıklama, verilerinizi temizleme sürecini anlamanıza yardımcı olur.
R programlamayı kullanarak verilerinizi keşfedin
R programlamayı kullanarak verilerinizi keşfedin
Merhaba, tüm programlama meraklıları! Benim adım Greg Martin ve Programlama 101 oturumumuza tekrar hoş geldiniz. Bugün, herhangi bir veri analizine dalmadan önce çok önemli olan veri keşfi konusunu tartışacağız. Çalıştığınız verileri anlamak çok önemlidir. Veri kümenizin veya veri çerçevenizin boyutlarını, parametrelerini ve boyutunu kavramanız gerekir. Ek olarak, değişkenlerin sayısını ve özelliklerini bilmelisiniz. Bu adım çok önemli ve son derece kolay, o yüzden birlikte yapalım.
Programlama hakkında bilgi edinmek için buradaysanız, doğru yere geldiniz. Bu YouTube kanalında, çok çeşitli konuları kapsayan programlama videoları oluşturuyoruz.
Şimdi, Tidyverse içindeki işlevleri ve paketleri kullandığımı söyleyerek başlayayım. Tidyverse'e aşina değilseniz, önemini açıklayan diğer videolarımdan birini izlemenizi tavsiye ederim. Tidyverse'i bilgisayarınıza yüklemek, Tidyverse'teki paketlerle birlikte gelen tüm işlevleri, yetenekleri ve genişletilmiş kelime dağarcığını getirir. İlerledikçe bu paketlerden bazılarından bahsedeceğim.
Daha da önemlisi, Tidyverse, veri analizinizi uygulamak için kullanabileceğiniz çeşitli yerleşik veri kümeleri de içerir. Bu özellikle yararlıdır ve daha sonra "yıldız savaşları" adı verilen bu ek veri kümelerinden birini kullanacağız. Star wars veri kümesi biraz dağınıktır, eksik verileri ve diğer sorunları içerir, bu da onu verileri keşfetmek ve temizlemek için mükemmel bir örnek yapar.
Başlamak için, belgelere erişmek ve söz konusu veri kümesi hakkında bilgi edinmek için her zaman soru işaretini ve ardından işlev veya veri kümesi adını kullanabilirsiniz. Örneğin, "?star wars" yazıp Enter'a basarak, star wars veri setinde bulunan değişkenler hakkında bilgilere ulaşabilirsiniz.
Şimdi, bazı belirli işlevlere geçelim. Öğreneceğimiz ilk işlev, boyutların kısaltması olan "dim"dir. "dim(star wars)" komutunu kullanarak ve Enter'a basarak, veri setinin 87 satır veya gözlem ve 13 değişkene sahip olduğunu belirleyebiliriz.
Bir veri çerçevesinin yapısını anlamak için kullanılan diğer bir yaygın işlev "str"dir (yapı). Ancak direkt olarak "str(star wars)" uyguladığımızda, veri setinde listelerin varlığından dolayı bazı dağınık çıktılarla karşılaşıyoruz. Listeler, her gözlemin çeşitli veri noktalarını veya hatta tüm veri çerçevesini içeren ayrı bir liste olabileceği değişkenleri temsil eder. Çıktıyı daha okunaklı hale getirmek için Tidyverse'deki "glimpse" işlevini kullanabiliriz. Böylece, "glimpse(star wars)" yazıp Enter'a basarak, gözlem sayısı, değişkenler ve türleri de dahil olmak üzere veri kümesinin yapısının çok daha düzenli bir görüntüsünü elde ederiz.
Veri kümesinin kendisini görüntülemek için, "view(star wars)" yazıp Enter tuşuna basarak "view" işlevini kullanabilirsiniz. Bu, değişkenleri temsil eden sütunlar ve gözlemleri temsil eden satırlar ile veri kümesini düzgün ve düzenli bir biçimde görüntüleyen bir pencere açacaktır.
Ek olarak, sırasıyla veri kümesinin ilk ve son birkaç satırını hızlı bir şekilde görüntülemek için "head" ve "tail" işlevlerini kullanabilirsiniz. Örneğin, "head(star wars)" ilk altı satırı gösterecek ve "tail(star wars)" son altı satırı gösterecektir.
Veri kümesindeki belirli değişkenlere erişmek için "$" operatörünü kullanabilirsiniz. Örneğin, "star wars$name" yazıp Enter'a basarak "name" değişkenine doğrudan erişebilirsiniz.
Bir başka yararlı işlev de, veri kümesi içindeki değişken adlarını almanızı sağlayan "adlar"dır. "isimler(yıldız savaşları)" yazıp Enter tuşuna basarak, mevcut tüm değişkenlerin bir listesini alacaksınız. Bu, yazım hatalarını önlemeye yardımcı olduğu ve doğruluğu sağladığı için kodunuzdaki değişkenlere atıfta bulunurken faydalıdır.
Ayrıca, sayıyı belirlemek için "uzunluk" işlevi kullanılabilir.
Bir veri kümesindeki değişken sayısını belirlemek için "uzunluk" işlevi kullanılabilir. Örneğin, "uzunluk(isimler(yıldız savaşları)" yazıp Enter tuşuna basarak, yıldız savaşları veri setinde bulunan değişkenlerin toplam sayısını öğrenebilirsiniz.
Veri keşfinin bir diğer önemli yönü, değişkenlerin veri türlerini anlamaktır. "class" işlevi, bir değişkenin sınıfını veya veri tipini belirlemek için kullanılabilir. Örneğin star wars veri setindeki "name" değişkeninin veri tipini öğrenmek istiyorsanız "class(star wars$name)" yazıp Enter'a basabilirsiniz.
Veri kümesindeki sayısal değişkenler için özet istatistikler elde etmek için "özet" işlevini de kullanabilirsiniz. Örneğin, "height" değişkeninin bir özetini almak istiyorsanız, "summary(star wars$height)" yazıp Enter tuşuna basabilirsiniz.
Veri kümesini belirli koşullara göre filtrelemek ve alt kümelemek için "filtre" işlevini kullanabilirsiniz. Bu işlev, belirli ölçütleri karşılayan satırları seçmek için mantıksal koşullar belirlemenizi sağlar. Örneğin, star wars veri kümesini yalnızca 150'den büyük karakterleri içerecek şekilde filtrelemek istiyorsanız, "filter(star wars, height > 150)" yazıp Enter tuşuna basabilirsiniz.
Ek olarak, veri kümesinden belirli değişkenleri veya sütunları seçmek için "seç" işlevini kullanabilirsiniz. Bu, analiziniz için değişkenlerin bir alt kümesine odaklanmak istediğinizde yararlıdır. Örneğin, star wars veri setinden sadece "name" ve "height" değişkenlerini seçmek istiyorsanız, "select(star wars, name, height)" yazıp Enter tuşuna basabilirsiniz.
Verileri keşfetmek aynı zamanda değişkenlerin dağılımını incelemeyi de içerir. Tidyverse, güçlü veri görselleştirme yetenekleri sunan "ggplot2" paketini sağlar. Sayısal değişkenlerin dağılımını görselleştirmek amacıyla histogramlar oluşturmak için "ggplot" ve "geom_histogram" gibi işlevleri kullanabilirsiniz. Örneğin, yıldız savaşları veri kümesinde "yükseklik" değişkeninin histogramını oluşturmak için aşağıdaki kodu kullanabilirsiniz:
library(ggplot2)
ggplot(star wars, aes(x = height)) +
geom_histogram()
Bu kod, yıldız savaşları veri kümesindeki karakter boylarının dağılımını gösteren bir histogram oluşturacaktır.
Henüz yapmadıysanız, gerekli paketleri kurmayı unutmayın. Paketleri kurmak için "install.packages" işlevini kullanabilirsiniz. Örneğin ggplot2 paketini kurmak için "install.packages('ggplot2')" yazıp Enter tuşuna basabilirsiniz.
Bunlar, R'de veri araştırması için kullanabileceğiniz temel işlevlerden ve tekniklerden bazılarıdır. Veri kümenizin yapısını, boyutlarını, değişkenlerini ve veri türlerini anlayarak, veri analizi sürecinize rehberlik edecek değerli bilgiler edinirsiniz.
Verilerinizi işleyin. Veri tartışması. Yeni başlayanlar için R programlama.
Verilerinizi işleyin. Veri tartışması. Yeni başlayanlar için R programlama.
Programlama serimizle ilgili başka bir heyecan verici videoya tekrar hoş geldiniz. Bugün, veri çerçevenizi, veri kümenizi veya verilerinizi manipüle etme konusuna dalacağız. "Veri doktorluğu" olarak da bilinen veri düzenleme, çok eğlenceli olabilir. Bu, serimizin veri keşfi, temizleme, değiştirme, açıklama, özetleme, görselleştirme ve analizin çeşitli yönlerini keşfettiğimiz üçüncü bölümüdür. Bunlar, yeni bir veri kümesiyle karşılaştığınızda, sahip olduğunuz verileri anlamlandırmanıza yardımcı olan veri hattındaki temel adımlardır.
Bu videoda çeşitli teknikleri ele alacağız. Bazılarına zaten aşina olabilirsiniz, bazıları ise sizin için yeni olabilir. Hızlı hareket edeceğiz, bu nedenle videoyu gerektiği gibi duraklatabilir, geri sarabilir ve gözden geçirebilirsiniz. Göstereceğim örneklerin ve gösterilerin çoğu, kendi bilgisayarınızda kolayca kopyalanabilir. Herhangi bir ek veri indirmeniz veya çevrimiçi olarak aramanız gerekmez. R'deki yerleşik veri çerçeveleri, video boyunca pratik veri kümelerimiz olarak hizmet edecektir.
Ama devam etmeden önce, Tiddverse kitaplığının kurulu olduğundan emin olalım. Kurulum sürecine burada girmeyeceğim ama eğer bu konuda bilginiz yoksa paketler ile ilgili videomu izlemenizi tavsiye ederim. Tiddverse kitaplığı, veri işleme ve analizi için bir dizi işlevsellik sağlayan birden çok paketten oluşur. Kurulduktan sonra, R içindeki tüm paketlere ve bunların genişletilmiş sözlüğüne erişmenizi sağlayan library(tidyverse) komutunu kullanarak kitaplığı yükleyebilirsiniz. Ayrıca,drideverse ayrıca pratik yapmak için kullanabileceğimiz önceden yüklenmiş veri kümelerini de içerir. Kullanılabilir veri kümelerini görüntülemek için, bilgisayarınızda erişilebilen veri kümelerinin bir listesini görüntüleyecek olan data() komutunu kullanabilirsiniz.
Pekala, içeriğe geçelim. Gösterilerimiz için "m_sleep" veri seti ile çalışacağız. Veri kümesinin ayrıntılarını merak ediyorsanız, veri kümesindeki her bir değişken hakkında özet ve bilgi almak için ?m_sleep komutunu kullanabilirsiniz. Alternatif olarak, değişken adları, türleri ve birkaç örnek gözlem de dahil olmak üzere veri kümesine ilişkin özlü bir genel bakış elde etmek için düzenli evrendeki kısa bakış işlevini kullanabiliriz.
Şimdi ilk dersimize başlayalım: bir değişkeni yeniden adlandırmak. Bir değişkeni yeniden adlandırmak, düzenli evrendeki yeniden adlandırma işlevini kullanarak çocuk oyuncağıdır. Genellikle veri kümesiyle başlayan ve ardından %>% boru operatörünü kullanarak dönüşümleri uygulayan bir işlem hattı yaklaşımını izleriz. Bir değişkeni yeniden adlandırmak için, eşittir işaretinden önce yeni adı ve ardından yeniden adlandırma işlevindeki mevcut adı belirtiriz. Örneğin, "koruma" değişkenini rename(koru = koruma) kullanarak "koru" olarak yeniden adlandırabiliriz. Kodu çalıştırdıktan sonra güncellenen değişken adını veri setinde görebiliriz.
Devam ederek, değişkenleri nasıl yeniden sıralayacağımızı keşfedelim. Daha önce de belirtildiği gibi, belirli değişkenleri seçmemizi sağlayan seçme işlevini daha önce tartışmıştık. Bununla birlikte, seçme işlevindeki değişkenlerin sırasının, elde edilen veri kümesindeki sıralarını belirlediğine dikkat edilmelidir. Değişken adlarını virgülle ayırarak istenilen sırada belirterek değişkenleri buna göre yeniden düzenleyebiliriz. Örneğin, select(var1, var2, ..., her şey()) önce "var1" ve "var2"yi seçecek, ardından kalan değişkenleri orijinal sıralarında izleyecektir.
Ardından, değişken türlerini değiştirmeyi tartışalım. Bu konuya daha önce değinmiştik ancak kısaca süreci gözden geçirelim. Temel R fonksiyon sınıfını kullanarak, bir değişkenin mevcut tipini belirleyebiliriz. Örneğin, class(m_sleep$var) değişken türünü "karakter" olarak görüntüler. Okunabilirlik amacıyla bir değişkenin türünü yeni bir satıra değiştirmek için, ancak isterseniz hepsini bir satıra yazabilirsiniz. Şimdi, filtreyi veri çerçevesine uygulayalım.
Bu örnekte, m_sleep veri çerçevesini yalnızca sipariş değişkeninin "Etobur" veya "Primatlar" olduğu gözlemleri içerecek şekilde filtreledik. Ortaya çıkan veri alt kümesi, filtered_data nesnesinde depolanır.
Verileri düzenlemeye geçerek, düzenleme işlevini kullanabiliriz. Bu işlev, veri çerçevesinin satırlarını bir veya daha fazla değişkene göre sıralamamızı sağlar. Filtered_data'yı vore değişkenine göre azalan düzende sıralayalım.
Burada, veri çerçevesini vore değişkenine göre azalan düzende sıralayan desc(vore) argümanı ile düzenleme işlevini kullandık. Ortaya çıkan düzenlenmiş veriler, Arrange_data nesnesinde depolanır.
Şimdi, yeniden kodlama verilerini ele alalım. Yeniden kodlama, bir değişkenin değerlerini belirli koşullara göre değiştirmeyi içerir. Bunu gerçekleştirmek için mutate işlevini if_else işleviyle birlikte kullanabiliriz.
Bu örnekte, düzenlenen_data veri çerçevesindeki vore değişkenini yeniden kodladık. "Karni" değerini "Etobur" ve diğer tüm değerleri "Omnivor" olarak değiştirdik. Değiştirilen veri çerçevesi, recoded_data nesnesinde depolanır.
Ardından, mutasyona uğratma işlevini kullanarak değişen verileri keşfedelim. Yeni değişkenler oluşturabilir veya mevcut olanları değiştirebiliriz. İşte bir örnek:
Son olarak, veri çerçevenizi yeniden şekillendirmeyi tartışalım. Yeniden şekillendirme, veri çerçevesinin yapısını genişten uzuna veya tam tersi şekilde değiştirmeyi içerir. Bu görev içindridiverse paketindeki pivot_longer ve pivot_wider işlevleri kullanışlıdır. İşte bir örnek:
Bu örnekte, veri çerçevesini geniş formattan uzun formata dönüştürdük. Döndürmek için vore,waek ve sleep_total değişkenlerini seçtik. Ortaya çıkan veri çerçevesinde iki yeni sütun bulunur: sırasıyla değişken adlarını ve karşılık gelen değerleri depolayan değişken ve değer.
Bu eğitim için bu kadar! Değişkenleri yeniden adlandırma, değişkenleri yeniden sıralama, değişken türlerini değiştirme, değişkenleri seçme, verileri filtreleme ve düzenleme, verileri yeniden kodlama, mutasyon kullanarak verileri değiştirme ve veri çerçevesini yeniden şekillendirme dahil olmak üzere veri çerçevenizi manipüle etmenin çeşitli yönlerini ele aldık. Unutmayın, tüm bu kavramları R'deki yerleşik veri çerçevelerini kullanarak uygulayabilirsiniz. Mutlu veri düzenleme!
Verilerinizi Tanımlayın ve Özetleyin
Verilerinizi Tanımlayın ve Özetleyin
R101'e tekrar hoş geldiniz! Bu oturumda, verilerinizi nasıl tanımlayacağınızı ve özetleyeceğinizi tartışacağız. Bugünün konusu çok kolay, o yüzden benimle kalın ve çok şey öğreneceksiniz. Bu oturum, verileri keşfettiğimiz, temizlediğimiz, manipüle ettiğimiz, tanımladığımız ve özetlediğimiz bir dizinin parçasıdır. Bir sonraki video, verileri görselleştirme ve analiz etme hakkında olacak. Öyleyse başlayalım.
Bu videoda, veri tanımlama ve özetlemenin çeşitli yönlerini ele alacağız. İlk olarak, sayısal değişkenlerle uğraşırken, onları tanımlamak için kullandığımız belirli istatistiksel parametreler vardır. Bunlar menzil, yayılma, merkezilik ve varyansı içerir. Merak etme; bu kavramları süper kolay bir şekilde inceleyeceğiz ve bu sadece yaklaşık 30 saniye sürecek.
Ardından, tüm veri kümesini nasıl özetleyeceğimizi öğreneceğiz. Verilerinizi verimli bir şekilde özetlemek için birkaç ipucu ve püf noktası paylaşacağım. Yine, bu sadece yaklaşık 30 saniye sürecektir.
Ardından, verilerimizi özetlemek için tablolar oluşturmaya odaklanacağız. Tablolar, bilgileri etkili bir şekilde sunmak ve özetlemek için mükemmel bir yoldur. Sayısal değişkenleri özetleyen tabloları ve kategorik değişkenleri özetleyen olasılık tablolarını nasıl oluşturacağımızı öğreneceğiz. Size bazı örnekler göstereceğim ve takip etmenin çok kolay olduğunu göreceksiniz.
Neyi hedeflediğimizi anlamanız için ekranda örnek bir tablo gösterdim. Bu tablo ilgi çekici bir hikaye anlatıyor ve verilerin net bir resmini çiziyor. Güzel tablolar oluşturmanıza izin veren R'deki "biçimlendirilebilir" paket kullanılarak oluşturulmuştur. Ancak, görsel olarak çekici tablolar oluşturmaya başlamadan önce, verilerimizin düzgün bir şekilde yapılandırıldığından emin olmamız çok önemlidir. Anahtar, verilerinizin bir hikaye anlatmanıza ve bir resmi etkili bir şekilde sunmanıza izin veren bir formatta olmasıdır.
Şimdi ilerleyelim ve bu videonun ana konularını ele alalım. R programlama öğrenmekle ilgileniyorsanız, doğru yerdesiniz. Bu YouTube kanalında, çok çeşitli konuları kapsayan programlama videoları oluşturuyoruz.
Her şeyden önce, henüz yapmadıysanız, gerekli paketleri kurduğunuzdan emin olun. Her zaman R'nin kelime dağarcığını ve yeteneklerini genişleten "tidyverse" paketleriyle çalışıyoruz. Bu paketler, bu videoda kullanacağımız boru operatörü gibi kullanışlı araçlar sağlıyor. Titiz evren ve içindeki paketlere aşina değilseniz paketler ile ilgili videomu izlemenizi tavsiye ederim.
Örneklerimizde, bilgisayarınızda erişebileceğiniz, herkese açık verileri kullanacağız. Bu verileri kullanarak analiz, kodlama ve veri düzenleme becerilerinizi geliştirebilirsiniz. R, "veri" işlevini kullanarak erişebileceğiniz çeşitli veri kümeleri sağlar. Bu videoda özellikle "msleep" veri setiyle çalışacağız. Gösterdiğim adımları evinizdeki bilgisayarınızda çoğaltabilirsiniz. "view(msleep)" komutunu çalıştırırsanız veri setinin yapısını görebilirsiniz. Otçul, etobur, hepçil, uyku süresi, beyin ağırlığı ve daha fazlası gibi değişkenleri içerir. Çalışmak için harika bir veri kümesi.
Başlangıç olarak, veri setindeki sayısal değişkenleri özetleyelim. Minimum, maksimum, aralık, çeyrekler arası aralık, ortalama, medyan ve varyans gibi istatistiksel parametrelere odaklanacağız. Bu değerleri elde etmek için R'deki "summary" işlevini kullanabilirsiniz. "summary(msleep)" komutunu çalıştırarak, karşılık gelen parametrelerle birlikte tüm değişkenlerin özetini göreceksiniz. Belirli istatistiklere odaklanmak istiyorsanız, tek bir değişkende "özet" kullanabilirsiniz.
Şimdi sadece "sleep_total" ve "brain_weight" değişkenlerini seçip özetlemek istediğimizi varsayalım. Bunu,dridiverse paketinden "select" işlevini kullanarak değişkenleri seçerek başarabilirsiniz.
Şimdi "hava yastıkları" olan ikinci kategorik değişkeni tanıtalım. Yine tablo fonksiyonunu kullanabiliriz ama bu sefer her iki değişkeni de fonksiyon içerisine dahil edeceğiz. İşte kod:
Bu kodu çalıştırdığımızda, iki kategorik değişken arasındaki kombinasyonların sıklığını gösteren bir olasılık tablosu elde ederiz. Bunun gibi bir şey gösterecektir:
Bu tablo, örneğin, ABD menşeli olmayan hava yastığı olmayan 15 araba, yalnızca sürücü için hava yastığı olan 20 araba ve hem sürücü hem de yolcu için hava yastığı olan 10 araba olduğunu söylüyor. Benzer şekilde, ABD'den hava yastığı olmayan 25 araba, sadece sürücü için hava yastığı olan 30 araba ve hem sürücü hem de yolcu için hava yastığı olan 20 araba var.
Şimdi aynı sonucu, düzenli evren yaklaşımını kullanarak nasıl elde edebileceğimizi görelim. Count ve pivot_wider fonksiyonlarını kullanacağız. İşte kod:
Bu kod, bir dizi işlemi gerçekleştirmek için %>% kanal operatörünü takip eder. İlk olarak, orijin ve hava yastıkları arasındaki kombinasyonların frekanslarını hesaplamak için sayımı kullanırız. Ardından, verileri yeniden şekillendirmek için pivot_wider'ı uygularız ve farklı hava yastığı türlerini ayrı sütunlara dönüştürürüz. Ortaya çıkan tablo, temel R kodu tarafından üretilene benzer görünecektir.
Bu örnekler, hem temel R'yi hem de düzenli evren yaklaşımını kullanarak verilerinizi açıklamak için tabloları nasıl özetleyebileceğinizi ve oluşturabileceğinizi gösterir. Tercihlerinize ve analizinizin özel gereksinimlerine uyan yöntemi seçmek önemlidir.
R programlama kullanarak ki kare testi
R programlama kullanarak ki kare testi
Bugün, özellikle uyum iyiliği testine odaklanarak ki-kare testi konusuna gireceğiz. Bu test çok kolay, bu yüzden benimle kalın ve birlikte keşfedelim.
Her şeyden önce,drideverse paketinin kurulu olduğundan emin olun. Eğer düzenli evrene aşina değilseniz, bu konuda daha fazla bilgi edinmek için diğer videolarıma göz atabilirsiniz. Titiz evren, R'nin sözcük dağarcığını genişleten ve veri analizini daha verimli hale getiren bir R paketleri koleksiyonudur. Ek olarak, kategorik değişkenlerle çalışmak için genişletilmiş işlevsellik sağlayan "forcats" paketine ihtiyacımız olacak. Bu dersimizde "forcats" paketi ile birlikte gelen "GSS_cat" veri setini kullanacağız.
Paketleri kurduktan sonra, "GSS_cat" veri setine bir göz atalım. Biri "medeni durum" olmak üzere çeşitli değişkenler içerir. Analizimiz için bu değişkene odaklanacağız. Farklı medeni durumların oranlarını anlamak için ekranın sağ tarafında "hiç evlenmemiş", "boşanmış" ve "evli" kategorilerini gösteren bir grafik oluşturdum. Arsadan, oranların farklı göründüğünü gözlemleyebiliriz.
Şimdi ki-kare testine geçelim. Bu testin amacı, hiç evlenmemiş, boşanmış veya evli olmayan kişilerin oranlarında anlamlı bir fark olup olmadığını belirlemektir. Boş hipotezimiz fark olmadığını varsayıyor ve verilerin bu hipotezi destekleyip desteklemediğini incelemek istiyoruz.
Testi gerçekleştirmeden önce sponsorumuz Native Knowledge'e teşekkür etmek istiyorum. Sistematik literatür taraması ve meta-analizi kolaylaştıran çevrimiçi bir platformdur. Bunları kontrol ettiğinizden emin olun; kesinlikle harikalar!
Şimdi koda geçelim. Veri temizleme ve hazırlama için ekranda bazı kodlar verdim. Verilerin yalnızca "hiç evlenmemiş" ve "boşanmış" kategorilerini içerecek şekilde filtrelenmesini ve gereksiz faktörlerin ortadan kaldırılmasını içerir. Bu analizi kendi başınıza çoğaltmak istiyorsanız kodu kopyalamaktan çekinmeyin. Kodu çalıştırdıktan sonra, tek değişkenli güzel ve düzenli bir veri kümeniz olacak.
Şimdi heyecan verici kısım geliyor - ki-kare testi yapmak. Testi uygulamak için verilerimizden bir tablo oluşturmamız gerekiyor. "my_table" adında yeni bir nesne yarattım ve hazırladığımız veri setini argüman olarak kullanarak buna tablo işlevini atadım. Kodu çalıştırdığımızda ve "my_table"ı görüntülediğimizde, verilerin düzgün bir şekilde sunulduğu bir tablo görebiliriz.
Ardından, "chisq.test" işlevini kullanarak ki-kare testini tablomuza kolayca uygulayabiliriz. Bu işlevi "my_table" üzerinde çalıştırmak, bize p-değeri de dahil olmak üzere test sonuçlarını sağlayacaktır. Bu durumda, çok küçük bir p-değeri elde ettik; bu, kategoriler eşit oranlara sahipse, oranlarda gözlenen farklılıkları gözlemlemenin son derece olası olmadığını gösterir. Bu nedenle, eşit oranlar sıfır hipotezini reddedebilir ve medeni durumlar arasında istatistiksel olarak anlamlı bir fark olduğu sonucuna varabiliriz.
Daha kısa ve öz bir yaklaşımı tercih ederseniz, aynı sonuçları timberverse işleçlerini ("%>%") kullanarak dadrideverse paketinden elde edebiliriz. Verileri doğrudan tabloya ve ardından ki-kare testine aktararak, kodu düzene sokabilir ve aynı yanıtı elde edebiliriz.
Umarım ki-kare testiyle ilgili bu genel bakışı bilgilendirici bulmuşsunuzdur. Konunun derinliklerine inmekle ilgileniyorsanız, mekaniği hakkında daha kapsamlı bir anlayış sağlayacak olan ki-kare testiyle ilgili daha uzun videoyu izlemenizi tavsiye ederim. Harika çalışmaya devam edin, meraklı kalın ve sürekli öğrenme için her zaman çabalamayı unutmayın.
Bir saat içinde R programlama - yeni başlayanlar için hızlandırılmış bir kurs
Bir saat içinde R programlama - yeni başlayanlar için hızlandırılmış bir kurs
Eğitim videosu, yeni başlayanlar için hızlandırılmış R programlama kursu sağlar. R'nin temellerini ve yerleşik veri kümelerine erişmeyi, veri işleme tekniklerini, anlık ve tam vakalar gibi işlevleri kullanarak veri keşfini, alt kümeleme ve yeniden adlandırma gibi veri temizleme tekniklerini, grafik gramerini kullanan veri görselleştirme tekniklerini, T-testlerini kapsar. ANOVA ve Ki-kare testleri, doğrusal modeller ve veri çerçevelerinin nasıl yeniden şekillendirileceği. Eğitmen, veri kümelerini keşfetmenin önemini vurgular ve veri analizini ve görselleştirmeyi daha sezgisel hale getirmek için, düzenli ayet ve ggplot2 paketi gibi araçları tartışır. Video, çıktıyı yorumlamaya odaklanan "arabalar" veri setini kullanan bir ki-kare testi ve doğrusal bir modelin gösterimiyle sona eriyor.
Nüfus, Örnek, Parametre, İstatistik
Nüfus, Örnek, Parametre, İstatistik
Herkese merhaba! Bugünkü oturumda, istatistik alanındaki en önemli sözcüklerden bazılarını ele alacağız. Hemen konuya girelim ve iki temel kavramla başlayalım: popülasyon ve örneklem.
Bir popülasyon, gözlemler, yanıtlar, ölçümler vb. dahil olmak üzere belirli bir çalışmada ilgilenilen tüm verileri ifade eder. Öte yandan, bir örnek o popülasyonun bir alt kümesidir. Bunu göstermek için, bir şirket tarafından yürütülen bir siyasi anketi ele alalım. Rastgele 1.200 seçmenle iletişime geçerler ve onlara oy tercihlerini sorarlar. Bu durumda örneklem, bu 1.200 kişiden elde edilen tercihler listesi olacaktır. Teknik olarak nüfus, kayıtlı tüm seçmenlerin tercih listesi olacaktır. Hem popülasyon hem de örneklemin bireylere değil, tercihlere atıfta bulunduğunu not etmek önemlidir.
Çoğu durumda, tüm popülasyondan veri toplamak mümkün değildir. Bunun yerine, popülasyonlar hakkında sonuçlar çıkarmak için örneklere güveniyoruz. Çıkarımsal istatistiklerin özü budur - popülasyonlar hakkında çıkarımlar yapmak için örnek verileri kullanmak. Şimdi temel tanımlara geçelim.
İlk olarak, bir parametre bir popülasyonu tanımlayan sayısal bir değerdir. Bir bütün olarak nüfus hakkında bilgi sağlar. Örneğin, anket örneğimizde parametre, belirli bir adaya oy vermek isteyen tüm kayıtlı seçmenlerin yüzdesi olacaktır.
İkincisi, istatistik, bir örneği tanımlayan sayısal bir değerdir. Örnek verilerden türetilen özellikleri veya ölçümleri temsil eder. Anket senaryomuza geri dönersek, örneklenen 1.200 seçmenin %38'i aday A'ya oy verme niyetini belirtirse, o zaman %38 bir istatistiktir, yani örneklemin tercihlerini temsil eder.
Genel olarak, tüm popülasyon için parametreleri elde etmek genellikle pratik olmadığından, yalnızca istatistiğe erişimimiz vardır. Bununla birlikte, genel popülasyon hakkında içgörü sağladıkları için nihai ilgimiz parametrelerde yatmaktadır. Anlayışımızı sağlamlaştırmak için birkaç örnek daha ele alalım.
Örnek 1: New York DMV'ye kayıtlı rastgele seçilmiş 50 aracın ortalama yaşı 8'dir. Burada nüfus, New York DMV'ye kayıtlı tüm araçların yaşları olacaktır. Bu durumda örneklem, rastgele seçilen 50 aracın yaşlarından oluşmaktadır. Parametre, kayıtlı tüm New York araçlarının ortalama yaşı olurken, istatistik rastgele seçilen 50 aracın ortalama yaşı olacaktır.
Örnek 2: 2018'de Amerika Birleşik Devletleri'ndeki medyan hane geliri 63.937 dolarken Chicago'da 70.760 dolardı. Bu senaryoda nüfus, 2018 yılında Amerika Birleşik Devletleri'ndeki tüm hanelerin gelirlerini ifade ederken, örneklem aynı yıl içinde Chicago'daki hanelerin gelirlerini temsil etmektedir. İlk değer olan 63.937$, popülasyonu tanımlayan bir parametre iken, ikinci değer olan 70.760$, örneklemi temsil eden bir istatistiktir.
Popülasyon ve örneklem ile parametreler ve istatistikler arasındaki farkı anlamak, istatistiksel analizde çok önemlidir. Öncelikle istatistiklere erişimimiz olsa da, popülasyonun tamamı hakkında daha geniş bir perspektif sağladıkları için amacımız parametreleri tahmin etmek ve tahmin etmektir.
Veri Türleri
Veri Türleri
Herkese merhaba! Bugün, iki temel türü içeren veri sınıflandırmasını tartışacağız: nicel ve kategorik veriler.
Nicel veriler, sayısal ölçümler veya sayımlardan oluşur. Sayısal olarak ölçülebilen veya ifade edilebilen verilerle ilgilenir. Nicel verilere örnek olarak Güney Amerika'daki kadınların boyları, İngiliz hastanelerindeki yeni doğan bebeklerin kiloları ve dünyanın her bir ülkesindeki işsiz insan sayısı verilebilir.
Öte yandan, nitel veriler olarak da bilinen kategorik veriler, etiketlerden veya tanımlayıcılardan oluşur. Kategorilere veya sınıflara ayrılabilen verileri içerir. Kategorik verilere örnek olarak kedilerin göz rengi, seçmenlerin siyasi parti üyeliği ve tüketiciler arasında tercih edilen meşrubat markaları verilebilir.
Bazen, özellikle sayı olarak göründüğünde, veri türünü belirlemek zor olabilir. Kategorik ve nicel verileri ayırt etmenin hızlı bir yolu, ortalamaları hesaplamak gibi sayısal işlemlerin mantıklı olup olmadığını değerlendirmektir. Veriler yalnızca etiketlenmişse ve anlamlı ölçümlere veya sayımlara karşılık gelmiyorsa, kategorik kabul edilmelidir. Örneğin, beyzbol formalarında giyilen numaralar herhangi bir niceliksel öneme sahip değildir ve kategorik veri olarak sınıflandırılmalıdır.
Kategorik veriler ayrıca iki türe ayrılabilir: sıralı ve nominal. Sıralı veriler, anlamlı bir sıralamaya sahip kategorileri kullanır. Tanıdık bir örnek, kesinlikle katılmıyorum, katılmıyorum, tarafsızım, katılıyorum ve kesinlikle katılıyorum gibi seçenekler sunan Likert ölçeğidir. Bu kategoriler doğal bir sırayla sıralanabilir. Buna karşın nominal veriler, anlamlı bir sıralamaya sahip olmayan kategorileri kullanır. Örnekler arasında siyasi ilişkiler, cinsiyet ve favori alkolsüz içecekler yer alır. Her ne kadar nominal verilere bir emir koyabilsek de, bu keyfi ve kişisel görüşe dayalı olacaktır.
Benzer şekilde, nicel veriler iki türe ayrılabilir: oran ve aralık. Oran verileri, anlamlı oranlar ve katlar sağlar. Gelir, kilo ve yaş gibi değişkenler bu kategoriye girer. Bir kişinin diğerinden iki kat daha yaşlı olduğunu veya birinin diğerinin yarısı kadar para kazandığını söylemek mantıklıdır. Öte yandan, aralık verileri oranları ve katları desteklemez. Sıcaklık ve takvim yılı gibi değişkenler, aralık verilerine örnektir. Bir sıcaklığın diğerinden iki kat daha sıcak olduğunu söylemek uygun olmaz çünkü ölçekte sıfır seçimi keyfidir ve ölçülen özelliğin yokluğunu göstermez.
Ölçüm seviyesini belirlemek için hızlı bir yaklaşım, ölçekte sıfırın hiçbir şeye veya hiçbir şeye karşılık gelip gelmediğini kontrol etmektir. Sıfır, özelliğin yokluğunu gösteriyorsa, bir oran ölçüm seviyesini gösterir. Örneğin, sıfır kilo, 0 dolar veya 0 yaşında kilo, para veya yaş olmadığını ima eder. Tersine, sıfır herhangi bir gerçek anlamda yokluğu göstermiyorsa, bir ölçüm aralığı seviyesini gösterir. Örneğin, sıfır derece Fahrenheit veya sıfır Santigrat derece, kendi ölçeklerinde yalnızca rastgele noktalardır.
Sınıflandırma ve ölçüm düzeyi alıştırması yapmak için birkaç örnek inceleyelim. Değişkenlerin niceliksel mi yoksa kategorik mi olduğunu belirleyeceğiz ve ölçüm düzeylerini belirleyeceğiz:
Bir bankada bekleme süreleri: Bu veriler sayılardan oluşur ve oranlar ve katlar hakkında konuşmak mantıklıdır. Bu nedenle, oran ölçüm düzeyindeki nicel verilerdir.
En İyi Yönetmen Oscar kazananlarının cinsiyetleri: Bu veriler kategoriktir ve sayılardan ziyade tanımlayıcıları temsil eder. Anlamlı bir şekilde sıralanamaz, dolayısıyla nominal düzeyde kategorik veridir.
New York Times en çok satanlar listesindeki kitapların adları: Bunlar ad olduğundan, veriler kategoriktir. Ayrıca, adlar doğal olarak birinci, ikinci, üçüncü en çok satanlar vb. olarak sıralanabilir ve sıralı verileri belirtir.
Empire State Binasına yıldırım düşme saatleri: Bu veri, yıldırım düşmeleri arasındaki sürenin ölçülmesini içerdiğinden nicelikseldir. Ancak, yıldırım çarpmalarının yokluğunu temsil eden sıfır noktası olmadığı için ölçüm aralığı seviyesinin altına düşer. Zaman aralıkları ölçülebilir ve karşılaştırılabilir, ancak sıfır, vuruş eksikliği anlamına gelmez.
Özetle, veri sınıflandırması, nicel ve kategorik veriler arasında ayrım yapmayı içerir. Nicel veriler sayısal ölçümlerden veya sayılardan oluşurken, kategorik veriler etiketlerden veya tanımlayıcılardan oluşur. Veri türünü belirlemek için sayısal işlemlerin ve anlamlı oranların geçerli olup olmadığını dikkate almak önemlidir.
Kategorik veriler ayrıca, kategoriler arasında anlamlı bir sıralama olup olmadığına bağlı olarak sıralı veya nominal olarak kategorize edilebilir. Sıralı verilerin doğal bir sıralaması vardır, nominal verilerin ise yoktur. Benzer şekilde nicel veriler, anlamlı oranların ve katların bulunup bulunmadığına göre oran veya aralık olarak sınıflandırılabilir. Oran verileri, oranlara ve katlara izin verirken, aralık verileri izin vermez.
Ölçüm düzeyini anlamak, uygun istatistiksel analizleri seçmek ve verileri doğru şekilde yorumlamak için çok önemlidir. Ölçüm düzeyi, veriler üzerinde yapılabilecek matematiksel işlemleri ve sıfırın ölçekteki anlamını belirler.
İstatistikçiler ve araştırmacılar, verileri doğru bir şekilde sınıflandırarak ve ölçüm düzeyini belirleyerek uygun istatistiksel teknikleri seçebilir ve analizlerinden anlamlı içgörüler elde edebilirler.