Alıntılardaki bağımlılık istatistikleri (bilgi teorisi, korelasyon ve diğer özellik seçim yöntemleri) - sayfa 10

 

Başka bir bağımlılık hakkında konuşun.

"a", herhangi bir metnin dışında "b" ye nasıl bağlıdır? Hiçbir şekilde, yani. Diğer karakterlerden "a" alamazsınız.

Ve 1, 2, 3, 4, 5, 6'nın bağlı olduğunu nasıl söyleyebiliriz? Açıkçası, bu, nasıl atadığınız önemli değil, alfabe için çok uygun bir dizi değil.

Değil mi?

 
TheXpert :

Başka bir bağımlılık hakkında konuşun.

"a", herhangi bir metnin dışında "b" ye nasıl bağlıdır? Hiçbir şekilde, yani. Diğer karakterlerden "a" alamazsınız.

Ve 1, 2, 3, 4, 5, 6'nın bağlı olduğunu nasıl söyleyebiliriz? Açıkçası, bu, nasıl atadığınız önemli değil, alfabe için çok uygun bir dizi değil.

Değil mi?

neden uygun değil? Onaltılık hesap. Normal alfabe ikili olandan daha kötü değil :)

Ve Rus harfleri u, i, ё diğer harflerden elde edilebilir.

 
Avals :

Ve Rus harfleri u, i, ё diğer harflerden elde edilebilir.

Harfler değil, sesler :)

Yoksa o şakadaki gibi mi? "Ne kadar basit bir Rus ezyg - slofa" yosh "pishitsa f iki harf!"

 
TheXpert :

Harfler değil, sesler :)

Yoksa o şakadaki gibi mi? "Ne kadar basit bir Rus ezyg - slofa" yosh "pishitsa f iki harf!"

peki, işeme))). Birkaç karakterin bir karakterle değiştirildiği diğer dillerde de örnekler vardır, yani. bir karakter diğerlerinden türetilebilir. Sadece önemini tam olarak anlamadım. Ve genel olarak, uygun alfabenin nasıl belirlenip belirlenmediği
 

Ben de biraz kafam karıştı ama bir şey bana HideYourRichess'in haklı olduğunu söylüyor .

Sayı sistemi ile karşılaştırma muhtemelen tamamen doğru değildir. Bir sayı benzersiz bir şekilde temsil edilebilir ve tırnak işaretleri için birçok temsil vardır, yani. bir sembolün diğer semboller aracılığıyla çok sayıda (sonsuz daha kesin olarak) varyantlarda ifade edilebileceği ortaya çıktı, yani.

a == cdrmiykepi == fsrpl == mflncp == yavlporpfpor == fvylfrmilfpf == ...

Bu bir karışıklık, IMHO.

 

Beyler, konunun anahtarında Alman araştırmacıların bir makalesini gördüm. Onu bulup yayınlayacağım. Yani, yeni bir şey sunmuyorum, her şey en az 10 yıldır incelenmiştir.

Böyle bir araştırmacı Battiti var (Karşılıklı Bilgi Özellik Seçimi kelimelerini kullanarak makaleyi arayabilirsiniz). Karşılıklı bilgi değişken seçim tekniğinin babasıdır. Orada bir arkadaş, çeşitli deneysel veri kaynaklarıyla, özellikle güneş aktivitesiyle ilgili verilerle çalışır (bu genellikle popüler bir değer kaynağıdır). Ve çalışmanın sonuçları, tahmin için I (X,Y) istatistiklerinin faydalarını doğrulamaktadır. Rastgele değerleri nasıl ayrıklaştırdığını ve bir alfabe oluşturduğunu okumak gerekir. Görünüşe göre hiç kimse teoriyle ilgilenmedi (yerel eski zamanlayıcılar gibi).

 

Ve sayı sisteminin, TheXpert'in bununla ne ilgisi var? Konuşmanın neden sayı sistemlerine dönüştüğünü anlamıyorum.

Chesslovo, peki, TI'nin alıntılara uygulanmasına herhangi bir şekilde müdahale edecek tek bir HideYourRichess argümanı görmüyorum.

 
Mathemat :

Ve sayı sisteminin, TheXpert'in bununla ne ilgisi var? Konuşmanın neden sayı sistemlerine dönüştüğünü anlamıyorum.

Evet, yayılmadı, ama bu arada. Rakamlar neden alfabe değil?

Chesslovo, peki, TI'nin alıntılara uygulanmasına herhangi bir şekilde müdahale edecek tek bir HideYourRichess argümanı görmüyorum.

Alfabe seçimi.

______

Bu yüzden muhtemelen daha iyi okurdum.

 
TheXpert :

Benim de biraz kafam karıştı ama içimden bir ses HideYourRichess'in haklı olduğunu söylüyor.

Sayı sistemi ile karşılaştırma muhtemelen tamamen doğru değildir. Bir sayı benzersiz bir şekilde temsil edilebilir ve tırnak işaretleri için birçok temsil vardır, yani. bir sembolün diğer semboller aracılığıyla çok sayıda (sonsuz daha kesin olarak) varyantlarda ifade edilebileceği ortaya çıktı, yani.

a == cdrmiykepi == fsrpl == mflncp == yavlporpfpor == fvylfrmilfpf == ...

Bu bir karışıklık, IMHO.


farklı dillerde "Disorder" kelimesini yazarsanız eşitlik de olur :) ve aynı alfabede bile eş anlamlı veya eskimiş kelimelere örnekler verebilirsiniz

ps bir sayı, aslında alfabe olan kalkülüse bağlı olarak sonsuz sayıda şekilde temsil edilebilir.

Alfabe koşullu bir şeydir - bir kişi tarafından çok sayıda nesneyi, daha az sayıda karaktere sahip fenomenleri listelemek için icat edilmiştir. Tabii ki, karakterler d.b. ayrık küme. Bunun için başka katı gereklilikler yoktur - kullanıcılar için bir kolaylık meselesi

 
Mathemat :

matematik :

HideYourRichess , tüm terverin Bernoulli serisine veya büyük sayılar yasasına dayandığını düşünüyorsanız, çok yanılıyorsunuz.

Kesin olarak bildiğimi sanmıyorum.

Bu beş! iki tane istiyorum!
HideYourRichess : Bunun bir dizi bağımsız olayla ilgili olduğunu anlamıyor musunuz?

Hangi bağımsız olaylardan bahsediyorsunuz? Kaynaktan bir dizi alfabe karakteri hakkında mı? Hayır, mutlaka bağımsız değiller, bunu zaten açıkladınız. Sıradan bir Rus dili edebi metni, bir dizi bağımlı harftir. Bağımsız olsaydılar, edebi metinler arşivleyici tarafından gerçekte olduğundan çok daha kötü sıkıştırılırdı. Bazı edebi metinleri alın ve karıştırın ve orijinal ve karışık arşivlemenin sonuçlarını karşılaştırın.

Yoksa kaynak ve hedef toplulukların bağımsız değişkenler olduğunu mu düşünüyorsunuz?

Bilgi entropisi kavramı, bağımsız semboller için Shannon tarafından tanıtıldı. Bana inanmıyorsanız, akademik sözlüğe bakın. Bu konu hakkında seninle daha fazla tartışmayacağım. Piyasa için bilgi entropisini hesaplayamazsınız çünkü alfabeyi bilmiyorsunuz, sembollerin sıklığını bilmiyorsunuz, sembollerin bağımsızlığı da bilinmiyor (ancak piyasa katılımcılarının eylemlerinin çok bağımlı olduğu biliniyor).

Bir sonraki soru, koşullu entropi, orijinal alfabenin karakterleri arasında bağımlılıklar olduğunda tam olarak durumdur. Bu, tartışılan bilgi entropisi ile aynı şey değil.

Arşivleyici örneğinin sizi hangi sonuçlara götürdüğünü anlamıyorum ama şunu söyleyeceğim. Arşivleyicinin görevi, koşullu entropiyi bilgi olana çevirmektir. Onlar. Karakterlerin elde edilen dizide mümkün olduğunca bağımsız olacağı mükemmel bir şekilde tanımlanmış sınırlı bir alfabe oluşturun. Edebi metnin sıralı yapısını harf düzeyinde karıştırırsanız, elbette bu harf dizileri bozulacak ve sıkıştırma kötüleşecektir. Tamamen rastgele bir harf kümesinin artık sıkıştırılamayacağı noktaya kadar. Ne olmuş? Peki ya çarşı?