Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl) - Seite 10

 

Das ist eine andere Art von Abhängigkeit.

Wie hängt "a" von "b" außerhalb eines Textes ab? Das ist nicht der Fall, d.h. man kann kein "a" von anderen Zeichen erhalten.

Was ist mit der Abhängigkeit von, sagen wir, 1, 2, 3, 4, 5, 6? Offensichtlich ist es kein sehr geeignetes Set für das Alphabet, egal wie man es bezeichnet.

Ist das nicht richtig?

 
TheXpert:

Das ist eine andere Art von Abhängigkeit.

Wie hängt "a" von "b" außerhalb eines Textes ab? Das ist nicht der Fall, d.h. man kann kein "a" von anderen Zeichen erhalten.

Was ist mit der Abhängigkeit von, sagen wir, 1, 2, 3, 4, 5, 6? Offensichtlich ist es kein sehr geeignetes Set für das Alphabet, egal wie man es bezeichnet.

Ist es nicht so?

Warum nicht? Das hexadezimale Zahlensystem. Es ist ein normales Alphabet - so gut wie binär :)

Und die russischen Buchstaben Y, Y, Y können von anderen Buchstaben abgeleitet werden.

 
Avals:

Und die russischen Buchstaben yu, ya, yo können von anderen Buchstaben abgeleitet werden.

Keine Buchstaben, sondern Töne :)

Oder ist es wie in diesem Witz? "Was für eine einfache russische Sprache - das Wort "yosh" wird mit zwei Buchstaben geschrieben!"

 
TheXpert:

Keine Buchstaben, sondern Töne :)

Oder ist es wie in diesem Witz? "Was für eine einfache russische Sprache - das Wort "yosh" wird mit zwei Buchstaben geschrieben!"

also, nicht meckern))). Auch in anderen Sprachen gibt es Beispiele, bei denen ein Zeichen durch mehrere ersetzt wird, d. h. ein Zeichen kann von den anderen abgeleitet werden. Ich verstehe nur das Prinzip nicht ganz. Und überhaupt, wie stellt man fest, ob es das richtige Alphabet ist oder nicht?
 

Ich bin auch ein bisschen verwirrt, aber irgendetwas sagt mir, dass HideYourRichess Recht hat.

Der Vergleich mit einem Zahlensystem ist wahrscheinlich nicht ganz richtig. Eine Zahl kann durch eine einzige Zahl dargestellt werden, während Anführungszeichen viele Darstellungen haben, d. h. ein Symbol kann durch eine riesige (genauer gesagt: unendliche) Anzahl von Varianten über andere Symbole ausgedrückt werden, z. B.

a == tsdrmiikepi == fsrpl == mflncp == javlporpor == fwlfrmilfpf == .

Das ist nicht richtig, finde ich.

 

Meine Herren, ich habe einen Artikel von deutschen Forschern gesehen, der genau zu diesem Thema passt. Ich werde sie veröffentlichen, wenn ich sie finde. Das heißt, ich schlage nichts Neues vor, alles ist seit mindestens 10 Jahren untersucht worden.

Es gibt einen Forscher namens Battiti (Sie können den Artikel mit den Worten Mutual Information Feature Selection suchen). Er ist der Vater der Methodik der Variablenauswahl mit Hilfe der gegenseitigen Information. Ein Kollege arbeitet mit verschiedenen Quellen von experimentellen Daten, insbesondere mit Daten über die Sonnenaktivität (die im Allgemeinen eine beliebte Quelle für Werte ist). Und die Ergebnisse bestätigen die Nützlichkeit der I(X,Y)-Statistik für die Prognose. Ich werde nachlesen müssen, wie dort Zufallswerte diskretisiert und ein Alphabet erstellt wird. Niemand scheint sich bisher so sehr mit der Theorie auseinandergesetzt zu haben (wie die einheimischen Oldtimer).

 

Was hat das Zahlensystem damit zu tun, TheXpert? Ich verstehe nicht, warum sich das Gespräch auf Zahlensysteme konzentriert.

Ehrlich gesagt, sehe ich keine der Argumente von HideYourRichess, die in irgendeiner Weise die Anwendung von TI auf Zitate beeinträchtigen.

 
Mathemat:

Was hat das Zahlensystem damit zu tun, TheXpert? Ich verstehe nicht, warum sich die Diskussion auf Zahlensysteme verlagert hat.

Das ist keine Meinungsäußerung, sondern nur eine Frage der Meinung. Was ist falsch an Zahlen als Alphabet?

Ehrlich gesagt, sehe ich keine der Argumente von HideYourRichess, die in irgendeiner Weise die Anwendung von TI auf Zitate beeinträchtigen.

Alphabetische Auswahl.

______

Taki Ich würde es wahrscheinlich lieber lesen.

 
TheXpert:

Ich bin auch ein bisschen verwirrt, aber irgendetwas sagt mir, dass HideYourRichess Recht hat.

Der Vergleich mit einem Zahlensystem ist wahrscheinlich nicht ganz richtig. Eine Zahl wird durch eine einzige Zahl dargestellt, während Anführungszeichen durch viele Varianten dargestellt werden, d. h. ein Symbol kann durch eine riesige (genauer gesagt unendliche) Anzahl von Varianten über andere Symbole ausgedrückt werden, z. B.

a == tsdrmiikepi == fsrpl == mflncp == yawlporpor == fwlfrmilfpf == .

Nicht gut, finde ich.


Schreiben Sie das Wort "Störung" in verschiedenen Sprachen und es gilt dasselbe :) und sogar das gleiche Alphabet kann Beispiele für Synonyme oder veraltete Wörter liefern

s.w. Eine Zahl kann auch auf unendlich viele Arten dargestellt werden, je nach dem Kalkül, das in Wirklichkeit ein Alphabet ist.

Das Alphabet ist eine fiktive Sache - vom Menschen erfunden, um eine große Anzahl von Objekten und Phänomenen mit einer kleineren Anzahl von Zeichen aufzulisten. Natürlich müssen die Zeichen eine diskrete Menge sein. Es gibt keine weiteren strengen Anforderungen dafür - es ist eine Frage der Benutzerfreundlichkeit.

 
Mathemat:

Mathematik:

HideYourRichess, wenn Sie glauben, dass die ganze Sache mit der Bernoulli-Reihe oder dem Gesetz der großen Zahlen zu tun hat, liegen Sie völlig falsch.

Ich denke es nicht, ich weiß es ganz genau.

Das sind fünf! Ich will zwei!
HideYourRichess: Verstehen Sie nicht, dass es sich hier um eine Abfolge von unabhängigen Ereignissen handelt?

Von welchen unabhängigen Veranstaltungen sprechen Sie? Über eine Folge von alphabetischen Zeichen aus der Quelle? Nein, sie sind nicht unbedingt unabhängig, das wurde Ihnen bereits erklärt. Ein gewöhnlicher russischer literarischer Text ist eine Folge von abhängigen Buchstaben. Wären sie unabhängig, würden literarische Texte vom Archivar viel schlechter komprimiert werden, als sie es tatsächlich sind. Nehmen Sie einen literarischen Text, mischen Sie ihn und vergleichen Sie die Ergebnisse der Archivierung des Originals und des gemischten Textes.

Oder glauben Sie, dass Quellen- und Empfänger-Ensembles unabhängige Variablen sind?

Der Begriff der Informationsentropie wurde von Shannon für unabhängige Zeichen eingeführt. Wenn Sie mir nicht glauben, konsultieren Sie ein akademisches Wörterbuch. Ich werde mich nicht mehr mit Ihnen über dieses Thema streiten. Man kann die Informationsentropie für den Markt nicht berechnen, da man das Alphabet nicht kennt, die Häufigkeit der Symbole nicht kennt und auch die Unabhängigkeit der Symbole nicht bekannt ist (wir wissen aber, dass die Handlungen der Marktteilnehmer sehr abhängig sind).

Die nächste Frage, die bedingte Entropie, betrifft nur den Fall, dass es Abhängigkeiten zwischen den Zeichen des ursprünglichen Alphabets gibt. Diese Sache ist nicht dasselbe wie die Informationsentropie, über die wir gesprochen haben.

Ich verstehe nicht, welche Schlussfolgerungen Sie aus dem Beispiel mit dem Archivierungsprogramm ziehen, aber ich möchte Folgendes sagen. Die Aufgabe des Archivars besteht darin, die bedingte Entropie in Informationsentropie umzuwandeln. Das heißt, ein perfekt definiertes, begrenztes Alphabet zu schaffen, dessen Zeichen in der resultierenden Folge so unabhängig wie möglich sind. Wenn man die geordnete Struktur eines literarischen Textes auf der Buchstabenebene durcheinanderbringt, werden diese Buchstabenfolgen natürlich unterbrochen und die Komprimierung verschlechtert sich. Das geht so weit, dass eine völlig zufällige Menge von Buchstaben nicht mehr komprimiert werden kann. Na und? Was hat das damit zu tun?