Diskussion zum Artikel "Quantisierung beim maschinellen Lernen (Teil 2): Datenvorverarbeitung, Tabellenauswahl, Training von CatBoost-Modellen"

 

Neuer Artikel Quantisierung beim maschinellen Lernen (Teil 2): Datenvorverarbeitung, Tabellenauswahl, Training von CatBoost-Modellen :

Der Artikel befasst sich mit der praktischen Anwendung der Quantisierung bei der Konstruktion von Baummodellen. Die Methoden zur Auswahl von Quantentabellen und zur Datenvorverarbeitung werden berücksichtigt. Es werden keine komplexen mathematischen Gleichungen verwendet.

Betrachten wir die Methoden der Datenvorverarbeitung, die ich am Beispiel der Beschreibung der Funktionsweise des Skripts Q_Error_Selection implementiert habe.

Kurz gesagt besteht das Ziel des Skripts „Q_Error_Selection“ darin, eine Stichprobe aus der Datei „train.csv“ zu laden, den Inhalt in die Matrix zu übertragen, die Daten vorzuverarbeiten, abwechselnd Quantentabellen zu laden und den Fehler der wiederhergestellten Daten im Vergleich zu den ursprünglichen Daten für jeden Prädiktor zu bewerten. Die Bewertungsergebnisse jeder Quantentabelle sind in dem Array zu speichern. Nach der Prüfung aller Optionen erstellen wir eine zusammenfassende Tabelle mit Fehlern für jeden Prädiktor und wählen die besten Optionen für Quantentabellen für jeden Prädiktor nach einem bestimmten Kriterium aus. Erstellen und speichern wir eine zusammenfassende Quantentabelle, eine Datei mit CatBoost-Einstellungen, in die Prädiktoren, die aus der Liste für das Training ausgeschlossen wurden, mit den Seriennummern ihrer Spalten aufgenommen werden. Außerdem werden je nach den gewählten Skripteinstellungen Begleitdateien erstellt.

Autor: Aleksey Vyazmikin