記事「ニューラルネットワークが簡単に(第17部):次元削減」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第17部):次元削減」はパブリッシュされました:

今回は、人工知能モデルについて引き続き説明します。具体的には、教師なし学習アルゴリズムについて学びます。クラスタリングアルゴリズムの1つについては既に説明しました。今回は、次元削減に関連する問題を解決する方法のバリエーションを紹介します。

主成分分析は、1901年にイギリスの数学者カール・ピアソンによって発明され、それ以来、多くの科学分野で成功裏に使用されてきました。

この手法の本質を理解するために、2次元データ配列の次元をベクトルに縮小することに関連する単純化されたタスクを使用することを提案します。幾何学的な観点から、これは平面の点の直線への投影として表すことができます。

下の図では、初期データは青い点で表されています。橙色と灰色の線上に2つの投影があり、対応する色の点があります。ご覧のとおり、最初の点から橙色の投影までの平均距離は、灰色の投影までの同様の距離よりも短くなっています。灰色の投影には、点の投影が重なっています。したがって、橙色の投影法は、すべての個々のポイントを分離し、次元(ポイントから投影までの距離)を縮小するときに失われるデータが少ないため、より好ましくなります。

このような線は主成分と呼ばれます。そのため、この方法は主成分分析と呼ばれます。

数学的な観点からは、各主成分は、サイズが元のデータの次元に等しい数値ベクトルです。1つのシステム状態を表す元のデータのベクトルと対応する主成分のベクトルの積は、分析された状態の投影点を直線上に生成します。

元のデータ次元と次元削減の要件によっては、複数の主成分が存在する場合がありますが、元のデータ次元を超えるものは存在しません。ボリュームの投影をレンダリングする場合、それらは3つになります。データを圧縮する場合、許容誤差は通常、データの最大1%の損失です。

主成分法

これは視覚的には線形回帰に似ていますが、これらはまったく異なる方法であり、異なる結果をもたらします。

作者: Dmitriy Gizlyk