機械学習とニューラルネットワーク - ページ 62

 

二項分布とポアソン分布



二項分布とポアソン分布

Serrano のビデオは、二項分布とポアソン分布に焦点を当てています。彼は、問題のシナリオを提示することから始めます。店舗を経営し、時間の経過とともに入店する人の数を観察することを想像してください。実際の数には変動があるものの、平均すると 1 時間に 3 人が入店します。セラーノ氏は、来店する顧客の発生はランダムであり、1 日を通して特定のパターンはないように見えることを強調しています。

このビデオで扱われている主な質問は次のとおりです。この情報が与えられた場合、次の 1 時間に 5 人が店に入店する確率はどれくらいですか? Serrano は、答えが 0.1008 であることを明らかにしましたが、ポアソン分布を使用してこの確率がどのように計算されるかを説明します。

ポアソン分布を詳しく調べる前に、セラーノは二項分布として知られるより単純な確率分布を導入しました。この概念を説明するために、彼は偏ったコインを複数回投げることのたとえを使用します。コインが表になる確率が 30%、裏が出る確率が 70% であると仮定して、セラーノはコインを 10 回投げる実験を行います。彼は、得られる表の平均数が、表の確率とフリップ回数の積 (0.3 * 10 = 3) である期待値に収束することを実証しました。

次に、セラーノはコインを 10 回投げたときに異なる表の数が得られる確率を調べます。彼は、表が 0、表が 1、表が 2 など、最大 10 個の結果が 11 通りあると説明します。次に、セラーノは各結果の確率を計算し、3 つの表が得られたときに最も高い確率が発生することを強調しました。彼は、横軸に表の数、縦軸に対応する確率を使用して、二項分布を表すヒストグラムを作成します。

これらの確率を計算するために、セラーノはプロセスを分解します。たとえば、表がゼロになる確率を決定するには、各フリップが裏になる必要があり、その確率は 0.7 であると彼は指摘します。フリップは独立したイベントであるため、この確率を 10 回乗算すると、確率は 0.02825 になります。

セラーノ氏は続けて、表が 1 つ出る確率の計算について説明します。彼はまず、最初のフリップだけが表になる (確率 0.3) 一方で、残りのフリップは裏になる (それぞれの確率 0.7) というシナリオを考えます。これにより、確率は 0.321 になります。ただし、これは可能性の 1 つにすぎないため、セラーノ氏は、1 回のフリップで表が得られ、残りのフリップで裏が得られる 10 通りの方法を特定しました。彼は、これらのイベントは相互に排他的であるため、確率が加算されると指摘しています。したがって、1 つの表が発生する確率は 10 * 0.3 * 0.7^9 = 0.12106 となります。

Serrano はこのプロセスを 2 つの表について継続し、最初の 2 つのフリップで表が得られる確率を計算します (0.3^2 * 0.7^8 = 0.00519)。次に、10 回のフリップで 2 つの表を得る方法は 45 通りあると判断します (10 人が 2 つを選択)。これに各シナリオで 2 つの表が出る確率を乗算することで、2 つの表が出る全体の確率、45 * 0.3^2 * 0.7^8 = 0.12106 が得られます。

Serrano は、さまざまな表の数に対して同様の計算を使用して、各結果の確率を提供します。ヒストグラム上にプロットすると、これらの確率は二項分布を形成します。彼は、フリップの数が無限に近づくと、中心極限定理により二項分布が正規分布に近づく傾向があると説明しています。ただし、このトピックについては今後のビデオで取り上げる予定であると彼は述べています。

ポアソン分布に移り、セラーノは、一定の時間または空間内で発生するイベントの数がまれでランダムである状況向けに、二項分布の代替としてポアソン分布の概念を導入しました。彼は、ポアソン分布は、平均発生率はわかっているが、正確な発生数が不明な場合に特に有用であると説明しています。

ポアソン分布の適用を説明するために、セラーノ氏は店舗に入る人々の例を再度取り上げます。同氏は、平均すると1時間に3人が入店することを強調する。ただし、特定の時間に実際に入場する人の数は大きく異なる場合があります。

次に、セラーノは次の質問を投げかけます。1 時間あたりの平均入店率が 3 人とすると、次の 1 時間でちょうど 5 人が店に入店する確率はどのくらいですか?ポアソン分布を使用してこの確率を計算するには、次の式を使用します。

P(X = k) = (e^(-λ) * λ^k) / k!

ここで、P(X = k) は正確に k 回発生する確率を表し、e は自然対数の底、λ は平均発生率、k は望ましい発生数です。

式を適用して、セラーノは λ = 3 (1 時間あたり 3 人の平均割合) と k = 5 (必要な発生回数) の値を代入します。彼は、e^(-3) は出現がゼロになる確率を表すと説明しています (e^(-3) ≈ 0.0498)。これに λ^k を掛けて、k で割ります。 (5 の階乗)、次の 1 時間にちょうど 5 人が店に入店する確率は 0.1008 になります。

Serrano 氏は、平均発生率が比較的高く、必要な発生数が比較的まれな場合には、ポアソン分布がより正確な近似を提供することを強調しています。平均レートが増加するか、または必要な数がより一般的になるにつれて、ポアソン分布の精度が低下し、代替の分布の方が適切になる場合があります。

要約すると、Serrano のビデオでは二項分布とポアソン分布の概念について説明しています。彼はまず、偏ったコインを複数回投げることのアナロジーを通じて二項分布を導入します。彼は、異なる数の頭が得られる確率を計算し、二項分布を表すヒストグラムを作成します。

ポアソン分布に移行して、セラーノ氏は、人々が店舗に入るなど、まれでランダムな出来事が発生するシナリオでの応用について説明します。ポアソン分布の公式を使用して、平均率を考慮して特定の数の発生の確率を計算します。この例では、平均して 1 時間あたり 3 人の割合で 1 時間にちょうど 5 人が店に入店する確率を求めます。

これらの確率分布とその計算を説明することで、セラーノは視聴者にランダム現象の根底にある原理とそれに関連する確率についてのより深い理解を提供します。

The Binomial and Poisson Distributions
The Binomial and Poisson Distributions
  • 2022.11.08
  • www.youtube.com
If on average, 3 people enter a store every hour, what is the probability that over the next hour, 5 people will enter the store? The answer lies in the Pois...
 

混合ガウスモデル



混合ガウスモデル

こんにちは、私は Luis Serrano です。このビデオでは、ガウス混合モデル (GMM) とクラスタリングにおけるその応用について説明します。 GMM は、データをクラスタリングするための強力で広く使用されているモデルです。

クラスタリングは、音声分類などのさまざまなアプリケーションで一般的なタスクです。GMM を使用すると、曲内の楽器や、音声アシスタントと対話する際の背景ノイズから自分の声を分離するなど、さまざまなサウンドを区別できます。 GMM は文書の分類にも役立ち、スポーツ、科学、政治などのトピックごとに文書を分離できます。もう 1 つのアプリケーションは画像セグメンテーションです。GMM は、自動運転車から見える画像内で歩行者、道路標識、その他の車両を分離するのに役立ちます。

クラスタリングでは、クラスタ化されているように見えるデータ ポイントをグループ化することを目的としています。従来のクラスタリング アルゴリズムは、各ポイントを単一のクラスターに割り当てます。ただし、GMM ではソフト クラスタリングの概念が導入されており、ポイントは同時に複数のクラスタに属することができます。これは、各クラスターに属するポイントの確率またはパーセンテージを割り当てることによって実現されます。

GMM アルゴリズムは 2 つの主要なステップで構成されます。最初のステップでは、ガウス分布との関連に基づいて点を色付けします。各点には、さまざまなガウス分布への近さに基づいて色が割り当てられます。このステップでは、ソフト クラスターの割り当てを決定します。

2 番目のステップは、ポイントを指定してガウス パラメーターを推定することです。このアルゴリズムは、割り当てられた点に最もよく適合する各ガウスの平均、分散、および共分散を見つけます。このステップには、データ分布の形状と方向に関する情報を提供する質量中心、分散、および共分散の計算が含まれます。

GMM アルゴリズムは、収束が達成されるまでこれら 2 つのステップを繰り返し、ガウス パラメーターとソフト クラスターの割り当てを更新します。初期ガウスはランダムに選択でき、割り当てやパラメーターにほとんど変化がなくなるまでアルゴリズムが続行されます。

GMM を使用すると、交差するクラスターを含む複雑なデータセット、またはポイントが複数のクラスターに属する複雑なデータセットを効果的にクラスター化できます。 GMM は、クラスタリングに対する柔軟で確率的なアプローチを提供し、さまざまな分野で貴重なツールとなっています。

GMM のより詳細な説明と例については、私のチャンネルのビデオをチェックしてください。そこでは、アルゴリズムの数学と実装について詳しく説明しています。ビデオへのリンクはコメントセクションにあります。

アルゴリズムは、変化が無視できる程度になる収束点に到達するまで、ステップ 1 と 2 の間を繰り返し続けます。各反復では、現在のガウス分布のセットに基づいて点の色が更新され、色付きの点に基づいて新しいガウス分布が作成されます。

アルゴリズムが進行するにつれて、ガウス分布は徐々にデータに適応し、基礎となるクラスターを捕捉します。ガウス分布は、特定のクラスターに属するデータ ポイントの確率分布を表します。このアルゴリズムは、ガウス混合モデルを考慮して、観測データの尤度を最大化しようとします。

混合ガウス モデル アルゴリズムの最終結果は、データ内のクラスターを表す一連のガウス分布です。各ガウス分布は特定のクラスターに関連付けられており、その平均、分散、共分散に関する情報を提供します。ガウス分布のパラメーターを分析することで、データ内に存在するクラスターの構造と特性についての洞察を得ることができます。

混合ガウス モデル アルゴリズムは、データ ポイントが同時に複数のクラスターに属することができるソフト クラスタリングのための強力なツールです。重複するクラスターや非線形分離可能なパターンを含む複雑なデータセットを処理できます。これにより、画像セグメンテーション、文書分類、音声分類などのさまざまな領域に適用できるようになります。

ガウス混合モデル アルゴリズムは、現在のガウスに基づいてポイントを色付けすることと、色付きのポイントに基づいてガウスを更新することを交互に行う反復プロセスです。これは、ガウス分布がデータ内の基礎となるクラスターを正確に表すソリューションに収束し、効果的なクラスタリングと分析が可能になります。

Gaussian Mixture Models
Gaussian Mixture Models
  • 2020.12.28
  • www.youtube.com
Covariance matrix video: https://youtu.be/WBlnwvjfMtQClustering video: https://youtu.be/QXOkPvFM6NUA friendly description of Gaussian mixture models, a very ...
 

クラスタリング: K 平均法と階層型



クラスタリング: K 平均法と階層型

こんにちは、ルイス・セラーノです。このビデオでは、K-means クラスタリングと階層クラスタリングという 2 つの重要なクラスタリング アルゴリズムについて学びます。クラスタリングは、類似性に基づいてデータをグループ化する教師なし学習手法です。これらのアルゴリズムをマーケティング アプリケーション、特に顧客のセグメント化に適用します。

私たちの目標は、顧客ベースを 3 つの異なるグループに分けることです。私たちは顧客の年齢と特定のページへのエンゲージメントに関するデータを持っています。このデータをプロットすると、3 つのクラスターまたはグループを視覚的に識別できます。最初のグループは、エンゲージメントが低い (週に 2 ~ 4 日) 20 代の人々で構成されます。 2 番目のグループは、エンゲージメントの高い 30 代後半から 40 代前半の個人で構成されます。 3 番目のグループには、エンゲージメントが非常に低い 50 代の人々が含まれています。

ここで、k-means クラスタリング アルゴリズムを詳しく見てみましょう。私たちがピザ パーラーのオーナーで、市内にある 3 つのピザ パーラーの最適な場所を決定しようとしていると想像してください。私たちは顧客に効率的にサービスを提供したいと考えています。まず、ランダムに 3 つの場所を選択し、各場所にピザ パーラーを配置します。お客様の所在地に基づいて、最も近いピザ パーラーを割り当てます。

次に、各ピザ パーラーを、サービスを提供する家の中心に移動します。このステップにより、その場所が周囲の顧客にサービスを提供するのに最適であることが保証されます。アルゴリズムが収束してクラスターが安定するまで、顧客を最寄りのピザ パーラーに割り当て、パーラーをセンターに移動するプロセスを繰り返します。

クラスターの数を決定するのは困難な場合があります。これに対処するには、エルボ法を使用できます。各クラスタリングの直径を計算します。これは、同じ色の 2 点間の最大距離を表します。クラスターの数を直径に対してプロットすることにより、改善があまり重要でなくなる「エルボ」ポイントを特定できます。このエルボ ポイントは、クラスターの最適な数 (この場合は 3 つ) を示します。

さて、階層的クラスタリングに移りましょう。ここでも、データセット内でクラスターを見つけることを目的としています。まず、最も近い 2 つの点を検討し、それらをグループ化します。次に、距離のしきい値に基づいて停止を決定するまで、次に近いペアを繰り返しマージします。この方法により、クラスターを表す樹状構造である樹状図が作成されます。

距離のしきい値やクラスターの数の決定は主観的なものになる可能性があります。ただし、別のアプローチとして「追加およびドロップ」方法があります。樹形図内の点のペア間の距離をプロットし、曲線の高さを調べます。高さを分析することで、距離のしきい値やクラスターの数について知識に基づいた決定を下すことができます。

K 平均法クラスタリングと階層クラスタリングは、類似性に基づいてデータをグループ化するための貴重なアルゴリズムです。 K 平均法クラスタリングでは、重心を反復的に移動してクラスタの割り当てを最適化しますが、階層クラスタリングではクラスタを表す樹状図を構築します。エルボー法と追加およびドロップ法を使用して、最適なクラスター数または距離しきい値を決定できます。

Clustering: K-means and Hierarchical
Clustering: K-means and Hierarchical
  • 2019.01.27
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA friendly description of K-means clustering ...
 

主成分分析 (PCA)



主成分分析 (PCA)

このビデオでは、次元削減手法である主成分分析 (PCA) について学びます。 PCA は、できる限り多くの情報を保持しながら、大規模なデータセット内の列の数を減らすために使用されます。データを低次元空間に投影することで、データセットを簡素化できます。このビデオでは、モード投影、分散共分散行列、固有値と固有ベクトル、そして最後に PCA といういくつかのステップを説明します。

この概念を理解するために、友人のグループの写真を撮る問題を考えてみましょう。写真を撮るのに最適な角度を決定する必要があります。同様に、次元削減では、次元数を削減しながらデータの本質を捉えたいと考えます。これは、点の広がりを最大化する理想的な線にデータを投影することで実現できます。さまざまな投影法を比較し、どちらの投影法がポイント間をより適切に分離できるかを判断します。

次元削減は、処理が難しい多数の列を含む大規模なデータセットがあるシナリオでは非常に重要です。たとえば、住宅データセットには、広さ、部屋の数、バスルーム、学校への近さ、犯罪率などの複数の特徴がある場合があります。ディメンションを削減することで、サイズ、部屋数、バスルームを 1 つのサイズ フィーチャに組み合わせるなど、関連するフィーチャを 1 つのフィーチャに結合できます。これにより、データセットが簡素化され、重要な情報が取得されます。

2 つの列 (部屋の数とサイズ) から 1 つの列に変更する例に焦点を当ててみましょう。データの変動を 1 つの特徴で捉えたいと考えています。点の広がりを最もよく表す線にデータを投影することで、データセットを 2 次元から 1 次元に単純化できます。このプロセスを拡張して次元を 5 次元から 2 次元に削減し、より小さなスペースで重要な情報をキャプチャできます。

平均や分散などの重要な概念を理解するために、重みのバランスを考えてみましょう。平均は重みが均衡する点であり、分散は平均からの重みの広がりを測定します。 2 次元データセットでは、x 方向と y 方向の分散を計算してデータの広がりを測定します。ただし、分散だけではデータセット間の差異を捕捉できない場合があります。 2 つの変数間の広がりと相関を測定する共分散を導入します。共分散を計算することで、同様の分散を持つデータセットを区別できます。

ここで、これらの概念を PCA に適用してみましょう。まず、データセットを原点の中心に置き、データセットの分散と共分散から共分散行列を作成します。この行列は一般にシグマと呼ばれ、変数間の広がりと相関関係を捉えます。次のステップでは、データの主成分についての洞察を提供する固有値と固有ベクトルが関係します。最後に、PCA を適用してデータを主成分に投影し、次元を削減してデータセットを簡素化します。

PCA は次元削減のための強力な手法です。次元の数を減らしながら、データセット内の重要な情報を取得するのに役立ちます。データを理想的な線または空間に投影することにより、複雑なデータセットを簡素化し、より管理しやすくすることができます。

Principal Component Analysis (PCA)
Principal Component Analysis (PCA)
  • 2019.02.09
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA conceptual description of principal compone...
 

Netflix はどのように映画を推奨していますか?行列分解



Netflix はどのように映画を推奨していますか?行列分解

レコメンデーション システムは、YouTube や Netflix などのプラットフォームで広く使用されている、機械学習の非常に魅力的なアプリケーションです。これらのシステムはユーザー データを分析し、さまざまなアルゴリズムを利用してユーザーの好みに合った映画やビデオを提案します。これらのシステムで使用される一般的な手法の 1 つは、行列因数分解と呼ばれます。

行列因数分解がどのように機能するかを理解するために、Netflix の世界での仮説的なシナリオを考えてみましょう。アンナ、ベティ、カルロス、ダンナの 4 人のユーザーと、ムービー 1、ムービー 2、ムービー 3、ムービー 4、ムービー 5 の 5 つの映画があります。ユーザーは、1 つ星から 5 つ星のスケールで映画を評価します。そして目標は、これらの評価を予測することです。

行がユーザーを表し、列が映画を表すテーブルを作成します。テーブル内の各エントリは、特定の映画に対するユーザーの評価に対応します。たとえば、アンナが映画 5 を 5 つ星中 4 つ星と評価した場合、この評価をテーブルのアンナの行と映画 5 の列に記録します。

ここで、映画の好みに関して人間がどのように行動するかという問題を考えてみましょう。 3 つの異なるテーブルを調べて、どれがより現実的であるかを判断します。最初の表では、すべてのユーザーがすべての映画をスコア 3 で評価すると仮定していますが、これは全員が同じ好みを持っていると仮定しているため現実的ではありません。 3 番目の表はランダムな評価で構成されていますが、これも人間の行動を正確に反映していません。ただし、行と列間の依存関係を示す 2 番目のテーブルが最も現実的に表現されているように見えます。

2 番目のテーブルを分析すると、同様の好みを持つユーザーや同様の評価を持つ映画などの依存関係が観察されます。たとえば、表の 1 行目と 3 行目は同一であり、アンナとカルロスの好みが非常に似ていることを示しています。この類似性により、Netflix は推奨を行う際にそれらを同一人物として扱うことができます。また、列 1 と列 4 が同じであることにも気づき、ムービー 1 とムービー 4 が内容または魅力の点で類似している可能性があることを示唆しています。さらに、3 行の間に依存関係が見つかり、2 行目と 3 行目の値を加算すると 4 行目の値が得られます。この依存関係は、あるユーザーの好みが他のユーザーの好みから導き出される可能性があることを意味します。これらの依存関係は、常に明示的に説明できるわけではありませんが、レコメンデーション システムで活用できる貴重な洞察を提供します。

これらの依存関係を利用して評価を予測するには、行列因数分解が機能します。行列の因数分解では、大きくて複雑な行列を 2 つの小さな行列の積に分解します。この場合、大きな行列はユーザーと映画の評価テーブルを表し、小さな行列はユーザーの好みと映画の特徴を表します。

これら 2 つの小さなマトリックスを見つけるために、映画のコメディやアクションなどの機能を導入します。各映画はコメディとアクションのレベルに基づいて評価されます。同様に、ユーザーはこれらの機能の好みに関連付けられます。次に、ドット積を使用して、特定の機能に対するユーザーの親和性と映画の機能の評価を考慮して評価を予測します。たとえば、ユーザーがコメディは好きだがアクションは嫌いで、映画のコメディの評価は高いがアクションの評価が低い場合、内積計算によりユーザーの好みに合わせた評価が得られます。

このドット積計算をすべてのユーザーと映画の組み合わせに適用することで、予測された評価を生成し、評価テーブルの欠落しているエントリを埋めることができます。このプロセスにより、元の行列を 2 つの小さな行列の積として表現できるようになり、行列因数分解が実現します。

行と列の間で以前に発見した依存関係が因数分解された行列にもまだ存在していることに注目する価値があります。たとえば、アンナとカルロスの類似性は、ユーザー特徴行列の対応する行の類似性に反映されます。同様に、同様の評価を持つ映画は、映画特徴マトリックスの特徴スコアにおいて類似性を示します。さらに、特定の機能に対するユーザーの共有設定を介したユーザーと映画の関係など、より複雑な関係を観察することもできます。

ユーザーの好みや映画の特徴を表す因数分解された行列を取得したら、それらを活用してパーソナライズされた推奨事項を作成できます。特定のユーザーについて、ユーザー特徴マトリックス内のユーザーの好みを映画特徴マトリックス内のすべての映画の特徴スコアと比較できます。ユーザーの好みベクトルと各映画の特徴ベクトルの間のドット積を計算することで、そのユーザーと映画のペアの予測評価を決定できます。これらの予測された評価は、ユーザーに映画を推奨するための基礎として機能します。

これを説明するために、Anna をターゲット ユーザーとして考えてみましょう。ユーザー特徴マトリックスからアンナの好みを抽出し、それを映画特徴マトリックス内のすべての映画の特徴スコアと比較します。アンナの好みベクトルと各映画の特徴ベクトルの間の内積を計算することにより、アンナの予測評価のリストが得られます。予測評価が高いほど、アンナがその映画を楽しむ可能性が高くなります。これらの予測された評価に基づいて、アンナに対する推奨映画のランク付けされたリストを生成できます。

これらの推奨事項の精度は、因数分解と特徴表現の品質に依存することに注意することが重要です。因数分解プロセスがユーザーと映画の評価の根底にあるパターンと依存関係を捉えており、その特徴が映画の特徴とユーザーの好みを効果的に表している場合、推奨事項は関連性があり、ユーザーの好みと一致している可能性が高くなります。

行列分解は、レコメンデーション システムで使用される多くの手法の 1 つにすぎず、潜在的な要素を捕捉し、パーソナライズされたレコメンデーションを生成するのに効果的であることが証明されています。 Netflix や YouTube などのプラットフォームは、これらの技術を活用して、ユーザーが以前のやり取りや好みに基づいて楽しみそうなコンテンツを提案することで、ユーザー エクスペリエンスを向上させます。

行列分解は、ユーザーと映画の評価行列を、ユーザーの好みと映画の特徴を表す 2 つの小さな行列に分解する、レコメンデーション システムにおける強力なアプローチです。データ内の依存関係とパターンをキャプチャすることで、正確な予測とパーソナライズされた推奨事項の生成が可能になります。

How does Netflix recommend movies? Matrix Factorization
How does Netflix recommend movies? Matrix Factorization
  • 2018.09.07
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA friendly introduction to recommender system...
 

潜在的なディリクレ配分 (パート 1/2)



潜在的なディリクレ配分 (パート 1/2)

こんにちは、私は Luis Serrano です。これは潜在ディリクレ割り当て (LDA) に関する 2 つのビデオのうちの 1 つ目です。 LDA は、ドキュメントをトピックに分類するために使用されるアルゴリズムです。各記事が 1 つ以上のトピックに関連付けられている、ニュース記事などのドキュメントのコーパスを考えてみましょう。ただし、トピックについては事前にわかりません。記事の本文だけがわかります。目標は、これらの文書をトピックに分類できるアルゴリズムを開発することです。

概念を説明するために、それぞれに 5 つの単語が含まれる 4 つのドキュメントを含む小さな例を使用してみましょう。話を簡単にするために、私たちの言語には「ボール」、「惑星」(または「銀河」)、「国民投票」という 4 つの単語しかなく、考えられるトピックとしては科学、政治、スポーツの 3 つだけがあると仮定します。

文書内の単語に基づいて、各文書にトピックを割り当てることができます。たとえば、最初のドキュメントには「ボール」と「銀河」という単語が含まれており、スポーツのトピックを示唆しています。 2 番目の文書には、政治の話題を示す「国民投票」という単語が含まれています。 3 番目の文書には「惑星」と「銀河」という単語があり、科学のトピックを示しています。 4 番目の文書は曖昧ですが、「惑星」と「銀河」という単語が含まれており、同様に科学のトピックであることを示唆しています。

ただし、この分類は人間としての言葉の理解に基づいています。一方、コンピューターは、単語が同じか異なるか、およびそれらが同じ文書内に出現するかどうかのみを認識します。ここで、潜在ディリクレ配分が役に立ちます。

LDA は幾何学的アプローチを採用してドキュメントをトピックに分類します。トピック (科学、政治、スポーツ) を表す角を持つ三角形を想像してください。目標は、ドキュメントをこの三角形の内側、対応するトピックの近くに配置することです。ドキュメントによっては、両方のトピックに関連する単語が含まれている場合、2 つのトピックの間の端に位置することがあります。

LDA はドキュメントを生成するマシンと考えることができます。設定とギアがあります。設定を調整することで、マシンの出力を制御できます。歯車は機械の内部の仕組みを表しています。機械が文書を生成する場合、それは元の文書ではなく、単語のランダムな組み合わせである可能性があります。

マシンに最適な設定を見つけるために、マシンの複数のインスタンスを実行し、生成されたドキュメントを元のドキュメントと比較します。可能性は低いものの、オリジナルに最も近いドキュメントを生成する設定が最良とみなされます。これらの設定からトピックを抽出できます。

文献に描かれている機械の設計図は、最初は複雑に見えるかもしれません。ただし、分解すると、ディリクレ分布 (設定) と多項分布 (歯車) で構成されます。これらの分布は、ドキュメント内でトピックや単語を生成するのに役立ちます。

ディリクレ分布は、幾何学的形状内の点の分布として想像できます。たとえば、三角形の場合、点はドキュメント全体にわたるトピックの分布を表します。分布は、ポイントが隅 (トピック) に引き寄せられるか中心に引き寄せられるかを制御するパラメータの影響を受けます。

一方、多項分布は、各トピック内の単語の分布を表します。四面体などの幾何学的形状内の点は、特定のトピックの単語の組み合わせを示します。

LDA はこれらの配布を組み合わせてドキュメントを生成します。文書が出現する確率は、機械の設定とギアを含む計算式を使用して計算されます。

LDA は、ドキュメントをトピックに分類するのに役立つアルゴリズムです。幾何学的分布を使用して、文書、トピック、単語間の関係を表します。機械の設定を調整することで、オリジナルに近い文書を生成できます。これらの設定からトピックを抽出できます。

Latent Dirichlet Allocation (Part 1 of 2)
Latent Dirichlet Allocation (Part 1 of 2)
  • 2020.03.18
  • www.youtube.com
Latent Dirichlet Allocation is a powerful machine learning technique used to sort documents by topic. Learn all about it in this video!This is part 1 of a 2 ...
 

潜在ディリクレ割り当てのトレーニング: ギブズ サンプリング (パート 2/2)



潜在ディリクレ割り当てのトレーニング: ギブズ サンプリング (パート 2/2)

こんにちは、私は Luis Serrano です。このビデオでは、ギブス サンプリングを使用して潜在ディリクレ割り当て (LDA) モデルをトレーニングする方法を説明します。このビデオは 2 部構成のシリーズの 2 番目の部分です。最初のビデオでは、LDA とは何かについて説明し、ディリクレ分布をさらに詳しく調査しました。ただし、このビデオを理解するために最初のビデオを見る必要はありません。

解決しようとしている問題を簡単にまとめてみましょう。ニュース記事などのドキュメントのコレクションがあり、各ドキュメントを科学、政治、スポーツなどの 1 つ以上のトピックに関連付けることができます。ただし、文書のトピックはわかりません。文書内のテキストだけがわかります。私たちの目標は、LDA を使用してテキストのみに基づいてこれらの記事をトピックごとにグループ化することです。

前回のビデオでは、4 つのドキュメントと、「ball」、「planet」、「galaxy」、「referendum」の 4 つの単語で構成される限られた語彙を使用した例を見ていきました。各単語に色 (トピックを表す) を割り当てたところ、ほとんどの記事が主に 1 つのトピックに関連付けられていることが観察されました。また、単語は主に特定のトピックに関連付けられている傾向があることにも気づきました。

LDA を使用してこの問題を解決するには、単語とドキュメントの両方にトピックを割り当てる必要があります。各単語に複数のトピックを割り当てることができ、各ドキュメントに複数のトピックを含めることもできます。私たちは、各文書をできるだけ単色にし、各単語をほぼ単色にするような単語へのトピックの割り当てを見つけることを目指しています。このようにして、単語やトピックの定義に依存せずに記事を効果的にグループ化できます。

ここで、ギブズ サンプリングを使用してこの問題を解決してみましょう。物体の大まかな位置を知らずに、散らかった部屋を整理整頓することを想像してみてください。オブジェクトを相互に相対的に配置する方法のみに依存できます。同様に、他のすべての割り当てが正しいと仮定して、一度に 1 つずつ色を割り当てて単語を整理します。

最初に、単語に色をランダムに割り当てることから始めます。次に、単語をランダムに選択し、他の割り当てに基づいて色を再割り当てすることで、割り当てを繰り返し改善します。たとえば、単語「ball」を選択し、他のすべての割り当てが正しいと仮定すると、ドキュメント内でのその出現率と単語のすべての出現におけるその出現率を考慮して、「ball」に最適な色が決定されます。各色に関連付けられた確率を乗算し、最も高い結果が得られる色を選択します。

このプロセスを単語ごとに繰り返すことで、単語への色の割り当てが徐々に改善され、記事はよりモノクロになり、単語もほとんどモノクロになります。このアルゴリズムは完璧な解決策を保証するものではありませんが、単語やトピックの定義に依存せずに問題を効果的に解決します。

ビデオの残りの部分では、ギブス サンプリングを使用してこの問題を解決する方法についてさらに詳しく説明します。部屋を一度に 1 つずつ整理することで、散らかった部屋をきれいな部屋に変えることができます。同様に、単語に 1 つずつ色を割り当てることで、ギブス サンプリングを使用して LDA モデルを効果的にトレーニングできます。

それでは、ギブス サンプリング アルゴリズムを続けましょう。文書内の赤い単語の蔓延と、すべての文書にわたる単語「ボール」の赤い色の蔓延に基づいて、文書 1 の単語「ボール」を赤色に色付けしました。では、次の単語に進み、このプロセスを繰り返してみましょう。

次の単語は、資料 1 の「銀河」です。繰り返しになりますが、他のすべての単語が正しく色付けされていると仮定すると、青、緑、赤の色が「銀河」という単語の候補として考慮されます。さて、文書 1 にある青、緑、赤の単語の数を数えてみましょう。青色の単語、緑色の単語、赤色の単語が 1 つずつあることがわかります。 3 つの色はすべて同等に表現されるため、ドキュメント 1 だけでは明確な勝者はわかりません。

次に、すべてのドキュメントにわたって「galaxy」という単語だけに注目してみましょう。出現箇所を数えると、青い単語が 2 つ、緑色の単語が 2 つ、赤い単語が 2 つ見つかります。繰り返しますが、すべての文書にわたって「銀河」という単語の明確な多数派の色はありません。

この場合、「銀河」という単語にランダムに色を割り当てることも、デフォルトの色を選択することもできます。ランダムに青を割り当てたとします。ここで、文書 1 の「銀河」という単語の色を青に更新しました。

すべての文書内のすべての単語に対してこのプロセスを繰り返し、ローカルおよびグローバルのコンテキストを考慮し、各文書内の色の普及率とすべての文書にわたる各単語の色の普及率に基づいて色を更新します。すべての単語を複数回確認するまで、単語を反復し続けます。

数回の反復の後、各記事と各単語を可能な限り単色にするという目標を満たす色付けに収束します。私たちは、ギブス サンプリングを使用して潜在ディリクレ割り当て (LDA) モデルを効果的にトレーニングしました。

ギブズ サンプリングは、単語の定義に依存せずにドキュメントにトピックを割り当てる問題を解決できる手法です。これには、各ドキュメント内の色の蔓延と、すべてのドキュメントにわたる各単語の色の蔓延に基づいて、単語の色を繰り返し更新することが含まれます。このプロセスにより、単語の意味がわからなくても、ドキュメント内のトピックを表す色が作成されます。

ギブズ サンプリングを使用すると、トピックや単語の意味についての事前知識がなくても、テキスト コンテンツのみに基づいて LDA モデルを効果的にトレーニングし、トピックごとに記事をグループ化できます。このアプローチは、ドキュメントのコレクション内の潜在的なトピックやテーマを明らかにすることを目的とする自然言語処理タスクで特に役立ちます。

Training Latent Dirichlet Allocation: Gibbs Sampling (Part 2 of 2)
Training Latent Dirichlet Allocation: Gibbs Sampling (Part 2 of 2)
  • 2020.03.21
  • www.youtube.com
This is the second of a series of two videos on Latent Dirichlet Allocation (LDA), a powerful technique to sort documents into topics. In this video, we lear...
 

特異値分解 (SVD) と画像圧縮



特異値分解 (SVD) と画像圧縮

こんにちは、ルイ ソラノです。このビデオでは、特異値分解 (SVD) の概念について説明します。 SVD には、画像圧縮などのさまざまな用途に使用できる回転とストレッチが含まれます。興味があれば、コメントにリンクされている私の GitHub リポジトリでアプリケーションのコードを見つけることができます。さらに、私は「Rocking Machine Learning」という本を持っています。コメント欄に割引コード付きのリンクがあります。

それでは、変換について見ていきましょう。変換は、点を取得して他の点にマッピングする関数とみなすことができます。ストレッチと圧縮は、画像に水平または垂直に適用できる変換の例です。画像を特定の角度で回転することも、別の種類の変換です。

さあ、パズルを解いてみましょう。回転、水平および垂直の伸縮/圧縮のみを使用して、左側の円を右側の楕円に変換できますか?ビデオを一時停止して試してみてください。

このパズルを解くには、円を水平方向に引き延ばし、垂直方向に圧縮し、反時計回りに回転させて目的の楕円を取得します。

より難しいパズルに移りましょう。今回は、色を保持したまま、色付きの円を色付きの楕円に変換する必要があります。伸縮する前に、円を正しい方向に回転する必要があります。その後、ストレッチと圧縮を適用し、再度回転させて希望の結果を得ることができます。

ここで重要なのは、線形変換は回転と伸縮の組み合わせとして表現できるということです。線形変換は行列で表すことができ、SVD は行列を 2 つの回転行列と 1 つのスケーリング行列の 3 つの部分に分解するのに役立ちます。

これらの回転行列とスケーリング行列を使用して、線形変換を模倣できます。回転は角度による回転を表し、スケーリング行列は水平および垂直の伸縮を表します。対角行列などの特別なプロパティを持つ行列は、スケーリング変換を表します。

SVD 分解方程式 A = UΣVᴴ は、回転行列 U、スケーリング行列 Σ、および別の回転行列 Vᴴ (V の随伴または共役転置) の 3 つの行列の積として行列 A を表します。この方程式を使用すると、行列をその構成部分に分解できます。

SVDを見つけるには数学的な方法が利用できますが、Wolfram AlphaやPythonのNumPyパッケージなどのツールを使用することもできます。

SVD 分解は、次元の削減と行列の単純化に役立ちます。スケーリング行列 Σ を分析することで、変換の特性を理解することができます。大きなスケール係数はストレッチを示し、小さな係数は圧縮を示します。スケーリング係数がゼロになると、変換は縮退し、平面全体が線に圧縮される可能性があります。

スケーリング行列を変更することで、より高いランクの行列をより低いランクの行列に圧縮することができ、元の行列を表すために必要な情報量を効果的に削減できます。この圧縮は、行列を 2 つの小さな行列の積として表現することによって実現されます。ただし、すべての行列をこの方法で圧縮できるわけではありません。

特異値分解 (SVD) は、行列を回転と伸縮に分解できる強力なツールです。この分解は、画像圧縮や次元削減など、さまざまな分野に応用できます。

Singular Value Decomposition (SVD) and Image Compression
Singular Value Decomposition (SVD) and Image Compression
  • 2020.09.08
  • www.youtube.com
Github repo: http://www.github.com/luisguiserrano/singular_value_decompositionGrokking Machine Learning Book:https://www.manning.com/books/grokking-machine-l...
 

AI 革命 |トロント グローバル フォーラム 2019



AI 革命 |トロント グローバル フォーラム 2019 | 9月5日木曜日 |

この部屋にいる誰かが、私がこのインタビューに同意する前に少しでも脅迫されていたと信じているなら、彼らは正しいでしょう。ただし、それは脇に置いて、生産的な議論を行うことに集中しましょう。私の目標は、全員が到着時よりも理解を深めてここを去ることです。それでは、始めましょう。

背景を説明すると、最近、ニューラル ネットワークとディープ ラーニングの研究に対して私と同僚にチューリング賞が授与されました。ジェフがディープラーニングとは何か、ニューラルネットとは何かを説明できれば役立つだろうと思いました。

約 60 年前、インテリジェント システムの作成については 2 つの主なアイデアがありました。 1 つのアプローチはロジックに基づいており、推論規則を使用してシンボルの文字列を処理するものでした。もう 1 つのアプローチは、相互接続された脳細胞のネットワークが学習して適応する脳の構造にヒントを得たものです。これら 2 つのパラダイムはまったく異なっており、長い間、ニューラル ネットワークのアプローチは満足のいく結果を得るのに苦労していました。進歩が見られなかったのは、利用可能なデータと計算能力が限られていたためでした。

しかし、今世紀初頭、私たちは大きな変化を目の当たりにしました。データとコンピューティング能力の指数関数的な増加に伴い、例から学習したシステムは非常に効果的になりました。特定のタスクをプログラムする代わりに、シミュレートされた脳細胞の大規模なネットワークを作成し、それらの間の接続強度を調整して、望ましい動作を実現しました。入力データと対応する正しい出力を提供することで、ネットワークは一般化して正確な予測を行うことを学習しました。ディープラーニングとして知られるこのアプローチは、音声認識、画像認識、機械翻訳、その他のさまざまなタスクに革命をもたらしました。

ディープラーニングは脳から着想を得ていますが、その仕組みの詳細は大きく異なることに注意することが重要です。これは抽象レベルで動作し、例から学習して接続の強さを適応させる脳の能力を模倣します。

ここで、なぜ学習がそれほど重要なのか、そしてなぜシンボルやルールに基づく従来の AI アプローチが機能しなかったのかについて詳しく説明します。私たちが持っている知識は膨大ですが、簡単に説明したり、コンピューターにプログラムしたりすることはできません。たとえば、私たちはコップ一杯の水などの物体を認識する方法を知っていますが、その知識をコンピューターに転送するのは困難です。人間の認知の多くの側面についての私たちの理解は、簡単に分析したり、機械への明示的な指示に変換したりすることはできません。同様に、私たちは脳の中に隠された知識に意識的にアクセスできないため、特定のことを他の人に説明することができません。

コンピューターにそのような知識を提供するには、データから学習することが最も重要です。子供が経験から学ぶのと同じように、コンピューターも膨大なデータをトレーニングすることで知識を獲得できます。このアプローチは、正確なレプリカではありませんが、私たちの脳の働きをエミュレートするのに最も近いものです。したがって、データから学習する能力は、AI と機械学習の基本的な側面です。

私たちの経歴について言えば、私は当初認知心理学を学んでいましたが、その分野ではあまり成功しませんでした。実際、認知心理学者によって提案されたアイデアは、インテリジェントなシステムを作成するには不十分で非現実的であると思われたため、私は他の道を探求するよう促されました。

ここで、科学研究に必要な忍耐力と、最初は無視されたにも関わらず私たちが研究を続けた理由について考えてみましょう。研究で成功するには、型破りな道を進んで歩む必要があります。研究は探求と発見を目的としており、多くの場合、他の人が信じられないかもしれないアイデアが含まれます。それには自信、リスクを冒す意欲、そして他の人が見落としているものを追求する能力が必要です。 AI に対する私たちのアプローチは当初真剣に受け止められませんでしたが、私たちは自分たちのアイデアに自信を持って進んで追求し、最終的にディープラーニングのブレークスルーにつながりました。

次に、ディープラーニングが適用されるエキサイティングな取り組みについての質問がありました。その用途は、ソーラーパネル、二酸化炭素回収、バッテリーの効率を高めることによる気候変動への対処から、より適切な予測や再生可能エネルギー源のより効率的な利用による電力使用量の改善まで、多岐にわたります。ディープラーニングは、検索エンジン、レコメンデーション、パーソナライズされた広告、仮想アシスタントなど、顧客との対話を強化するために企業によって広く使用されています。医療分野でも、病気の診断、医療画像の分析、新薬候補の発見などに応用されています。自動運転車の分野では、ディープラーニングは知覚、意思決定、制御システムにおいて重要な役割を果たし、輸送をより安全かつ効率的にします。

もう 1 つの興味深い分野は自然言語処理です。自然言語処理では、深層学習モデルを使用して人間の言語を理解し、生成します。これにより、機械翻訳、チャットボット、音声アシスタント、感情分析が大幅に進歩しました。ディープラーニングは金融分野でも不正検知、リスク評価、高頻度取引などに活用されています。

さらに、ディープラーニングは科学研究と探索においても進歩を遂げています。天文学、ゲノミクス、素粒子物理学などの分野の大規模なデータセットの分析に役立ち、新たな発見や洞察につながります。ディープラーニングは、芸術、音楽、文学の生成など、クリエイティブな用途にも使用されています。

目覚ましい進歩にもかかわらず、ディープラーニングは依然として課題に直面しています。重大な懸念の 1 つは、トレーニングに大量のラベル付きデータに依存していることです。このようなデータセットの取得と注釈付けには、時間と費用がかかる場合があります。研究者は効率を向上させ、ディープラーニングのデータ効率を高める方法を積極的に模索しています。

もう 1 つの課題は、深層学習モデルの解釈可能性です。複雑なため、深層学習モデルが特定の決定や予測を行った理由を理解するのが難しい場合があります。この透明性の欠如により、特に医療や刑事司法などのデリケートな分野において、倫理的および法的懸念が生じます。研究者たちは、解釈可能性を高め、深層学習システムの信頼性を確立する技術の開発に努めています。

最後に、深層学習モデルにおける公平性を確保し、バイアスを回避することは継続的な懸案事項です。トレーニング データにバイアスが存在すると、偏った予測や不公平な結果が生じる可能性があります。これらの問題に対処するためのガイドラインや規制とともに、公平で偏りのないアルゴリズムを開発する取り組みが行われています。

ディープラーニングは、機械がデータから学習して正確な予測を行えるようにすることで、人工知能に革命をもたらしました。さまざまな分野で応用されており、科学、技術、社会のさらなる進歩を促す可能性を秘めています。ただし、将来的にディープラーニングを責任を持って有益に使用するには、データ要件、解釈可能性、公平性などの課題に対処する必要があります。

The AI Revolution | Toronto Global Forum 2019 | Thursday, September 5 |
The AI Revolution | Toronto Global Forum 2019 | Thursday, September 5 |
  • 2019.09.05
  • www.youtube.com
Presented by DBRSPART 1THE AI REVOLUTIONSpeakers: Geoffrey Hinton, Chief Scientific Advisor, Vector Institute; Vice-President and Engineering Fellow, Google;...
 

インタビュー全文:「人工知能のゴッドファーザー」が語るAIの影響と可能性



インタビュー全文:「人工知能のゴッドファーザー」が語るAIの影響と可能性

現時点では、AI と機械学習は極めて重要な瞬間であると考えられています。大きな言語モデルである ChatGPT の成功は、これらのモデルの優れた機能を実証しました。特にマイクロソフトが独自の言語モデルをリリースして以来、一般の人々は AI の可能性をより認識するようになりました。研究者や大企業は何年も前からこうした進歩を認識していましたが、一般の人々の間でこの突然の認識は多くの人を驚かせました。

ChatGPT の最初の経験について尋ねたところ、その答えは驚きではありませんでした。ユーザーは以前にも、GPT-2 やジョークのユーモアを自然言語で説明できる Google モデルなど、同様のモデルを使用していました。 ChatGPT にはあまり驚きませんでしたが、GPT-2 は強い印象を残しました。しかし、ChatGPT が AI で最も急速に成長する現象となったため、ChatGPT の機能に対する一般の反応は確かに驚きでした。

会話は、2 つの異なる考え方が存在する AI の歴史に移りました。主流の AI は推論と論理に焦点を当てていましたが、ユーザーの関心領域であるニューラル ネットワークは脳の生物学的側面を研究していました。ニューラル ネットワークでは時代の先を行っていたにもかかわらず、1980 年代にその可能性を他の人に納得させるのは困難でした。ユーザーは、当時はコンピューティング能力とデータセットが限られていたため、ニューラル ネットワークが最適に動作しなかったと考えています。しかし、主流の AI 研究者は、これを欠点の言い訳として却下しました。

ユーザーの主な関心は、AI を作成することだけではなく、脳がどのように機能するかを理解することにあります。 AI の実装が成功すると助成金や表彰につながる可能性がありますが、その目標は脳についての洞察を得ることです。彼らは、AI で使用されている現在の人工ニューラル ネットワークは、実際の脳の仕組みとは乖離していると考えています。ユーザーは、脳の学習プロセスがAIで広く使用されているバックプロパゲーション手法とは異なるとの意見を表明した。

議論では、AI モデルと比較した人間のコミュニケーションの限界について掘り下げられました。人間は自然言語を通じて複雑なアイデアを伝達できますが、情報を伝達できる速度には限界があります。対照的に、AI モデルは複数のコンピューター間で膨大な量のデータを処理できるため、人間の理解を超えた知識を蓄積できます。しかし、人間は依然として推理力に優れ、限られたデータセットから知識を抽出し、生来の理解を必要とするタスクを実行します。

会話では、1986 年のユーザーの言語モデリングにおける初期の研究について触れられ、そこで文の最後の単語を予測するモデルを開発しました。このモデルは有望性を示していましたが、当時利用可能なコンピューティング能力とデータセットによって限界がありました。ユーザーは、現在利用可能なコンピューティング能力とデータセットにアクセスできれば、モデルのパフォーマンスが大幅に向上したであろうと信じています。

1990 年代、他の学習手法がより有望に見え、より強力な数学的理論があったため、ニューラル ネットワークは課題に直面しました。主流の AI は、研究者が人間の学習を理解する上でその可能性を見出していた心理学の分野を除いて、ニューラル ネットワークへの関心を失いました。 2000 年代は、事前トレーニング モデルや生成モデルを含む深層学習技術が開発され、複数の層を持つニューラル ネットワークが複雑なタスクを学習できるようになった転換点となりました。

2012 年には 2 つの重要なマイルストーンが発生しました。まず、ディープ ニューラル ネットワークを使用して音声認識を改善した 2009 年のユーザーの研究が、主要な音声認識研究所に広められました。これにより、Google が Siri の機能に匹敵するディープ ニューラル ネットワークを Android に導入するなど、音声認識技術が大幅に進歩しました。次に、ユーザーの 2 人の学生が、以前の方法を上回る性能を備えた物体認識システムを開発しました。このシステムは、画像内のオブジェクトを識別するために特徴検出器と階層表現を利用しました。

彼らのアプローチと以前の方法の違いを説明するために、ユーザーは画像内の鳥の認識を使用したアナロジーを提供しました。従来のアプローチでは、基本的なエッジから始めて、より複雑なオブジェクト コンポーネントに進む、さまざまなレベルで手作りの特徴検出器が必要でした。対照的に、バックプロパゲーションを使用するディープ ニューラル ネットワークは、初期化されると、次回鳥を予測する可能性が高くなるように重みを調整する方法を教えてくれません。ただし、たまたま鳥を予測した場合は、次回の出力がより鳥らしくなるように重みを調整できます。したがって、予測された出力と目的の出力の差に基づいて重みを調整し、モデルが鳥をよりよく認識できるようになるまで、多くの例でこれを繰り返します。

このアイデアは、予測された出力と望ましい出力の間の誤差に基づいて重みを調整することで、モデルの鳥を認識する能力を徐々に向上させることができるというものです。このプロセスは数百万、場合によっては数十億の画像に対して繰り返されるため、モデルは膨大な量のデータから学習し、予測の精度が高くなります。

バックプロパゲーションとして知られるこのアプローチは、1980 年代にニューラル ネットワークの分野に革命をもたらし、今日でも深層学習の基本的な技術として残っています。ただし、目覚ましい結果を達成することに成功したにもかかわらず、バックプロパゲーションが実際の脳の学習方法の正確なモデルであるかどうかについては、依然として議論があり、研究が進行中です。

一部の研究者は、脳の学習プロセスには、バックプロパゲーションでは完全には捉えられない追加のメカニズムや原理が関与している可能性があると主張しています。彼らは、脳がどのように機能するかについての理解はまだ不完全であり、脳のプロセスとより密接に連携した AI システムを構築するための代替アプローチがある可能性があることを示唆しています。

それにもかかわらず、バックプロパゲーションやその他の技術を活用した深層学習モデルは、画像や音声の認識、自然言語処理、さらにはゲームプレイなど、さまざまな分野で大幅な進歩を遂げています。これらのモデルは驚くべき機能を実証し、研究者と一般の人々の両方の注目と興奮を集めました。

AI と機械学習のこの瞬間をナビゲートすると、ChatGPT のような大きな言語モデルがこれらのテクノロジーの可能性を示していることは明らかです。彼らは印象的なタスクを実行し、創造的なコンテンツを生成し、貴重な洞察を提供できます。しかし、AI が人間の知性と理解をどのようによりよく模倣できるかという点では、まだ学び、探求すべきことがたくさんあります。

研究者が脳の謎を解明し続け、AI 技術を改良するにつれて、さらなる画期的な進歩と進歩が期待できます。 AI の将来には大きな期待が寄せられていますが、同時に、倫理、プライバシー、これらの強力なテクノロジーの責任ある開発と展開について重要な疑問も生じます。

生物学的知能の観点から見ると、各個人の脳はユニークであり、個人間の知識の伝達は言語に依存します。一方、ニューラル ネットワークなどの現在の AI モデルでは、同一のモデルが異なるコンピューター上で実行され、接続強度を共有できるため、数十億の数値を共有できます。この接続強度の共有により、異なるオブジェクトを認識できるようになります。たとえば、あるモデルは猫の認識を学習し、別のモデルは鳥の認識を学習し、接続強度を交換して両方のタスクを実行できます。ただし、異なる生物学的脳を同じように動作させて接続を共有するのは困難であるため、この共有はデジタル コンピューターでのみ可能です。

私たちがデジタル コンピューターに固執できない理由は、消費電力が大きいためです。チップの改良に伴い電力要件は減少していますが、正確な計算にはデジタル コンピューターを高電力で実行することが必要です。ただし、脳が 30 ワットで動作するのと同じように、より低い電力でシステムを実行すると、ある程度のノイズを許容し、システムが効果的に機能するように適応させることができます。脳は低電力に対する適応能力を備えているため、正確な電力要件がなくても機能します。対照的に、大規模な AI システムは同じモデルの複数のコピーで構成されるため、メガワットなどのはるかに高い電力が必要です。電力要件のこの明らかな違い (約 1,000 倍) は、トレーニングがデジタル コンピューターで行われ、その後、トレーニングされたモデルが低電力システムで実行される段階があることを示唆しています。

このテクノロジーの広範な影響を特定の領域に特定することは困難です。私たちの生活のさまざまな場面に浸透していくことが期待されています。すでに、ChatGPT のようなモデルが普及しつつあります。たとえば、Google は検索結果を強化するためにニューラル ネットワークを使用しており、ChatGPT のようなチャットボットがより普及するフェーズに移行しつつあります。ただし、これらの言語モデルはテキストを生成することはできますが、真実を真に理解することはできません。彼らは一貫性のないデータに基づいてトレーニングされており、誰かがウェブ上で言うかもしれない次の文を予測することを目的としています。その結果、異なる意見を混合して、さまざまな潜在的な反応をモデル化します。これは、特に世界で行動を起こす場合に、一貫した世界観を追求する人間とは異なります。

今後、AI システムの開発では、さまざまな視点を理解し、さまざまな世界観に対応するという課題に取り組む必要があります。ただし、地球は平らではないなど、客観的な真実が存在する場合もあるため、これにはジレンマがあります。さまざまな視点を受け入れることと、客観的な真実を認識することのバランスをとることは、大きな課題となります。何が「悪い」、または攻撃的であるとみなされるかを誰が決定するのかを決めることも、未解決の問題です。 Google や Microsoft などの企業はアプローチに慎重ですが、これらの課題を乗り越えるには、公開の議論、規制、そしてこれらのシステムがどのようにトレーニング、ラベル付け、表示されるかについての慎重な検討が必要です。

AI テクノロジーの急速な進歩の可能性により、その影響について懸念が生じています。以前は、汎用AIの開発には数十年かかると予想されていました。しかし、現在では、それが今後20年以内、あるいはそれよりも早く起こる可能性があると信じている人もいます。その恐怖は、人間よりもはるかに賢いシステムが行うかもしれない未知の行動や決定から生じます。 AI システムが脅威となるのではなく、人類を助ける相乗的なツールとして機能するようにするには、政治的および経済的要因に細心の注意を払う必要があります。政治情勢は重要な役割を果たしており、すべての国や指導者が責任を持って AI 開発に取り組むかどうかは依然として不透明です。これにより、潜在的な危険性と、ガイドラインや協定を確立するためのガバナンスと国際協力の必要性についての懸念が生じています。

重大な懸念の 1 つは、AI、特に自律型兵器の軍事応用に関連しています。兵士をAIによって制御される兵士に置き換えるという考えは、倫理的な問題を引き起こします。自律的な兵士を育成するには、目的を達成するためのサブ目標を作成する能力を与える必要があり、これにより調整の問題が懸念されます。これらのシステムが作成するサブ目標が人間の価値観と一致し、有害な行動をもたらさないとどうやって確信できるのでしょうか?

あるレベルでは、その発言は真実です。 Chat GPT のようなこれらの大きな言語モデルは、統計パターンと既存のデータに依存して応答を生成します。彼らは人間のような真の理解や意識を持っていません。ただし、その機能は単純なオートコンプリートを超えています。

これらのモデルは大量のテキスト データでトレーニングされており、パターン、文法、コンテキストを学習できます。受け取った入力に基づいて、一貫した文脈に関連した応答を生成できます。特定の情報源や個人のスタイルや口調を模倣することもできます。

さらに、これらのモデルには、学習した情報から一般化して推定する機能があります。質問に答えたり、説明したり、会話したり、物語や詩などのクリエイティブなコンテンツを生成したりすることもできます。彼らは幅広いトピックを理解して対応し、有益な情報を提供することができます。

ただし、これらのモデルには制限があることに注意することが重要です。トレーニングの対象となるデータから学習するため、バイアスや不正確さが含まれる可能性があるため、誤った応答や偏った応答が生成される場合があります。彼らは常識的な推論と世界に対する深い理解を欠いています。また、曖昧な質問や微妙な質問にも苦労し、誤解を招くような答えや意味不明な答えを提供してしまうこともあります。

これらの制限を克服するために、現在進行中の研究開発は、これらのモデルの機能を向上させることに焦点を当てています。目標は、理解力、推論力、そしてより有意義で正確な会話を行う能力を強化することです。さらに、透明性、偏見の軽減、責任ある展開など、これらのテクノロジーの倫理的および社会的影響に対処するための取り組みが行われています。

これらの大きな言語モデルは自然言語処理に大きな進歩をもたらしましたが、人間レベルの真の知性と理解を達成するにはまだ程遠いです。これらは人間の知性を支援および強化できるツールですが、その制限と潜在的な影響を考慮して慎重に使用する必要があります。

Full interview: "Godfather of artificial intelligence" talks impact and potential of AI
Full interview: "Godfather of artificial intelligence" talks impact and potential of AI
  • 2023.03.25
  • www.youtube.com
Geoffrey Hinton is considered a godfather of artificial intelligence, having championed machine learning decades before it became mainstream. As chatbots lik...