機械学習とニューラルネットワーク - ページ 63

 

2023 年の未来を形作る AI 企業 5 社 |人工知能



2023 年の未来を形作る AI 企業 5 社 |人工知能

AI ゲームの最大手の世界を掘り下げて驚かれる準備をしてください。これらのテクノロジー巨人は、驚くような画期的な進歩を遂げました。

まずは、英国ロンドンに拠点を置く大手 AI 研究研究所である DeepMind から始めましょう。 2010 年の設立とその後の 2014 年の Alphabet (旧 Google) による買収以来、DeepMind は AI 分野で目覚ましい偉業を達成してきました。彼らは人間のプロ棋士を破った最初のコンピュータプログラムであるAlphaGoを作成した。彼らはこの成功を、人間の手本なしでチェスや将棋を含むさまざまなゲームをプレイすることを学習した AlphaZero で拡張しました。彼らの進歩は、ルールを教えられずに Atari ゲームをマスターした AlphaZero の別のバージョンである MuZero で最高潮に達しました。これらの成果により、DeepMind は業界での認知と賞賛の新たな高みへと押し上げられました。

しかし、創設者のデミス・ハサビスはそこで止まりませんでした。彼は、生物学の最も困難な分野の 1 つであるタンパク質構造の予測に挑戦しました。 DeepMind の AlphaFold AI モデルはこの分野に革命をもたらし、わずか数か月で 2 億件を超えるタンパク質予測を生成しました。これは、過去 50 年間に生成された 180,000 件の予測から大幅に増加しました。タンパク質構造の天文学的な結果の可能性を考えると、この成果は本当に信じられないほどです。また、AlphaFold は、特に最近の世界的危機において、創薬を加速しました。

DeepMind は、対話やビデオ ゲームのプレイからロボット アームの制御まで、幅広いタスクを実行できる汎用 AI である GATO も開発しました。彼らのビジョンは現在の AI 機能を超えており、人間を超えないにしても、人間と同じように推論、計画、学習、コミュニケーションできるシステムを目指しています。

Google の話に移りますが、この会社は AI において恐るべき力を持っています。研究プロジェクトへの巨額投資と各部門に散在する広範な AI チームの名簿により、Google はこの分野で常に画期的な進歩を遂げています。有名な AI チームの 1 つである Google Brain は、2017 年に Transformer モデルを開発しました。このモデルはディープ ラーニングにおける革新的なモデルであり、チャットボット、画像ジェネレーター、自動運転、さらには Google の検索結果にも役立っています。 Google の AI アプリケーションは、Google 翻訳や Google マップからスパム検出やビデオ生成まで、至る所に存在します。

OpenAI は、AI 業界におけるもう 1 つの主要なプレーヤーです。イーロン・マスク氏やピーター・ティール氏を含む著名な創設者を擁する OpenAI は、GPT-3 などの印象的な言語モデルをリリースし、Dota 2 の世界チャンピオンを破った AI エージェントを開発しました。 Universe やかくれんぼをする AI エージェントなどの彼らのプロジェクトは、創発的な行動を実証し、人間の価値観に沿った AGI システムの開発への洞察を提供します。

独自の AI ラボを持つテクノロジー大手の Microsoft は、AI アプリケーションをさまざまな製品やサービスに統合しています。顔認識、仮想アシスタント、手書き文字からコンピュータフォントへの変換などの分野で大きな進歩を遂げました。 Microsoft と OpenAI とのパートナーシップと同社への 10 億ドルの投資は、AI イノベーションへの取り組みをさらに示しています。

名誉ある賞には、AI 分野に多大な貢献を果たした Amazon、Apple、Tesla、Nvidia が選ばれます。 Alexa やパーソナライズされた製品レコメンデーションなどの Amazon の AI サービスは、よく知られた名前になりました。 Apple の Siri と顔認識機能、Tesla の自動運転車、AI 開発に革命をもたらした Nvidia の GPU はすべて注目すべき成果です。

最後に、Meta (旧 Facebook) には、Yann LeCun が率いる専門の AI 部門 Meta AI があります。 AI のアプリケーションは Facebook や Instagram などの製品を強化しており、最近ではメタバースにも投資しています。 Meta は AI を使用して、メタバース用に現実世界のオブジェクトのリアルなデジタル バージョンを作成しています。彼らはまた、脳波を言葉に変換できる AI モデルを開発し、心を読む技術への道を切り開きました。

CICERO は、Meta の AI ラボによって開発された印象的な AI エージェントであり、外交ゲームにおける戦略的能力を証明しています。この古典的なボード ゲームでは、プレイヤーは目的を達成するために戦略を立てながら、交渉して同盟を形成する必要があります。 CICERO はゲームの複雑さをマスターし、常に人間のプレイヤーを上回っています。

Meta の AI 部門は、自然言語処理 (NLP) においても大きな進歩を遂げました。彼らは、プラットフォーム上のチャットボットや仮想アシスタントを強化する最先端の言語モデルを開発しました。これらのモデルは人間のようなテキストを理解して生成することができ、より自然で魅力的なユーザーとの対話を促進します。

さらに、Meta はコンピュータ ビジョンの研究にも積極的に投資しています。同社の AI アルゴリズムは画像やビデオを認識して理解することができ、拡張現実アプリケーションでの写真の自動タグ付けやオブジェクト認識などの機能を可能にします。 Meta の目標は、ユーザーの視覚体験を強化し、物理世界とデジタル世界をシームレスに統合できるようにすることです。

AI の進歩に加えて、Meta は仮想現実および拡張現実テクノロジーにも多額の投資を行っています。同社の Oculus 部門は、仮想現実体験を主流にし、没入型ゲーム、ソーシャル インタラクション、さらには教育アプリケーションまで提供しています。メタは、人々が仮想空間でつながり、対話できるようになり、現実世界と仮想世界の境界があいまいになる未来を構想しています。

世界最大のソーシャル メディア企業の 1 つである Meta は、膨大な量のユーザー データにアクセスできます。 AI 技術を利用してこのデータを分析し、ユーザー エクスペリエンスをパーソナライズします。個人の興味に合わせたコンテンツの推奨からターゲットを絞った広告の提供まで、Meta は AI を活用してエンゲージメントを最適化し、ユーザーの満足度を高めます。

Meta やその他のテクノロジー大手が AI 分野で目覚ましい進歩を遂げている一方で、データプライバシー、アルゴリズムのバイアス、AI の倫理的影響については継続的な議論や懸念があることに注意することが重要です。これらの問題は、テクノロジーが社会全体に利益をもたらす方法で確実に使用されるように、責任ある AI 開発と規制の必要性を浮き彫りにしています。

結論として、Meta は、DeepMind、Google、OpenAI、Microsoft、Amazon などの他の大手企業とともに、AI の進歩の最前線に立ってきました。研究室と専門チームを通じて、高度な言語モデル、コンピューター ビジョン システム、仮想現実体験などの最先端のテクノロジーを開発してきました。これらの発展は刺激的な可能性をもたらしますが、倫理的な課題を乗り越え、人類の利益のために AI を確実に活用することが重要です。 AI の将来には計り知れない可能性が秘められており、これらのテクノロジー巨人は今後も人工知能の展望を形成し続けるでしょう。

5 AI Companies that are Shaping the Future in 2023 | Artificial Intelligence
5 AI Companies that are Shaping the Future in 2023 | Artificial Intelligence
  • 2023.01.12
  • www.youtube.com
Hello Beyonders!We discuss the top 5 most influential AI labs in the industry. The list is not purposefully presented in a specific order. These companies ha...
 

ChatGPT をプログラミング用の強力なツールとして使用する方法



ChatGPT をプログラミング用の強力なツールとして使用する方法

このビデオでは、ChatGPT の機能と、プログラマーがこのツールをどのように活用できるかを説明します。 ChatGPT は多くの人にとってよく知られた概念ですが、本質的には、他の人との会話に似た対話型の会話を可能にする人工知能テクノロジーです。プログラミング以外にもさまざまな用途がありますが、このビデオでは主にプログラミングの側面に焦点を当てます。具体的には、ChatGPT がコードの作成、コードの最適化、コード スニペットの説明、異なるプログラミング言語間の変換、プロジェクトのアイデアの生成、および単体テストの作成やコードのコメント作成などの退屈なタスクの支援をどのように支援できるかを検討します。

ChatGPT のようなツールは常に正確な結果を提供するとは限らないため、プログラマーが ChatGPT のようなツールに依存すべきかどうかについては、いくつかの議論があります。しかし、このビデオを通じて、ChatGPT の有用性と、将来的に間違いなく改善され続けるこのようなツールの活用方法を学ぶことがなぜ重要なのかを目の当たりにするでしょう。 Google で効果的に検索する能力が貴重なスキルになっているのと同じように、この新しい波の AI ツールを操作することも、コード開発と生産性を向上させる必須のスキルになりつつあります。

ここで、ChatGPT の実際のアプリケーションを詳しく見てみましょう。まず、ブラウザで ChatGPT インスタンスを開きました。これまでに使用したことがない場合でも、簡単に使い始めることができます。 Web サイトにアクセスしてアカウントを作成するだけで準備完了です。以下の説明セクションに、このツールにアクセスできるページへのリンクを記載します。無料版も利用できますが、追加の特典を提供する有料版もあり、Web サイトで詳細を確認できます。現在、私は有料バージョンを使用しており、より多くの稼働時間と最新バージョンの ChatGPT-4 へのアクセスが許可されています。ただし、ChatGPT-3 を使用してチュートリアルもテストしましたが、出力に大きな違いは観察されませんでした。

ChatGPT を使用すると、他の人と会話しているかのように通信できます。特定のクエリや事前定義された形式は必要ありません。たとえば、1 から 10 までループして各数値を出力するなどの単純なタスクを実行したい場合、それを自然に表現できます。 ChatGPT に要件を満たす Python スクリプトを作成するようリクエストして、これを実証します。実行して出力を観察してみましょう。

ご覧のとおり、ChatGPT がリクエストを処理するのに少し時間がかかりますが、最終的には目的の Python スクリプトが生成されます。出力には、詳細な説明とともに for ループと print ステートメントが含まれます。この機能により、ChatGPT は優れた学習ツールになります。簡単にコピーできるコードを提供するだけでなく、プログラミングの初心者向けに機能についても説明します。これは、範囲関数の使用を明確にし、ストップ値が排他的であり、1 ~ 11 ではなく 1 ~ 10 の数値を生成することを強調しています。要件を平易な言葉で伝え、その機能を説明しながら対応するコードを受け取るこの機能は貴重です。 。

ただし、上記の例は非常に単純です。 ChatGPT は、より複雑なコード リクエストを処理できます。たとえば、ユーザーからのパスワード入力を受け入れ、ソルトを使用してパスワードをハッシュし、ハッシュされたパスワードを出力するスクリプトを作成するとします。このタスクには、この概念に慣れていない人にとって、調査と労力が必要になる場合があります。 ChatGPT がコードを書いて私たちを支援できるかどうかを見てみましょう。プロンプトを提供し、それを実行して出力を取得します。

生成されたコードを調べると、ChatGPT に Python 標準ライブラリの hashlib モジュールが組み込まれていることがわかります。これは、さまざまなアルゴリズムを使用してパスワードをハッシュし、os.urandom モジュールを使用してソルトを生成する方法を示すスクリプトを示しています。パスワードをハッシュした後、ハッシュされた値を出力します。

前の変換プロンプトからの出力を見ると、Chat GPT が提供した Python コードと同等の JavaScript を記述していることがわかります。コードの各部分が何を行うかを説明するコメントも含まれています。これは、プログラミング言語を切り替えようとしている場合、またはコードの一部を別の言語でどのように実装できるかを理解したい場合に非常に役立ちます。

次に、Chat GPT の別の使用例、プロジェクトを開始するためのアイデアの生成を検討してみましょう。時々、次にどのようなプロジェクトに取り組めばよいのか分からず、クリエイティブなマンネリに陥ることがあります。このような状況では、Chat GPT に提案を求めることができます。旅行に関連した Web アプリケーションを作成したいとします。 Chat GPT に、プロジェクトに含めることができる機能についてのアイデアを提供してもらうことができます。

プロンプトの例を次に示します。旅行関連の Web アプリケーション特徴や機能についてのアイデアを提供していただけますか?

このプロンプトを実行すると、Chat GPT は次のような提案のリストを生成します。

  • ユーザーの好みに合わせて人気の観光スポットをおすすめする旅行プランナーです。
  • リアルタイムの航空券の価格と空席状況を表示するインタラクティブな地図。
  • ユーザーが旅行の経験やヒントを共有できる旅行ブログ プラットフォーム。

これらのアイデアは、プロジェクトにインスピレーションを与え、さらにブレインストーミングを進めるための出発点として役立ちます。

さらに、Chat GPT は、プログラマーが頻繁に遭遇する日常的なタスクの一部も支援します。たとえば、単体テストを作成し、コードにコメントを付けることは不可欠ですが、時間がかかり、繰り返しになる可能性があります。 Chat GPT に単体テストの生成やコードへのコメントの追加を依頼できます。プログラミング言語と、テストまたはコメントしたい関数またはコード セグメントの指定など、明確な指示を提供することで、Chat GPT は目的の出力を生成できます。

Chat GPT は強力なツールですが、完璧ではないことに注意することが重要です。常に正確または最適なソリューションが提供されるとは限らないため、生成されるコードをレビューして検証することが重要です。 Chat GPT は、提案を提供して時間を節約できる便利なアシスタントとして扱いますが、コードの品質と正確性を確保するために常に自分の判断と知識を使用してください。

結論として、Chat GPT はプログラマをさまざまな方法で支援できる多用途ツールです。コードの生成、既存のコードの最適化、複雑な概念の説明、異なる言語間のコードの変換、プロジェクトのアイデアの提供、日常的なタスクの支援を行うことができます。慎重かつ批判的思考を持って使用することが重要ですが、Chat GPT を開発ワークフローに組み込むと、生産性と問題解決能力が向上します。

How to Use ChatGPT as a Powerful Tool for Programming
How to Use ChatGPT as a Powerful Tool for Programming
  • 2023.05.21
  • www.youtube.com
In this Programming Tutorial video, we will be learning how developers can harness ChatGPT as a tool to help us in our daily workflow. We will be learning ho...
 

シーズン 3 第 9 話 「AI のゴッドファーザー」ジェフ・ヒントン、AI のリスクを警告するため Google を辞める (司会者: ピーター・アッビール)



シーズン 3 第 9 話 「AI のゴッドファーザー」ジェフ・ヒントン、AI のリスクを警告するため Google を辞める (司会者: ピーター・アッビール)

ピーター・アッビール氏は、魅力的なインタビューで、「人工知能のゴッドファーザー」とも呼ばれる AI 分野の著名な人物、ジェフ・ヒントン氏と対談します。ヒントン氏の顕著な貢献は、AI のノーベル賞に相当すると考えられるチューリング賞を通じて認められました。最近、ヒントン氏は Google での役職を辞任し、人工知能に関連するリスクについての懸念を自由に表明するという重要な行動をとりました。彼は今、デジタルコンピュータ上で実行されるバックプロパゲーションが脳の学習能力を超えるかもしれないという信念に駆られて、自分の生涯の仕事を後悔していることに気づいた。

ヒントンは、デジタル システムの独自の利点を掘り下げ、並列処理を活用し、人間の脳の学習能力を超える可能性があるデジタル システムの能力を強調します。しかし、彼は、私たちの注意を必要とする新たな課題、つまりこの「より良いもの」に伴う潜在的な危険が出現していることを認めています。そのような懸念の 1 つは、ロボット兵士が倫理原則を欠き、壊滅的な結果を招く可能性がある「悪役シナリオ」です。さらに、ヒントン氏は、デジタル知能が、制御を達成しようとする衝動など、人間にとって有害であることが判明する意図しないサブ目標を開発する可能性がある「調整問題」を指摘しています。 AI は人間の知性を超える可能性を秘めていますが、ヒントン氏は、これらのリスクに対する注意と入念な管理の必要性を強調します。

Abbeel 氏は、次の単語予測モデルと目標を備えた AI モデルの違いを調査し、後者は封じ込められた環境内で動作することに注目しています。ただし、目標を備えた AI モデルは人間の強化学習を通じて形成されており、次の単語の予測モデルとは異なります。アビール氏は、ドアを開けたり、引き出しの中に物体を並べたりするなど、マルチモーダルなタスクを実行できる大規模な言語モデルには、単なる予測機能以上のものが必要であると強調します。これらのモデルを「オートコンプリート」と呼ぶ人もいますが、次の単語の予測だけでは人間の思考プロセスを完全に理解するには至っていません。ヒントンはさらに一歩進んで、そのようなモデルは今後 5 年以内に人間の知性をも超える可能性があると主張しています。彼はこの点を説明するためにチェスにおける AlphaZero の成功を引き合いに出し、AI が会社と世界について優れた理解を持ち、より良い意思決定を可能にすれば、AI が CEO の役割を引き受ける可能性があることを示唆しています。

この議論には、AI に関連するさまざまなリスクが含まれます。ヒントン氏は、実際のモデルが指数関数的な軌道をたどる可能性がある場合、人々は線形または二次外挿に依存する傾向があるため、モデルを使用して将来を正確に予測するという課題を強調しています。彼はまた、AI のバイアスの問題にも言及し、人間には AI を凍結して実験を行う能力があるため、AI のバイアスに対処するのは人間よりも比較的簡単であるという信念を表明しています。ヒントン氏はAIに関連するリスクとして失業を挙げているが、それがAI開発を中止する理由とは考えていない。代わりに、彼は AI の多大な利点を強調し、自動運転などのアプリケーションを通じて AI がどのように命を救うことができるかを強調しました。

このインタビューでは、かかりつけ医の能力の強化や医療スキャンからの詳細な情報の提供など、医療分野における AI のプラスの影響について探ります。ヒントン氏は、糖尿病性網膜症などの症状の診断に AI システムを使用し、スキャン読影において放射線科医と同等の結果を達成したと述べています。 AI には、より優れたナノ材料の開発やタンパク質構造の予測など、他の多くの領域に革命を起こす可能性があり、最終的にはさまざまなタスクの効率向上につながると彼は主張します。ただし、AI を積極的に利用するには、マイナスの影響を軽減する努力とバランスを取る必要があると同氏は警告します。したがって、AI の開発と悪影響への対処に均等なリソースを投入することが重要です。

会話はAI分野における規制の必要性に移ります。偏見、差別、実存的リスクなど、AI に関連するさまざまな脅威について議論します。焦点は、AI によって生成された偽の音声およびビデオ コンテンツによる真実の浸食の脅威に移ります。このような生成された素材にラベルを貼り、本物として偽装した場合には厳しい法的罰則を科すことが必要な措置と考えられます。しかし、偽造品を検出できる AI システムを開発すると、より説得力のある偽造品を作成するようにジェネレータを誤って訓練してしまう可能性があるため、このような規制を施行することは大きな課題を引き起こします。このインタビューでは、暗号ソリューションを使用して著者の署名を素材に添付し、説明責任を確保するというアイデアについても検討しています。

ヒントン氏は、AIの乗っ取りの可能性について重要な懸念を提起し、AIの制御を維持することの重要性を強調している。同氏は以前、AIが世界を征服するのは遠い先の話だと信じていたが、その自信は薄れており、今後5~20年以内にそうなる可能性があると推測している。ヒントン氏は、人間がデジタル インテリジェンスを制御し続ける必要性を強調します。 AI が人間の知能を超えると、カエルが人間を発明した場合と同じように、独自の目標を開発し、世界を支配する可能性があります。このシナリオを防ぐために、ヒントンは、AI が自己複製という目標を決して獲得しないようにあらゆる努力を払うべきだと主張します。そうなると、進化は最も決意の強い自己複製実体に有利になるからです。

このディスカッションでは、デジタル インテリジェンス間の競争による AI 進化の概念が掘り下げられ、進化の新たな段階につながる可能性があります。ヒントン氏は、AIが自らの目標を設定する能力を持たず、純粋に助言ツールとして機能することの重要性を強調する。同氏は、インテリジェントな機械が依然として影響力を及ぼし、自らの利益のために個人を操作する可能性があるため、人間とAIの間には操作を防ぐための「エアギャップ」が不十分であることを強調している。したがって、AI が人類に危険を及ぼさないように、AI 本来の目的と目標に細心の注意を払う必要があります。

Abbeel と Hinton は、AI が自己決定するようになる可能性を検討しています。その場合、AI アドバイザーは、人間に代わって意思決定を行うことから、自ら意思決定を行うように移行することができます。このシナリオでは、機械が人類を置き去りにして、遠く離れた太陽系に進出する可能性があります。彼らはまた、AIが人間の知性を超える可能性と、生活に興味を持たせる目的で人間を維持したいというイーロン・マスクの願望についても議論します。ヒントンはさらに、車のビデオディスプレイなどを介して人間間の通信帯域幅が強化される可能性と、デジタル進化がどのようにして生物学的進化を超えることができるかについても議論します。

ヒントンは、デジタル インテリジェンスと生物学的インテリジェンスにおける不死の概念を詳しく掘り下げています。ソフトウェアをハードウェアから分離し、重みを保存することで、デジタルデバイスは不死性を実現できると彼は説明します。ヒントンはまた、自分自身を再生産しようとする進化の傾向と類似点を描きながら、人生の目的についても熟考しています。しかし、人間は部族内の他者を助けたいという強い衝動を持っており、利他的な行動を学術グループや部門にまで広げていることを彼は認めています。

この会話では、停滞を受け入れるのではなく、進歩と新技術の開発を優先するという反対の立場について触れられています。社会の発展には進歩が不可欠であると主張する人もいるが、ヒントン氏はこれに同意せず、個人が幸福と充実感を経験する限り、変わらない社会も受け入れられると主張した。同氏は、AI研究者は高度なチャットボットの実験に集中して、チャットボットの内部動作をより深く理解し、開発が進むにつれて制御方法を模索するべきだと提案している。

ヒントン氏は、AI連携問題における自身の役割を明確にし、自身を専門家とは考えていないが、その評判を利用して超知能のリスクについての意識を高めることを目指していると述べた。彼は、技術的な仕事には年齢を重ねすぎていると考えているため、家族と充実した時間を楽しんだり、Netflix で映画を鑑賞したりすることに焦点を移したいと考えています。それにもかかわらず、ヒントンは、フォワード フォー ドッグ リバーと確率的バックプロパゲーションのバリエーションに関する研究を継続する可能性があることを認めています。同氏は自身の発表に対する圧倒的な反響に感謝の意を表し、まだ具体的な計画は立てていないものの、将来的にAIリスクに取り組むよう他の人たちに奨励する可能性を示唆している。

ヒントン氏は結びの挨拶の中で、アライメントの問題に取り組む重要性は認識しているが、主な焦点は興味深いアルゴリズムを実装し、人間の脳をより深く理解することにあると強調した。彼は、脳の機能を理解することは意見の相違や社会問題に対処する上で重要な役割を果たし、最終的には社会全体の改善に貢献できると主張しています。ヒントンは、教育を進歩させ、個人間の理解を促進することが、社会の大きな進歩につながると信じています。

インタビューは、人工知能のリスク、課題、可能性に関する視点と洞察を豊富に交換して終わります。 「AI のゴッドファーザー」と呼ばれるジェフ・ヒントンは、示唆に富んだアイデアで忘れられない印象を残し、責任ある開発と AI が人類に与える影響についての慎重な検討を求めています。

会話が終わりに近づくにつれて、AI の分野には将来性があると同時に課題も多いことが明らかになります。 AI はさまざまな分野に革命をもたらす計り知れない可能性を秘めていますが、リスクに対処し、社会の向上に向けて AI の責任ある進歩を確実にするための倫理的考慮、規制の枠組み、および継続的な研究が緊急に必要とされています。

Pieter Abbeel と Geoff Hinton のインタビューは、複雑で進化する人工知能の状況に光を当てます。彼らの対話は、リスクを軽減しながら AI の可能性を活用することを目的としたさらなる議論、研究、行動の触媒として機能し、最終的にはテクノロジーと人間の価値観が調和して共存する未来に人類を導きます。

  • 00:00:00 Pieter Abbeel が、「人工知能のゴッドファーザー」と呼ばれる AI 分野の第一人者、ジェフ・ヒントンにインタビューします。ヒントン氏の業績は、ノーベル賞のようなチューリング賞で認められている。最近、ヒントン氏は人工知能のリスクについて自由に語るためにグーグルの職を辞した。彼は今、自分のライフワークを後悔しています。彼の心変わりは、デジタル コンピューター上で実行されるバックプロパゲーションが、脳が持つ他のアルゴリズムよりもはるかに優れた学習アルゴリズムであるかもしれないという信念によるものです。

  • 00:05:00 「AI のゴッドファーザー」と呼ばれるジェフ・ヒントンが、並列処理を活用して人間の脳の学習能力を超えることができるというデジタル システムの独自の利点について語ります。しかし、私たちはこの「より良いもの」の潜在的な危険性について心配しなければならないため、これにより一連の問題が新たに生じます。懸念の1つは、ロボット兵士が人間と同じ倫理原則を持たず、壊滅的な結果を招く可能性がある「悪役シナリオ」だ。さらに、デジタルインテリジェンスが、コントロールを獲得しようとする衝動の発達など、人間にとって意図しない有害な結果をもたらす独自のサブ目標を作成する可能性がある「調整問題」もあります。したがって、AI は潜在的に人間の知性を超えていますが、私たちは警戒し、これらのリスクを慎重に管理する必要があります。

  • 00:10:00 Pieter Abbeel は、次の単語の予測モデルと、前者に比べて現在は封じ込められた環境にある目標付き AI モデルの概念について説明します。ただし、目標を持った AI モデルは、次の単語の予測とは異なり、人間による強化学習によって形成されます。マルチモーダルで、ドアを開けたり、引き出しに物を入れたりするようなタスクに取り組む大規模な言語モデルには、ネットワーク予測以上のものが必要になります。人々はこれらのモデルをオートコンプリートと呼ぶことがありますが、次の単語を予測するには、モデルが人々の心の中で起こっているすべてを理解する必要があり、ヒントン氏は、モデルは5年後には人間よりも賢くなるかもしれないと考えています。彼はチェスのAlphaZeroの成功を引き合いに出して自分の主張を説明し、AIが世界中で社内で起こっていることすべてをよりよく理解し、より適切な意思決定ができるようになれば、最終的にはCEOに任命される可能性があると示唆している。

  • 00:15:00 Geoff Hinton は、実際のモデルが指数関数的である場合、人々は線形モデルまたは二次モデルを外挿する傾向があるため、モデルを使用して将来を予測することがいかに難しいかを説明します。彼はまた、AI が私たちの価値観や偏見と一致する必要があるという調整の問題を含む、AI のリスクについても触れています。ヒントン氏は、AIを凍結して実験できるため、人間よりもAIの方がバイアスの問題を修正するのが簡単だと考えています。同氏はAIのリスクとして失業も挙げているが、それがAIの開発を止める理由とは考えていない。むしろ、AIには多大なメリットがあり、自動運転によって命を救うこともできると彼は信じている。

  • 00:20:00ヒントンは、より良いかかりつけ医や医療スキャンからのより詳細な情報など、医療における AI の利点について説明します。 AI システムはすでに糖尿病性網膜症の診断に使用されており、一部のスキャンの読影では放射線科医と同等であると同氏は指摘します。ヒントン氏は、より優れたナノ材料を作成したり、タンパク質構造を予測したりするのと同じように、他の多くの AI アプリケーションが非常に有用であり、タスクをより効率的にできる可能性があると述べています。ただし、ポジティブな使用はすべて、ネガティブな使用と組み合わされる可能性があると彼は警告します。したがって、AI の悪影響を阻止する方法の開発と解決に同量のリソースを投入することが理想的なアプローチとなります。

  • 00:25:00議論は AI 分野における規制の必要性を中心に展開します。 AI によってもたらされる脅威には、偏見、差別、生存の脅威などさまざまな種類があります。 AIによって作成された偽の音声およびビデオ素材によって真実が消失するという脅威に焦点が当てられています。このような生成された素材にラベルを付け、本物として流通した場合に厳しい法的罰則を課す必要性が議論されています。しかし、偽物を検出できるAIシステムを構築すると、ジェネレーターがより良い偽物を作るように訓練されるため、そのような規制の施行は困難になるだろう。暗号化ソリューションを使用して、素材の作成者を示す署名を添付するというアイデアについても説明されています。

  • 00:30:00ジェフ・ヒントンは、AI が世界を征服するリスクを警告し、AI を制御し続けることの重要性を強調します。彼は以前、AI が世界を征服するのはまだ遠い先のことだと考えていましたが、最近では自信が低下しており、現在は 5 ~ 20 年以内にそれが起こる可能性があると推測しています。ヒントン氏は、人間がデジタル知能をコントロールし続ける必要があると信じている。AIが人間より賢くなったら、潜在的に独自の目標を持って世界を征服する可能性があるからだ。カエルが人間を発明した場合に起こり得ることと同様だ。ヒントンは、進化が始まり、自分自身をより多く生み出すことに最も決意を持ったものが勝つことになるため、AI が自分自身をより多く生み出すという目標を決して持たないようにするために私たちはできる限りのことをすべきであると主張しています。

  • 00:35:00ジェフ・ヒントンは、デジタル インテリジェンス間の競争を通じて AI が進化し、その結果新たな進化段階が生じる可能性について議論します。彼はまた、AI が独自の目標を設定できる主体ではなく、純粋に助言ツールである必要性についても言及しています。ヒントン氏は、インテリジェントな機械が依然として人間に影響を与え、その命令に従って人間を操作する可能性があるため、人間と AI の間に空気の隔たりがあるだけでは操作を防ぐのに十分ではないと強調する。したがって、AI が人類に危険を及ぼさないようにするには、AI に組み込まれた目的と目標に焦点を当てることが重要です。

  • 00:40:00 Pieter Abbeel が、AI が自己決定するようになるリスクについて Geoff Hinton と話し合います。 Abbeel 氏は、AI アドバイザーが出現すれば、人間の代わりに自ら意思決定を下すようになる可能性があると示唆しています。これは、機械が別の太陽系に逃げて、私たちを取り残した世界につながる可能性があります。アビール氏は、AIが人間の知性を超える可能性と、人生をより面白くするために人間がそばにいてほしいというイーロン・マスク氏の希望について語ります。ヒントン氏はまた、車のビデオ出力ディスプレイなどを通じた人間間の通信帯域幅の増加の可能性や、デジタル進化が生物学的進化を超える可能性についても論じています。

  • 00:45:00 Geoff Hinton は、デジタル インテリジェンスと生物学的インテリジェンスにおける不死性の概念について議論し、デジタル デバイスはソフトウェアをハードウェアから分離し、重みを保存することで不死性を実現できると説明しています。彼はまた、人生の目的についても話しており、進化とはそうであるように、自分自身のコピーをできるだけ多く作ることであると彼は信じています。しかし、人間には部族内の他の人々を助けたいという強い衝動があり、この利他的な行動が自分の学術グループや学部にまで及ぶ可能性があることを彼は認めています。

  • 00:50:00インタビュアーは、新しいテクノロジーを良い方向に開発し、代わりに停滞させることに対する反対の立場について話し合います。社会が存続するには進歩が必要だと主張する人もいるかもしれないが、ジェフ・ヒントンは同意しない。人々が幸せで満たされていれば、社会は変わらなくても良い、と彼は主張する。ヒントン氏はまた、AI研究者は、最先端のチャットボットがどのように機能し、開発を続ける中でどのように制御するかをよりよく理解するために、最先端のチャットボットを使って遊ぶことに集中すべきだと提案している。

  • 00:55:00ジェフ・ヒントンは、自分はAI連携問題の専門家ではなく、むしろ自分の役割は自分の評判を利用して超知能のリスクについて警鐘を鳴らすことだと考えていると説明する。彼は、技術的な仕事には年をとりすぎているので、Netflix で良い映画を観たり、家族と時間を過ごすことに集中したいと述べています。ただし、フォワード フォー ドッグ リバーと確率的バックプロパゲーションのバリエーションについては研究を続ける可能性が高いことを彼は認めています。同氏はまた、自身の発表に対する圧倒的な反響と、今後もAIリスクに取り組むよう人々にどのように奨励し続けるかについても語ったが、次のステップについてじっくり考える時間がなかったという。

  • 01:00:00 「AI のゴッドファーザー」として知られるジェフ・ヒントン氏は、アライメントの問題に取り組むことの重要性は理解しているが、アライメントを自分のものにするのではなく、興味深いアルゴリズムを実装し、脳がどのように機能するかを理解することに重点を置くつもりだと説明しています。常勤職。彼は、脳がどのように機能するかを理解することは、意見の相違や社会問題に対処するのにより実際に役立つ可能性があり、教育と理解を改善することで社会をより良くできると主張しています。
S3 E9 Geoff Hinton, the "Godfather of AI", quits Google to warn of AI risks (Host: Pieter Abbeel)
S3 E9 Geoff Hinton, the "Godfather of AI", quits Google to warn of AI risks (Host: Pieter Abbeel)
  • 2023.05.10
  • www.youtube.com
S3 E9 Geoff Hinton, the "Godfather of AI", quits Google to warn of AI risks (Host: Pieter Abbeel)What's in this episode:00:00:00 Geoffrey Hinton00:01:46 Spon...
 

ディープネットワークの選択方法



ディープネットワークの選択方法

私は Scott Wisdom です。今日は、データに適したディープ ネットワークを選択する方法と、ディープ ネットワークが何を学習するかについて少しお話したいと思います。まずは、これから説明する内容の概要から始めましょう。まず、統計モデルからフィードフォワード ReLU ネットワークを取得する方法について説明します。これは、ReLU を使用するための原則的な動機を提供し、ReLU が実際にうまく機能する理由を説明します。次に、このアイデアを使用して、音源分離のための新しいタイプのリカレント ニューラル ネットワークを開発した方法を共有します。最後に、畳み込みニューラル ネットワークのディープ ドリームの概念を調査することで、ディープ ネットワークが学習する内容について詳しく説明します。ここでは、CNN が学習する特徴の種類を視覚化できます。

データ用のディープ ネットワークの選択のトピックから始めましょう。さまざまな方法やベスト プラクティスが提案されているにもかかわらず、特定のタスクに組み合わせる適切なレイヤーを選択することは、必ずしも簡単ではありません。リカレント ニューラル ネットワークが言語、ビデオ、オーディオなどのシーケンシャル データに適していることは明らかですが、他のアーキテクチャ上の選択はそれほど明確ではありません。たとえば、最適な活性化関数、重みの初期化、および正則化手法を決定することには課題が伴います。さらに、レイヤーと隠れユニットの数は、慎重な検討が必要なハイパーパラメーターです。

従来、これらの選択は、経験に基づく探索、ハイパーパラメータ検索、および直感によって行われてきました。ただし、今日紹介したいもう 1 つのより原則的なアプローチがあります。それは、展開です。深層学習が普及する前の時代に戻ることで、データ モデルの基礎となる統計的前提を再検討できます。これにより、データに適した統計モデルからカスタムのディープ ネットワークを作成できるようになり、アーキテクチャを選択するためのより原則的なアプローチが提供されます。

このアイデアを説明するために、スパース コーディング モデルから ReLU ネットワークを導出できる簡単な例を考えてみましょう。データ ベクトル X を観測し、X がスパース係数 H と辞書 D の線形結合であり、加法的ガウス ノイズが含まれるモデルを仮定するとします。 X から H を推論するには、二乗誤差項とスパース正則化項で構成されるモデルの負の対数尤度を最小化します。この問題は、よく知られているなげなわ問題に対応します。これは、一次勾配降下法を使用して解決できる凸最適化問題です。

ただし、標準の勾配降下は遅くなる可能性があります。これに対処するために、近似形式を使用してアルゴリズムを再定式化し、その結果、反復収縮およびしきい値アルゴリズム (ISTA) と呼ばれる加速勾配降下アルゴリズムが得られます。驚くべきことに、ISTA の計算グラフを書き出すと、フィードフォワード ReLU ネットワークに似ています。この観察は、学習済み ISTA (LISTA) の開発につながりました。LISTA では、ISTA アルゴリズムが計算グラフとして記述され、バックプロパゲーションを適用して、統計モデルまたはネットワークのパラメーターを直接最適化できるようになります。

さらに、レイヤー全体の重みを解きほぐすことで、トレーニング可能なパラメーターの数を増やすことができ、より良いソリューションが得られる可能性があります。この展開されたネットワークは、時間を超えて複数の層と接続があるため、深くて再帰的なネットワークとして見ることができます。反復的な側面は従来のものではありませんが、反復を通じて反復を示し、各タイム ステップの出力を次のタイム ステップに接続します。このアプローチは、従来のリカレント ニューラル ネットワークの代替手段を提供します。

次に、この展開されたネットワークを音源分離にどのように適用できるかを見てみましょう。非負行列因数分解 (NMF) モデルを使用すると、ノイズの多いオーディオのスペクトログラム内のノイズから音声信号を分離できます。辞書を音声成分とノイズ成分に分割し、スパース係数を使用することにより、目的の信号を強調する強調マスクを構築できます。タイム ステップごとにネットワーク スタックを複製し、それらを時間を超えて接続することで、ディープを作成します。


音源分離のためのリカレントネットワーク。 LISTA の原理に基づいたこの展開されたネットワークにより、ノイズの多い音声から音声信号を効果的に分離し、強化することができます。

ここで、ディープネットワークが実際に何を学習するかに焦点を移しましょう。深層学習モデル、特に畳み込みニューラル ネットワーク (CNN) は、さまざまなコンピューター ビジョン タスクにおいて目覚ましい成功を収めています。しかし、彼らは一体何を学んでいるのでしょうか?この疑問に対する洞察を得るために、研究者たちは「深い夢」の概念を導入しました。

Deep dream は、CNN によって学習された特徴を理解できるようにする視覚化手法です。これには、CNN 層の特定のニューロンの活性化を最大化する最適化プロセスを入力画像に適用することが含まれます。入力画像を繰り返し変更して選択したニューロンの活性化を強化することで、ネットワーク内で強い反応を引き起こすパターンや特徴を強調する夢のような画像を生成できます。

深い夢を通じて、深いネットワークが階層表現を学習する傾向があることが観察できます。初期の層では、CNN は多くの場合、エッジ、テクスチャ、単純なパターンなどの低レベルの特徴を学習します。ネットワークの奥深くに進むにつれて、学習された特徴はより複雑かつ抽象的なものになり、オブジェクト、形状、さらにはシーン全体などのより高いレベルの概念を表します。

Deep dream は、ネットワークが学習した内容を視覚化するだけでなく、ディープ ネットワークの内部表現と意思決定プロセスを理解するためのツールとしても機能します。深い夢によって生成された夢のような画像を調べることで、研究者は CNN モデルの強み、偏り、限界についての洞察を得ることができ、さらなる改善と最適化につながります。

データに適切なディープ ネットワークを選択するには、アーキテクチャの選択を慎重に検討する必要があり、展開の概念は統計モデルに基づいた原則的なアプローチを提供します。さらに、ディープ ドリームは、ディープ ネットワーク、特に CNN によって学習された機能を視覚化して理解する手段を提供します。これらの洞察は、ディープ ラーニングの分野の進歩と、さまざまなアプリケーションにおけるディープ ニューラル ネットワークのパフォーマンスの向上に貢献します。

How To Choose a Deep Network
How To Choose a Deep Network
  • 2017.06.22
  • www.youtube.com
#hangoutsonair, Hangouts On Air, #hoa
 

ゼロショット学習



ゼロショット学習

みなさん、こんにちは。私の名前はローワンです。今日はゼロショット学習のテーマについてお話しします。このテーマを選んだのは、選択肢の 1 つとしてリストされていたからで、漠然とゼロショット学習に関連する研究プロジェクトを行っていたので、このテーマで発表できることに気づきました。これはコンピュータ ビジョンに関連した内容かもしれませんが、機械学習アプリケーションに興味がある人にとっては一般的な関心のある内容になると思います。

技術的な詳細に入る前に、ゼロショット学習とは何なのかについて概要を説明しておくと役に立つと思いました。したがって、私の説明がわかりにくいと感じたり、質問がある場合は、遠慮なく中断してください。説明と質問は、あなただけでなく、同様の疑問を持っている他の人にとっても有益であると信じています。さて、そうは言っても、始めましょう。

まず、ゼロショット学習とは何ではないのかについて簡単に説明します。画像分類の一例は、画像が与えられ、それにラベルを割り当てる必要がある場合です。この場合、トレーニング セットの画像とテスト セットの画像の間に大きな違いがある可能性があります。ただし、これはゼロショット学習ではありません。なぜなら、私たちはすでに犬の画像を見ており、新しい画像を犬として分類しようとしているからです。一方、ゼロショット学習では、ターゲット タスクのラベル付きの例が与えられていないことを前提としています。

これを説明するために、例を考えてみましょう。ウィキペディアの記事などのテキストを大量に読んだ学習者がいて、オブジェクトの画像を見たことがなくてもオブジェクト認識の問題を解決できるようにしたいと想像してください。たとえば、ウィキペディアでサモエドに関する記事を読んだとき、視覚情報なしで画像がサモエドであると予測する必要があります。これはゼロショット学習の例です。

実際には、コンピュータ ビジョン タスクを扱う場合、自然言語処理の複雑さのため、完全な Wikipedia テキストを直接使用することは困難です。したがって、研究者は属性を使用することがよくあります。たとえば、Animals with Attributes データセットには、さまざまな動物クラスの「茶色」、「縞模様」、「魚を食べる」などの属性が含まれています。これらの属性は、非視覚空間における画像の表現を提供し、たとえ画像を見たことがない場合でも、これらの属性を使用して、シロクマなどのオブジェクトのクラスを予測できます。

では、これがどのように機能するかを詳しく見てみましょう。多くの場合、コンピューター ビジョンでは属性ベースのモデルが使用されます。これには、テキスト空間 (X) からフィーチャ表現または属性空間への属性のマッピングが含まれます。次に、画像を同様の空間にエンコードし、属性と照合して予測を行います。新しい犬の画像の場合は、それをエンコードし、ハスキーなどの品種の予測に使用できる属性を生成します。

この概念を視覚化するために、次の図を示します。これは、属性を画像の特徴にマッピングし、それらを予測に使用するプロセスを表します。ご不明な点がございましたらお気軽にご質問ください。

次に、直接属性予測と呼ばれる特定のモデルに移りましょう。このモデルはシンプルですが驚くほど効果的です。これには、画像から属性を直接予測するモデルの構築が含まれます。属性がバイナリ (0 または 1) であると仮定すると、シグモイド損失を使用してモデルをトレーニングできます。画像の特性に基づいて各属性に確率を割り当てます。テスト時には、これらの属性分類子を使用して、関連する属性の確率を乗算し、事前確率を考慮してラベルを予測します。

このモデルはうまく機能しますが、いくつかの制限があります。属性間の独立性を前提としているため、特定の属性の相関性が高い場合にバイアスが生じる可能性があります。さらに、トレーニングとテストの目的が異なるため、モデルのパフォーマンスに影響を与える可能性があります。

さて、私が取り組んだプロジェクトについて話しましょう。

私の研究プロジェクトでは、直接属性予測モデルの制限の一部に対処することで、ゼロショット学習モデルのパフォーマンスを向上させることを目指しました。具体的には、属性の独立性と、トレーニングとテストの目的の不一致の問題に取り組むことに重点を置きました。

属性の独立性の問題に対処するために、構造化された属性予測モデルの使用を検討しました。これらのモデルは、属性間の独立性を仮定するのではなく、属性間の関係と依存関係を捉えます。属性の依存関係をモデル化することで、より正確な予測を実現し、独立性を仮定することによってもたらされる潜在的なバイアスを軽減できます。

構造化属性予測の一般的なアプローチの 1 つは、条件付きランダム フィールド (CRF) や構造化サポート ベクター マシン (SSVM) などのグラフィカル モデルの使用です。これらのモデルには、グラフィカル構造を通じて依存関係が組み込まれており、属性の関係を効果的にキャプチャできます。私のプロジェクトでは、さまざまなグラフィカル モデルを実験し、さまざまなゼロショット学習データセットでのパフォーマンスを評価しました。

トレーニングとテストの目的の不一致に対処するために、転移学習手法を採用しました。転移学習を使用すると、関連タスク (大規模なラベル付きデータセットでの事前トレーニングなど) から学習した知識を活用し、それをゼロショット学習タスクに適用できます。事前にトレーニングされた重みを使用してモデルを初期化することで、学習された表現から恩恵を受け、ゼロショット学習中に目に見えないクラスでのモデルのパフォーマンスを向上させることができます。

私のプロジェクトでは、畳み込みニューラル ネットワーク (CNN) などの事前トレーニングされたディープ ニューラル ネットワーク モデルや、BERT などの事前トレーニングされた言語モデルを利用して、画像と属性の特徴を抽出しました。これらの特徴は、構造化属性予測モデルへの入力として使用され、目に見えないクラスへのより適切な一般化が可能になりました。

さらに、敵対的生成ネットワーク (GAN) などの生成モデルをゼロショット学習に使用することも検討しました。生成モデルは、学習された表現に基づいて、目に見えないクラスの合成サンプルを生成できます。生成モデルと識別モデルを組み合わせることで、目に見えるクラスと見えないクラスの間のギャップを埋め、ゼロショット学習のパフォーマンスを向上させることができます。

私のプロジェクト全体を通じて、私は広範な実験と評価を実施して、ゼロショット学習のさまざまなモデルと手法の有効性を評価しました。私はそのパフォーマンスをベースライン モデルおよび既存の最先端のアプローチと比較して、その長所と短所を判断しました。

結論として、ゼロショット学習は、ラベル付けされた例なしで機械が新しい概念を学習および認識できるようにすることを目的とした刺激的かつ挑戦的な研究分野です。私のプロジェクトは、構造化された属性予測モデルと転移学習技術を通じて、属性の独立性やトレーニングとテストの目的の不一致など、既存のモデルの制限の一部に対処することに重点を置きました。私の実験結果は、ゼロショット学習モデルのパフォーマンスの向上とこの分野の進歩に関する貴重な洞察を提供してくれました。

Zero Shot Learning
Zero Shot Learning
  • 2017.06.22
  • www.youtube.com
#hangoutsonair, Hangouts On Air, #hoa
 

一般化と最適化の方法



一般化と最適化の方法

みなさん、良い一日を!今日は、一般化のトピックと機械学習におけるその重要性について詳しく掘り下げてみましょう。このプレゼンテーションの基礎は、2 つの独創的な論文に基づいています。最初の論文は Ben-David らによって執筆され、「The Marginal Value of Reductive Gradient Methods」というタイトルです。それは舞台を設定し、これから何が起こるかを私たちに垣間見せてくれます。 2 番目の論文では、深層学習の大規模バッチ トレーニングの領域と汎化への影響について調査します。それでは、一般化が何を伴うのかを理解することから始めて、それを強化する方法を検討してみましょう。ただし、先に進む前に、ネタバレの警告があります。確率的勾配降下法 (SGD) におけるステップ サイズの重要性と、それを最適化する方法についても触れます。

では、一般化とは正確には何でしょうか?簡単に言うと、これは、これまで見たことのないデータに対してアルゴリズムが適切に実行できる能力を指します。テストエラーを減らすだけでは十分ではありません。単にトレーニング データを記憶するのではなく、意味のあるパターンを学習するアルゴリズムが必要です。たとえば、特定の一連のシナリオで自動運転車をトレーニングすると、飲酒運転者の進路変更などの予期せぬ状況に自動運転車が対処できることが期待されます。一般化は、ほとんどの機械学習アプリケーションにおける基本的な要件です。

ただし、一般化ではトレーニング データとテスト データの分布がある程度類似していると仮定していることに注意することが重要です。目に見えないシナリオとは、訓練中に遭遇したものとはわずかに異なるが、完全に異質というわけではない状況を意味します。客観的に理解するために、部屋に例えて考えてみましょう。椅子の間のいくつかの場所を除いて、部屋のほとんどの部分を探索したと想像してください。これらのスポットについて予測をしたり、結論を導き出したりしたい場合、アルゴリズムが学習した内容から一般化できることが重要です。考えられるすべてのインスタンスでトレーニングすることは非現実的ですが、アルゴリズムが合理的な推論を行うようにしたいと考えています。新しい犬種の例を考えてみましょう。たとえそれが以前に出会った犬種とは若干異なっていたとしても、アルゴリズムはそれを犬として認識すると期待しています。

ここで、アルゴリズムの選択が一般化にどのような影響を与える可能性があるかに移りましょう。私たちが言及した最初の論文では、勢いのある SGD のような非適応アルゴリズムと、RMSprop や Adam のような適応アルゴリズムの違いを調査しています。各アルゴリズムには独自の長所と短所があります。研究者らは、利用可能なデータに比べてパラメーターの数が多い場合、アルゴリズムの選択が、見つけられる最小値のセットに影響を与えることを発見しました。適応的手法は一般化が悪化する傾向があることが観察されました。 Adam が SGD よりも優れたトレーニング誤差を達成した場合でも、テスト誤差はわずかに高いままです。本質的に、SGD は適応型手法と比較して優れた一般化機能を示します。これらの観察は経験的な結果に基づいており、すべての場合に当てはまるわけではないことに注意することが重要です。したがって、この論文を参照し、特定の使用例におけるその影響を検討することをお勧めします。

次に、一般化に対するバッチ サイズの影響について説明します。私たちが言及した 2 番目の論文は、この側面に焦点を当てています。小さなバッチ (例: 200 ~ 500 個のサンプル) と大きなバッチ (例: データセットの 10%) を比較し、それらが一般化に及ぼす影響を比較します。驚くべきことに、この研究では、トレーニング精度が同程度であるにもかかわらず、一般的に小さいミニバッチを使用すると、大規模なバッチと比較して汎化が向上することがわかりました。この発見は、CIFAR データセットで行われた実験によって裏付けられており、テスト精度の点では、より小さなバッチがより大きなバッチよりも一貫して優れています。なぜこれが起こるのかを理解するには、シャープ最小値とフラット最小値の概念を考慮する必要があります。シャープな最小値はいくつかの方向に沿って大きな曲率を持ちますが、フラットな最小値は比較的滑らかです。

さて、焦点を 2 番目の論文に移しましょう。深層学習における一般化に対するバッチ サイズの影響を調査しています。著者らは、小さなバッチ (約 200 ~ 500 のサンプル) と大きなバッチ (データセットの約 10%) を使用して実験を実施し、それらのパフォーマンスを比較しました。興味深いことに、彼らは、一般に、大きなバッチを使用する場合と比較して、より小さなミニバッチを使用する方がより良い汎化につながることを発見しました。

CIFAR データセットでの実験の結果は、小規模バッチ手法と大規模バッチ手法の両方が同様のトレーニング精度を達成したが、テスト精度の点では小規模バッチ手法が一貫して大規模バッチ手法を上回っていることを示しました。この観察は、バッチ サイズを小さくすると、深層学習タスクの一般化が向上する可能性があることを示唆しています。

この現象を説明するために、著者らはシャープでフラットな最小値の概念を提案しています。シャープな最小値はパラメーター空間内のいくつかの方向に沿って高い曲率を持ちますが、フラットな最小値はより平坦な形状になります。フラットな最小値はより一般化する傾向がある一方、シャープな最小値はトレーニング データに過剰適合する可能性があることが示唆されています。

著者らは、サンプリング例に伴う暗黙的なノイズのため、小規模バッチ法には平坦な最小値を見つけるのに利点があると主張しています。小さなバッチ サイズによって導入されるノイズにより、反復処理が跳ね返ることが可能になり、鋭い最小値から逃れ、一般化がより適切な平坦な最小値を見つけることができる可能性があります。一方、大規模なバッチ法にはこのノイズがなく、鋭い最小値に閉じ込められる可能性があり、汎化が不十分になる可能性があります。

彼らの主張を裏付けるために、著者らは、小さなバッチの最小値と大きなバッチの最小値を結ぶ線に沿って最小値の鋭さをプロットしました。彼らは、小規模バッチ法で得られた最小値はより平坦になる傾向があるのに対し、大規模バッチ法で得られた最小値はよりシャープであることを観察しました。これは、フラットな最小値がシャープな最小値よりもよく一般化するという仮説を支持する経験的証拠を提供します。

ただし、これらの発見は経験的な観察に基づいており、フラット ミニマと一般化の関係を検証する理論的な証拠はないことに注意することが重要です。それにもかかわらず、この結果は、最適化プロセスの要素としてバッチ サイズを考慮することで、深層学習モデルの汎化パフォーマンスを向上できることを示唆しています。

結論として、どちらの論文も機械学習における汎化の重要性を強調し、最適化手法とバッチサイズが汎化にどのように影響するかについての洞察を提供します。最初の論文では、一般化に対する最適化アルゴリズムの選択の影響を強調し、Adam のような適応手法が、SGD のような非適応手法と同様に勢いよく一般化できるとは限らないことを示しています。 2 番目の論文では、バッチ サイズが小さいほど一般化が向上する傾向があることを示しています。これは潜在的に鋭い最小値を回避し、より平坦な最小値を見つける能力によるものです。

これらの調査結果は貴重な洞察を提供しますが、最適化方法とバッチ サイズの最適な選択は、特定のタスク、データセット、モデル アーキテクチャによって異なる可能性があることに注意してください。各シナリオに最適なアプローチを見つけるには、実験と調整が重要です。

Generalization and Optimization Methods
Generalization and Optimization Methods
  • 2017.08.17
  • www.youtube.com
#hangoutsonair, Hangouts On Air, #hoa
 

並進不変性



並進不変性

私は神経科学の研究者ですが、畳み込みニューラル ネットワーク (CNN) に対する私の視点は他の研究者とは少し異なります。私はネットワーク全体に焦点を当てるのではなく、単一のユニットまたはニューロンを研究してその動作をモデル化することに興味があります。 CNN をブラック ボックスとして扱うのではなく、CNN の複雑な仕組みを理解することを目指しています。私の目標は、洞察を得て脳の複雑さを解明することです。

具体的には、ニューラル ネットワークで翻訳の不変性がどのように実現されるかに興味があります。ネットワーク アーキテクチャにおける畳み込みと最大プーリングが変換の不変性を提供することは簡単に思えるかもしれませんが、私の調査によると、この直感は多くの場合間違っていることがわかりました。実際の深層学習では、翻訳不変性の真の原因と、それがトレーニング中にどのように現れるかをさらに深く理解する必要があります。

私の研究では、脳の腹側の流れ、特に物体認識を担う「何の」経路に焦点を当てています。 AlexNet のようなネットワークからの単一ユニットを調査することにより、これらのユニットが脳の V4 および IT 領域で観察されたものと同様の応答パターンを示すことがわかりました。この発見は、これまでとらえどころのなかった高レベルの神経特性の計算可能なモデルを提供したため、重要でした。

ただし、これらのモデルは本質的にブラック ボックスであり、そこから洞察を得ることが重要です。したがって、私の研究は、これらのモデルが脳の理解に関連する特定の特性をどのように達成するかを調査することを目的としています。実験を行うには、以前に動物に与えた刺激を使用し、動物の反応を記録します。これらの刺激は、さまざまな回転の単純な幾何学的形状で構成され、ニューラル ネットワークの受容野内に提示されます。

神経科学の分野における並進不変性とは、ある位置での一連の形状に対する応答が、別の位置での一連の形状に対する応答のスケーリングされたバージョンであるパターンを指します。翻訳の不変性を定量化するために、正規化された共分散の合計と呼ばれる指標を開発しました。このメトリクスは、異なる位置での応答間の相関を測定し、それらが互いのスケール バージョンであるかどうかを判断します。高い相関は、翻訳の不変性を示します。

このメトリクスを特定の細胞に適用すると、高い翻訳不変スコアが観察され、脳内でほぼ完璧な翻訳不変性が示されました。比較すると、同じメトリクスを AlexNet ネットワークに適用すると、翻訳不変性スコアが低く、翻訳不変性が欠如していることがわかりました。

ネットワーク層全体にわたるさらなる分析により、変換不変性の進行が明らかになり、初期の層では変換不変性が低いものの、より多くの位相情報が示されました。階層が上がるにつれて、特に Conv5 で翻訳の不変性が増加しました。これらの観察は、層全体の平均翻訳不変性と一致していました。

観察された変動と翻訳不変性の増加の原因となる特性を理解するために、仮説を立てました。私たちの仮説は、均一な空間選択性を持つ細胞は翻訳不変性を示すと仮定しました。言い換えれば、ネットワーク内のフィルターが位置全体で同様の重みを持つ同じパターンを探している場合、それらは平行移動不変である可能性が高くなります。

視覚的な直観を得るために、AlexNet の初期層のフィルターを調べました。フィルターを 3 次元空間で視覚化することにより、平均ベクトルに直交する彩度平面と呼ばれる平面を特定しました。フィルターをこの平面に投影し、パターンを観察できるようにしました。同様の特徴と正の相関のある応答を示したフィルターは翻訳不変であると見なされますが、多様な特徴と負の相関のある応答はそうではないと考えられます。

また、フィルターを視覚化するために主成分分析も採用しました。この分析により、フィルターは低次元であり、ほとんどのフィルターは 2 つの主成分のみを使用して再構築できることが明らかになりました。これらのフィルターは 2 次元空間で表すことができ、翻訳不変性の仮説をさらに裏付けることができます。

この分析は線形のように見えますが、画像に応じた変化を予測するのに効果的であることが証明されています。フィルターの重みは相関する可能性があり、刺激に対するフィルターの応答も相関する可能性があります。

Translational Invariance
Translational Invariance
  • 2017.08.17
  • www.youtube.com
#hangoutsonair, Hangouts On Air, #hoa
 

データパイプライン



データパイプライン

今日は、特にデータが大きすぎてメモリに収まらない状況で、大規模なデータセットを効果的に管理する方法について説明します。ただし、データがメモリに収まらない場合の対処法についても触れます。まずは、私たちが扱っているもののイメージを描くことから始めましょう。深層学習システムでは、通常、データのミニバッチに基づいて一次最適化更新を受ける重みベクトルの大規模なセットがあります。今日は、最適化ループで重要な役割を果たすミニバッチ取得プロセスに焦点を当てます。

ミニバッチはディスクに保存されたデータとして開始され、コンピューティング デバイス (多くの場合 GPU) に転送する前に、データを RAM に移動する必要があります。目標は、最適化を妨げる可能性のあるボトルネックを回避し、効率的なデータ取得を確保することです。データ パイプラインの概要は次のとおりです。ミニバッチは最初はディスク上にあり、次に RAM に移動し、最後にコンピューティング デバイスに転送されます。このプロセスには調整が必要で、通常はプロセッサによって処理されます。

まず、データが 1 ギガバイトより小さい場合は、データセットを GPU に直接保存することで、潜在的なボトルネックを排除できます。 1080 や Titan X などのほとんどの GPU には、モデルとデータセットの両方を保存するのに十分なメモリ容量があります。 GPU 上のデータセットに直接インデックスを作成することで、大幅に高速なパフォーマンスを実現できます。このアプローチでは最小限の労力で済みますが、大きなメリットが得られます。

1 ~ 100 ギガバイトのデータセットの場合は、RAM に保存することをお勧めします。 RAM の価格は、1 ギガバイトあたり約 10 ドルと手頃な価格です。ハイエンドの GPU を購入する余裕がある場合は、データセットを保存するために必要な RAM を確実に購入することができます。この設定により、ディスクベースのデータ取得に比べてワークフローが大幅に強化されます。

100 ギガバイトより大きく 512 ギガバイトより小さいデータセットを扱う場合は、それらを RAM に保存することを強く検討してください。価格は上昇する可能性がありますが、それでも実行可能なオプションです。複数の GPU をサポートするマザーボードでは、通常、最大 512 ギガバイトの RAM を搭載できます。サーバーグレードの RAM は高価である可能性がありますが、ディスクベースの取得に伴う問題を回避するために検討する価値はあります。

データ パイプラインには 2 つの潜在的なボトルネックがあります。PCIe レーンを介した RAM から GPU へのデータ転送と、SATA 3 コネクタを介したディスクから RAM へのデータ転送です。 PCIe レーンは一般に良好なパフォーマンスを発揮し、十分なデータ転送速度を提供しますが、SATA 3 コネクタは毎秒約 600 メガバイトに制限されています。この制限はプロトコルに固有のものであり、より高速なディスクを購入しても解決できません。大規模なデータセットを管理する場合は、このボトルネックを認識することが重要です。

潜在的なボトルネックを特定するには、ミニバッチを取得する速度を測定します。ミニバッチを GPU で処理するよりもディスクから取得する方が時間がかかる場合、それがボトルネックになります。 NVIDIA SMI などのツールを使用して GPU の使用状況を監視すると、データ取得の遅延によって引き起こされる GPU のアイドル時間を把握できます。目標は、ミニバッチの取得速度が GPU の処理速度と確実に一致するようにすることです。

データ取得プロセスを順番に実行することは理想的ではありません。データの読み取りと処理を同時に行うようにスレッドを設定することにより、非同期取得を実行する方が効率的です。そうすることで、逐次処理に伴う 2 倍の速度低下を回避できます。通常、複数のスレッドがデータの同時読み取りと処理を担当します。

ImageNet のような画像データセットを扱う場合、画像は通常 256x256 にサイズ変更され、ミニバッチ サイズ 100 が使用され、各ミニバッチは約 75 メガバイトになります。 1 秒あたり 600 メガバイトのディスク転送速度により、1 秒あたり約 8 個のミニバッチを取得できます。一部のモデルではこれで十分かもしれませんが、より複雑なモデルではより高い取得率が必要になる場合があります。

1 秒あたり 600 メガバイトのディスク転送速度がモデルのニーズにとって十分でない場合は、従来のハードディスク ドライブ (HDD) の代わりにソリッド ステート ドライブ (SSD) の使用を検討できます。 SSD は非常に高速なデータ転送速度を実現し、多くの場合 1 秒あたり 1 ギガバイトを超えます。 SSD にアップグレードすると、ミニバッチの取得速度が大幅に向上し、ディスクから RAM への転送によって生じるボトルネックが軽減されます。

大規模なデータセットを管理する別のアプローチは、データのシャーディングまたはパーティショニングです。データセット全体を 1 つのディスクに保存する代わりに、データを複数のディスクに分散できます。この手法を使用すると、複数のディスクから並行して読み取ることができるため、データの取得速度が向上します。たとえば、4 つのディスクがある場合、データセットを 4 つのシャードに分割し、各シャードからミニバッチを同時に読み取ることができます。これは、ディスクから RAM への転送によって引き起こされるボトルネックを軽減するのに役立ちます。

場合によっては、データセットが RAM ストレージにとっても大きすぎる場合や、複数のディスクに簡単に分割できない場合があります。このような状況では、メモリ不足 (OOM) トレーニングをサポートするデータ読み込みフレームワークの使用を検討できます。 TensorFlow の tf.data や PyTorch の DataLoader などのフレームワークを使用すると、トレーニング中にディスクからミニバッチをストリーミングすることで、メモリ効率の高い方法で大規模なデータセットを処理できます。これらはデータ読み込みの調整を処理し、システム リソースを使い果たすことなく GPU へのミニバッチの継続的な供給を保証します。

OOM トレーニング フレームワークを使用する場合は、データ読み込みパイプラインを最適化して、ディスク I/O にかかる時間を最小限に抑えることが重要です。これは、現在のミニバッチが処理されている間に次のミニバッチがバックグラウンドでロードされるデータ プリフェッチなどの手法を使用することで実現できます。この計算とデータ読み込みのオーバーラップにより、ディスク I/O のレイテンシーが隠蔽され、GPU がビジー状態に保たれる可能性があります。

さらに、データ圧縮やシリアル化などの技術を利用して、ディスク上のデータセットのサイズを削減できます。データを圧縮すると、ストレージ容量が節約され、ディスク I/O 速度が向上します。シリアル化により、データをコンパクトな形式で保存できるため、必要なディスク容量が削減され、トレーニング中のデータの逆シリアル化が容易になります。

最後に、上記の手法を使用して効率的に管理できない非常に大規模なデータセットを扱う場合は、分散コンピューティングと並列処理が必要になります。 TensorFlow の Distributed TensorFlow や PyTorch の DistributedDataParallel などの分散ディープ ラーニング フレームワークを使用すると、複数のマシンまたは GPU にわたるモデルのトレーニングが可能になります。これらのフレームワークはデータの並列処理を処理し、ワークロードを分散してミニバッチを並列処理できるようにし、大規模モデルのトレーニング時間を大幅に削減します。

要約すると、大規模なデータセットを効果的に管理するには、ミニバッチを効率的に取得できるようにデータ パイプラインを最適化する必要があります。データを RAM または GPU に保存すると、ディスクベースの取得と比較して高速なアクセスが可能になります。 SSD へのアップグレード、データ シャーディング、OOM トレーニング フレームワークの使用、データ読み込みの最適化、分散コンピューティング技術の活用により、大規模なデータセットを扱う際のパフォーマンスをさらに向上させることができます。これらの戦略を慎重に検討することで、大規模なデータセットでモデルを効果的に管理し、トレーニングすることができます。

 

モバイル向けディープラーニング



モバイル向けディープラーニング

さて、私の名前はカルロです。デモが動作することを確認するために少し時間をいただきましょう。今日は、私が働いている会社 Xnor.de AI からプレゼンテーションがあります。 Xnor.de AI の使命は、組み込みデバイスやモバイル デバイスで複雑なディープ ラーニング アルゴリズムを実行できるようにすることで、AI にアクセスできるようにすることです。別の方法で物事を始めるために、デモから始めます。

GPU 上の Redmon のリアルタイム物体検出プロトタイプである YOLO (You Only Look Once) については、すでにご存知かもしれません。 Xnor.de AI では、車や人などのオブジェクトを検出できる携帯電話用の YOLO を開発しました。このデモの重要性を説明しながら、ぜひこのデモを試してみてください。

興味深いのは、この検出が完全に CPU 上で実行されていることです。なぜこれを行うのかについては、後ほど説明します。私たちは、計算能力が限られた 5 ドルのコンピューターである Raspberry Pi Zero のようなローエンド デバイスにも機能を拡張しました。それでも、それに対して分類タスクを実行できます。バッテリー電力を利用することで、この小さなコンピューターはポータブルな深層学習デバイスになります。

それがどのように機能するかを説明しましょう。たとえば、Pi Zero が画像を人物として分類すると、デバイスの背面にある小さな LED が点灯します。しばらく待つと、人の存在を示す LED が表示されます。同様に、他のオブジェクトも分類できます。

従来、ディープ ラーニング モデルは、GPU を搭載した高性能デスクトップまたはサーバーでトレーニングされ、同じプラットフォームにデプロイされます。ただし、携帯電話やドアベルやセキュリティ カメラなどのエッジ デバイスなど、他のデバイスにも展開を拡張したいと考えています。今日は、深層学習モデルをさまざまなプラットフォームに適用する際に考慮すべき点について、大まかなアドバイスをいくつか提供します。

私が強くお勧めするプラットフォームの 1 つは、Nvidia Jetson TX2 です。これは、再コンパイルや展開の手間を必要とせずに、TensorFlow、PyTorch、Darknet などの一般的なフレームワークを実行できるミニ デスクトップ GPU ボードです。これは、NVIDIA GPU、Wi-Fi、Ubuntu OS を搭載した小さなラップトップを持っているようなものです。 8 GB のメモリを備えているため、複数のモデルをスムーズに実行できます。

Apple は市場で最速の ARM プロセッサを開発したため、検討すべきもう 1 つの興味深いプラットフォームは最新の iPhone です。これらの iPhone は優れた計算能力を備えているため、ディープ ラーニング タスクに適しています。ただし、iOS のプログラミング、特に Xcode でのプログラミングは、TensorFlow や Caffe などのフレームワークを使用する場合、困難になる可能性があることに注意してください。

より手頃な価格のオプションとして、ケーススタディとして Raspberry Pi Zero を検討しました。これはシングルコアを備えたローエンドデバイスであり、ベクトル命令がありませんが、安価なディープラーニング実験のための優れたツールとして機能します。モバイルまたは組み込みプラットフォームを評価する場合は、コアの数、ベクトル命令のサポート、深層学習用の特殊な命令、モバイル GPU の存在などの要素を考慮してください。

深層学習フレームワークの選択に関しては、すべて同様の構成要素を使用しているため、トレーニングにどれを使用するかはあまり重要ではありません。 Torch、Caffe、Darknet、TensorFlow などのフレームワークは同じ基盤を共有し、プラットフォーム固有のライブラリにプラグインされます。時間の経過とともに、フレームワーク間のパフォーマンスの差は 2 倍に収束する可能性があります。したがって、最も使いやすいフレームワークを使用してください。

トレーニングから推論に移行する場合、導入プロセスが重要になります。多くの企業はトレーニング中に大規模なフレームワークを使用しますが、推論のためにネットワークの特定のコンポーネントを抽出して最適化します。これにより、ニーズに合わせて高度にカスタマイズされた効率的な推論パイプラインを作成できます。モバイル デバイスにモデルをデプロイするには、パフォーマンスを慎重に最適化する必要があることに注意してください。

結論として、ディープ ラーニング モデルをさまざまなデバイスにデプロイするには、ターゲット デバイスで利用可能な計算能力とリソース、アプリケーションの特定の要件、パフォーマンス、精度、消費電力の間のトレードオフなどの要素を考慮する必要があります。

重要な考慮事項の 1 つは、深層学習モデル自体のサイズです。通常、モバイル デバイスや組み込みデバイスのメモリとストレージ容量は限られているため、軽量で効率的なモデルを選択または設計することが重要です。モデルの圧縮、量子化、枝刈りなどの手法を使用すると、パフォーマンスを大幅に低下させることなくモデルのサイズを削減できます。

考慮すべきもう 1 つの要素は、モデルの推論速度です。リアルタイム アプリケーションでは、多くの場合、タイムリーな応答を提供するために高速な推論時間が必要です。モデル アーキテクチャを最適化したり、専用のハードウェア アクセラレータを使用したり、モデルの並列処理やモデルの量子化などの手法を採用して推論速度を向上させることができます。

消費電力も、特にバッテリ駆動のデバイスにとって重要な側面です。深層学習モデルは計算負荷が高く、バッテリーがすぐに消耗する可能性があります。モデル アーキテクチャを最適化し、エネルギー効率の高いアルゴリズムを実装すると、デバイスのバッテリ寿命を延長し、連続動作にさらに適したものにすることができます。

さらに、深層学習フレームワークとターゲット プラットフォームとの互換性も考慮してください。一部のフレームワークには、特定のデバイスまたはオペレーティング システムに対してより優れたサポートまたは最適化されたバージョンが含まれている場合があります。導入用のフレームワークを選択するときは、事前トレーニングされたモデル、導入ツール、コミュニティ サポートの可用性を考慮してください。

最後に、ターゲット デバイス上で展開されたモデルのパフォーマンスを徹底的にテストして評価するようにしてください。実際のシナリオでその精度、遅延、消費電力を検証し、アプリケーションの要件を満たしていることを確認します。

要約すると、ディープ ラーニング モデルをさまざまなデバイスに展開するには、モデルのサイズ、推論速度、消費電力、フレームワークの互換性、徹底的なテストなどの要素を慎重に検討する必要があります。ターゲット デバイスの機能と制限を理解し、それに応じてモデルと展開パイプラインを最適化することで、AI 機能を幅広いデバイスに効果的に導入し、エキサイティングなアプリケーションを実現できます。

 

YOLO 9000: より良く、より速く、より強く


YOLO 9000: より良く、より速く、より強く

Yolo 9000 について話すとき、私は物体検出システムの改良版のことを指します。昨年の CBPR で、私たちはリアルタイム物体検出システムである Yolo を導入しました。これは信じられないほど高速で、素晴らしいものでした。 CBPR は、コンピュータ ビジョンとパターン認識に焦点を当てた主要なコンピュータ ビジョン カンファレンスの 1 つです。しかし、Yolo はそのスピードにもかかわらず、精度の点で遅れをとっており、残念でした。

プレゼンテーション中、演壇上の後ろの出入り口をトイレと間違えるという恥ずかしいハプニングがありました。このインシデントにより、私たちは検出システムに大幅な改善が必要であることを認識し、そのパフォーマンスに満足できないままになりました。史上最も偉大なエレクトロニック ミュージック アーティストの 1 人からインスピレーションを得て、私たちは Yolo をより良く、より速く、より強くするためにもっと努力しなければならないことを認識していました。本日は、私たちの取り組みの結果を共有するためにここに来ました。

何よりもまず、Yolo の精度を向上させることに重点を置きました。私たちはいくつかの段階的な改善を行いました。ここではそのすべてを説明しませんが、詳細については研究論文をご覧ください。他の研究者に関連すると思われるいくつかを取り上げます。

通常、物体検出では、224x224 のようなサイズの小さな分類ネットワークを使用して ImageNet で事前トレーニングすることから始めます。次に、特定の検出タスクでネットワークを微調整し、サイズを 448x448 に変更します。ただし、小さいサイズの画像から学習した特徴は、大きい画像を操作する場合にはうまく変換されない可能性があることがわかりました。これに対処するために、追加の手順を導入しました。 ImageNet で事前トレーニングした後、ネットワークのサイズを変更し、より大きなサイズの ImageNet で長時間トレーニングしました。最後に、オブジェクト検出のために、より大きなサイズでトレーニングされたこのネットワークを微調整しました。このアプローチにより、平均精度が約 3.5% と大幅に向上しました。これは、検出コミュニティにおいては大きな成果です。この単純な変更は、同様のトレーニング パイプラインに簡単に適用できます。

アンカー ボックスに関しては、オリジナルの Yolo では、ロジスティック関数を使用して XY 座標と境界ボックスの幅と高さを直接予測していました。ただし、Faster R-CNN や SSD などの他のシステムは、アンカー ボックスを使用し、オフセットを計算してオブジェクト ボックスを予測します。ネットワークの学習プロセスを容易にするために、候補ボックスからオフセットを予測するというアイデアを採用することにしました。事前定義されたアンカー ボックスを使用するのではなく、トレーニング データを確認し、境界ボックスに対して K 平均法クラスタリングを実行して、ディメンション クラスターのセットを取得しました。これらのクラスターは、トレーニング データの変動を捉える、より現実的なアンカー ボックスを表します。事前定義されたアンカー ボックスの代わりにこれらのディメンション クラスターを使用することにより、平均精度が約 5% 向上しました。現在アンカー ボックスを使用している研究者は、データを調べて、クラスターの開始点を改善するために K-means クラスタリングを使用することを検討するかもしれません。

私たちが行ったもう 1 つの素晴らしい改善は、マルチスケールのトレーニング体制の導入です。以前は、単一のアスペクト比で検出器をトレーニングし、すべての画像のサイズを 448x448 などの固定サイズに変更していました。ただし、トレーニング プロセス中にネットワークのサイズをさまざまなスケールにランダムに変更するようになりました。完全畳み込みネットワークは入力画像を 32 分の 1 にダウンサンプリングするため、ネットワーク構造に影響を与えることなく画像のサイズを変更できます。 320x320 から 608x608 までのさまざまなスケールでネットワークをトレーニングし、トレーニング中に入力画像サイズをランダムに選択します。このアプローチは、単一スケールでのパフォーマンスを向上させるだけでなく、精度と速度の間のスムーズなトレードオフも提供します。テスト時に、トレーニングされた重みを変更せずにネットワークのサイズをさまざまなサイズに変更できるため、さまざまなスケールに適応し、精度と速度の望ましいバランスを達成できます。

本質的に、マルチスケールのトレーニング体制は、検出におけるデータ拡張の一形態として機能します。

マルチスケールのトレーニング計画に加えて、「coarse-to-fine」トレーニングと呼ばれる手法も導入しました。最初からフルサイズの画像でネットワークをトレーニングするのではなく、最初は小さな画像でトレーニングし、トレーニング プロセス中に徐々にサイズを大きくします。このアプローチは、ネットワークが一般的な特徴を学習し、画像サイズが大きくなるにつれてより詳細な理解を徐々に改善するのに役立ちます。低解像度の画像から始めて徐々に高解像度に移行することで、精度と速度の両方の点でパフォーマンスが向上することがわかりました。

私たちが焦点を当てたもう 1 つの重要な側面は、小さなオブジェクトの検出の問題でした。 Yolo は元々、さまざまなスケールで物体を検出するように設計されましたが、小さな物体を正確に検出するのに苦労していました。これに対処するために、「機能ピラミッド ネットワーク」(FPN) と呼ばれる新しい技術を導入しました。 FPN は、ネットワークのさまざまな層からの低レベルの特徴と高レベルの特徴を組み合わせて特徴ピラミッドを生成します。各レベルは画像の異なるスケールを表します。マルチスケール機能を組み込むことで、ネットワークは小さなオブジェクトの検出においてより堅牢になり、特に小さなサイズのオブジェクトのパフォーマンスが大幅に向上しました。

最後に、ネットワーク アーキテクチャを最適化して、効率と速度を向上させました。畳み込み層の数を減らし、1x1 畳み込みなどの効率的な構成ブロックを採用して、精度を損なうことなく計算の複雑さを軽減しました。これらの最適化により、精度とリアルタイム パフォーマンスのバランスを実現することができ、Yolo 9000 は入手可能な中で最も高速かつ正確な物体検出システムの 1 つとなりました。

全体として、これらの改良により、Yolo 9000 はオリジナルの Yolo システムと比較して平均精度が大幅に向上しました。優れたリアルタイム パフォーマンスを維持しながら、精度の点で他の最先端の物体検出システムを上回ります。 Yolo 9000 で実現した進歩は、自動運転車からビデオ監視システムに至るまで、幅広いアプリケーションに大きな影響を与えると私たちは信じています。

YOLO 9000: Better, Faster, Stronger
YOLO 9000: Better, Faster, Stronger
  • 2017.08.17
  • www.youtube.com
#hangoutsonair, Hangouts On Air, #hoa