機械学習とニューラルネットワーク - ページ 8

 

ディープ ラーニングの視覚化 2. ニューラル ネットワークが効果的なのはなぜですか?



ディープ ラーニングの視覚化 2. ニューラル ネットワークが効果的なのはなぜですか?

このビデオでは、ニューラル ネットワークの有効性を探り、softmax 関数、決定境界、および入力変換について詳しく説明します。このビデオでは、従来の argmax 関数の代わりに、シグノイド関数を使用して各出力に確率を割り当てる方法を説明しています。
次に、ソフトマックス関数を使用して類似のポイントをクラスター化し、トレーニング中にそれらを線形に分離できるようにする方法を示します。ただし、初期トレーニング領域の外に移動すると、ニューラル ネットワークは決定境界を直線的に拡張するため、分類が不正確になります。
このビデオでは、ニューラル ネットワークの最初のニューロンを決定境界の平面方程式に変換する方法についても説明し、ニューラル ネットワークによる手書き数字の変換を視覚化する対話型ツールを示します。

  • 00:00:00 シグモイドの背後にある考え方を使用して、ヘビサイドのステップ関数を滑らかにし、確率または入力の範囲を各出力に割り当てることができます。これは微分可能性を保証するため、ニューラル ネットワークをトレーニングする場合に特に重要です。この例では、ニューラル ネットワークには 2 つのニューロンの入力層と 5 つのニューロンの出力層があります。隠れ層は、relu 活性化関数を使用する 100 個のニューロンで構成されます。最後の層は、softmax を使用して、x 座標と y 座標の出力を 5 つのニューロンの最大値に割り当てます。 argmax 関数を使用すると、最大値のインデックスを決定できるため、データセットの分類が容易になります。

  • 00:05:00 このビデオでは、n 要素のベクトルを入力として受け取り、n 要素の確率ベクトルを出力として出力する softmax 関数について説明しています。トレーニング中、ニューラル ネットワークは一連の重みとバイアスを決定し、入力データを 5 つの異なるスパイラルに分類します。これらのスパイラルは、非線形の決定境界によって分離されます。出力空間を見ることで、ニューラル ネットワークは同様のポイントをクラスター化し、それらを線形に分離できるようにします。ただし、初期トレーニング領域の外に移動すると、ニューラル ネットワークは決定境界を直線的に拡張するため、分類が不正確になります。最後に、このビデオでは、ソフトマックス関数の出力をグラフ化して、各色の確率を視覚化する方法を示しています。

  • 00:10:00 このビデオでは、ニューラル ネットワークの最初のニューロンの値を平面方程式で説明し、これが入力データを分類するための決定境界にどのように変換されるかを説明しています。次に、ビデオは、ソフトマックス関数を使用して各出力値を確率として表す方法を示します。各カラー サーフェスは、対応する各クラスの最大確率出力を表します。最後に、このビデオでは、ニューラル ネットワークを介して手書きの数字の変換を視覚化するための対話型ツールを紹介しています。
Why are neural networks so effective?
Why are neural networks so effective?
  • 2021.10.15
  • www.youtube.com
Visuals to demonstrate how a neural network classifies a set of data. Thanks for watching!Support me on Patreon! https://patreon.com/vcubingxSource Code: htt...
 

シンギュラリティに向けて - AI を刺激する神経科学




シンギュラリティに向けて - AI を刺激する神経科学

このビデオでは、人工知能が一般的な知性に到達する可能性と、その過程で克服する必要があるさまざまな課題について説明しています。
また、ロボットが種と見なされる可能性と、このアプローチの長所と短所についても説明します。

  • 00:00:00 脳は、さまざまなタスクを担う複雑な器官です。最近の研究では、かつて人間には難しいと考えられていた単純なタスクを脳が実行できることも示されています。これは、脳が単なる知性ではなく、膨大な量の計算の複雑さを備えていることを示唆しています。

  • 00:05:00 著者は、システム レベルで脳を理解することの難しさと、科学者がゼブラフィッシュを使用して正常な脳の発達がどのように起こるかを理解する方法について説明します。彼は続けて、人工知能は、脳の働きについて私たちが学んだことに基づいて、最終的にはより有機的に成長できるようになるだろうと述べています.

  • 00:10:00 脳はコンピューターとは構造が大きく異なります。コンピューターは基本的に CPU とメモリを分離しており、CPU とメモリを接続します。これをバス、メモリ バスと呼びます。また、コンピュータの電源が入っているとき、メモリ バスは常にフルタイムで動作しています。そして、それは実際にはボトルネックです。そのため、CPU は非常に強力で、メモリは非常に大きくなる可能性がありますが、
    2 つの間で転送できる情報の量は限られています。これは、標準的なコンピューターの全体的な能力を制限する非常に大きな要因です。対照的に、脳は超並列的に大規模に機能し、すべてのニューロンが常に最善を尽くしています。私たちが持っている現在の最高の AI でさえ、脳とは非常に異なっています。それは… 脳にインスパイアされたものだと言うかもしれませんが、脳をコピーしているわけではありません。脳内には大量のフィードバック接続があります。明らかに、私たちが感覚入力を処理するとき、それは脳の高次領域に到達し、私たちが見ている元の入力からさらに処理され、抽象化されます.しかし、それらの高域から知覚領域に戻る膨大な量のフィードバックもあります。そして、このフィードバックは私たちがどこを見るかを指示し、

  • 00:15:00 このビデオでは、人工知能の概念について説明し、人工知能を世界に導入することの長所と短所について説明しています。 AI は有望なアプローチですが、精度と信頼性を実現するには技術の飛躍が必要になると述べています。

  • 00:20:00 このビデオでは、人工知能を刺激するために使用されている神経科学の進歩と、それが人間と同じくらい賢いロボットの作成にどのように役立っているかについて説明しています。ただし、この技術が広く展開されるまでには、まだ道のりがあります。

  • 00:25:00 日常生活で人々を理解し、行動し、コミュニケーションできるソーシャル ロボットの開発において、人工知能は大きな役割を果たしています。現在、世界は人間のために設計されているため、ヒューマノイドの形をしたロボットを設計するか、人間の世界がどのように機能するかを理解することで、ロボットが社会に統合しやすくなりますが、建物を再構築したり、建物を再構築したりすることなく、何らかの価値と利益を生み出すこともできます。タスクまたは世界がその人間に対応するように設計されている方法。

  • 00:30:00 このビデオでは、神経科学がディープラーニングや身体化された認知など、AI の進歩にどのように影響を与えているかについて説明しています。具現化された認知は、「我思う、故に我あり」というデカルトの考えとは正反対です。ロボティクスは最終的に社会とより密接に統合され、AI は科学にとって「非常に役立つツール」になります。

  • 00:35:00 このビデオでは、有能な成人の知能レベルを達成する機械の能力である「汎用人工知能」または AGI のアイデアについて説明しています。 「チューリング テスト」(機械が誰かをだまして人間だと思わせることができるかどうかを測定する試験)の有効性については、まだ議論の余地がありますが、ほとんどの研究者は、機械がこのレベルの知性を達成する必要があると考えています。

  • 00:40:00 この動画では、人工知能が私たちの生活のより多くの部分に浸透する可能性と、AI が勝手に決定を下さないように慎重に管理することの重要性について説明しています。 AI が最終的に公共事業になることを示唆しており、人々がラジオやビデオでこの議論を行う方法について議論しています。

  • 00:45:00 著者は、政府は人工知能とロボット工学への投資に積極的でなければならないと主張しています。これは莫大な投資であり、社会に大きな成果をもたらす可能性があるからです。しかし、適切に行われなければ、ロボットは大規模な失業につながる可能性があります。彼はまた、現在人間が行っている仕事が機械に取って代わられるため、社会は来るべきロボット革命に適応する必要があると指摘しています。

  • 00:50:00 著者は人工知能の可能性と、機械の知能が人間の知能を超える点であるシンギュラリティについて議論しています。彼らは、この技術はまだいくらか推測に過ぎないが、今後200年以内に実現する可能性が高いと指摘している.多くの人は懐疑的かもしれませんが、知っている人は、これが間違いなく起こることであることに同意します.

  • 00:55:00 このビデオでは、人工知能が一般的な知性に到達する可能性と、その過程で克服する必要があるさまざまな課題について説明しています。また、ロボットが種と見なされる可能性と、このアプローチの長所と短所についても説明します。

  • 01:00:00 講演者は、人工知能の進歩に伴う潜在的なリスクと利点の概要を説明し、AI が暴走して人類を一掃するという架空の状況について説明します。この分野のほとんどの研究者は、この種の脅威を懸念しておらず、代わりに人工知能の潜在的な利点に注目しています。
Toward Singularity - Neuroscience Inspiring AI
Toward Singularity - Neuroscience Inspiring AI
  • 2023.01.08
  • www.youtube.com
Toward Singularity takes a look at how neuroscience is inspiring the development of artificial intelligence. Our amazing brain, one of the most complicated s...
 

スタンフォード CS230: ディープラーニング | 2018年秋 |講義 1 - クラスの紹介とロジスティクス、Andrew Ng




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 1 - クラスの紹介とロジスティクス、Andrew Ng

スタンフォード大学の CS230 ディープ ラーニング コースのインストラクターである Andrew Ng 氏がコースを紹介し、反転授業形式について説明します。彼は、デジタル記録の増加によりディープ ラーニングが急速に普及し、より効果的なディープ ラーニング システムが可能になったことを強調しています。このコースの主な目標は、学生が深層学習アルゴリズムの専門家になり、それらを実際の問題を解決するために適用する方法を理解することです。 Ng は、効率的で効果的な機械学習システムを構築する上での実践的な知識の重要性を強調し、適切なプロセスで効果的に実装しながら、機械学習アルゴリズムを体系的に教えて導き出すことを望んでいます。このコースでは、Coursera のビデオと Jupyter Notebook のプログラミング課題を通じて、畳み込みニューラル ネットワークとシーケンス モデルについて説明します。

スタンフォード大学の CS230 ディープ ラーニング コースの最初の講義では、プログラミングの課題や学生のプロジェクトを通じて開発されるさまざまな実世界のアプリケーションを紹介します。これらのアプリケーションは、学生の興味に合わせてパーソナライズおよび設計できます。過去の学生プロジェクトの例は、自転車の価格予測から地震信号の検出まで多岐にわたります。最終的なプロジェクトは、コースの最も重要な側面として強調されており、TA チームとインストラクターを通じて個別の指導を受けることができます。グループ プロジェクトのチーム編成、Coursera でのクイズの実施、コースと他のクラスとの組み合わせなど、コースのロジスティクスについても説明します。

  • 00:00:00 このセクションでは、スタンフォード大学 CS230 のインストラクターである Andrew Ng がコースを紹介し、反転授業形式について説明します。このクラスでは、生徒は自宅で Coursera の deeplearning.ai コンテンツを視聴し、教室とディスカッション セクションの時間に、より深いディスカッションに参加します。 Ng は、共同講師の Kian Katanforosh (深層学習専門分野の共同作成者)、Swati Dubei (クラス コーディネーター)、Younes Mourri (コース アドバイザー兼ヘッド TA)、および Aarti Bagul と Abhijeet (共同ヘッド) で構成される教育チームを紹介します。 TA。 Ng 氏は、ディープ ラーニングの急激な人気について説明し、社会のデジタル化によってデータ収集が増加し、これまで以上に効果的なディープ ラーニング システムを構築する機会が学生に与えられたと述べています。

  • 00:05:00 このセクションでは、Andrew Ng が、デジタル記録の増加がデータの急増につながったと説明していますが、従来の機械学習アルゴリズムは、より多くのデータが供給されても頭打ちになります。ただし、ニューラル ネットワークが大きくなるにつれて、そのパフォーマンスは向上し続け、ベース エラー率と呼ばれる理論上の限界に達します。 GPU コンピューティングとクラウド サービスの出現により、十分に大きな計算能力へのアクセスにより、より多くの人々が十分に大規模なニューラル ネットワークをトレーニングして、多くのアプリケーションで高レベルの精度を実現できるようになりました。ディープ ラーニングは AI の多くのツールの 1 つにすぎませんが、一貫して優れた結果をもたらすため、非常に人気があります。

  • 00:10:00 このセクションでは、プランニング アルゴリズムや知識表現など、深層学習に加えて、研究者が AI で使用するさまざまなツールやテクノロジがあることを講師が説明します。しかし、ディープ ラーニングは、アルゴリズムの革新と巨額の投資だけでなく、膨大なデータ セットと計算能力の使用により、過去数年間で信じられないほど急速に普及しました。 CS230 の主な目標は、学生が深層学習アルゴリズムの専門家になり、それらを実際の問題を解決するために適用する方法を理解することです。 Google、Baidu、Landing AI で AI チームを率いて成功を収めた実務経験を持つ講師は、機械学習の実践的なノウハウの側面を学ぶことの重要性も強調しています。

  • 00:15:00 このセクションでは、Andrew Ng が、機械学習システムを構築する際に効率的かつ効果的な意思決定を行う上での実践的な知識の重要性について語っています。彼は、高レベルの判断とアーキテクチャの抽象化に関して、優れたソフトウェア エンジニアとジュニア エンジニアの違いを強調しています。同様に、チームの効率を 2 倍から 10 倍に高めることができるより良い意思決定を行うために、より多くのデータを収集したり、ディープ ラーニング システムでハイパーパラメーターを検索したりするタイミングを知ることの重要性を強調しています。彼は、この実践的な知識を体系的な指導を通じてコースの学生に伝えることを目指しており、機械学習のバックグラウンドが少しある学生には、彼の著書「Machine Learning Yearning」を推奨しています。

  • 00:20:00 このセクションでは、Andrew Ng が「Machine Learning Yearning」と呼ばれる彼の新しい本のドラフトについて説明します。これは、機械学習から体系的なエンジニアリング分野を作成するための最良の原則を収集する試みであると彼は述べています。 Ng はまた、学生が自分の時間にオンラインでビデオを見てクイズを完了し、TA、Kian、および彼自身とのより深い相互作用とディスカッションのための毎週のセッションに参加するコースの反転教室形式についても説明します。彼はさらに AI と機械学習の重要性について語り、電力が 1 世紀以上前にいくつかの分野を変えたように、AI がすべての業界を変えると信じていると述べています。

  • 00:25:00 ビデオのこのセクションで、スタンフォード大学の CS230 ディープ ラーニング コースのインストラクターである Andrew Ng 氏は、学生が新たに発見したディープ ラーニング スキルを使用して、ヘルスケアなどの従来のテクノロジー セクター以外の業界を変革することへの期待を表明しています。土木工学、宇宙論。彼は、インターネットの台頭を研究することで学んだ貴重な教訓を共有しています。むしろ、インターネット企業を真に定義するのは、チームの編成と、広範な A/B テストなどのインターネット固有のプラクティスの組み込みです。

  • 00:30:00 トランスクリプトのこのセクションでは、Andrew Ng が従来の企業とインターネットおよび AI 企業の違いについて説明しています。彼は、インターネットと AI の企業は意思決定の権限をエンジニアやエンジニアとプロダクト マネージャーに押し下げる傾向があると説明しています。これらの個人はテクノロジー、アルゴリズム、およびユーザーに最も近いからです。 Ng はまた、最新の機械学習とディープ ラーニングが可能にすることを行うためにチームを編成することの重要性についても言及しています。さらに、Ng は、AI 企業がどのようにデータを異なる方法で整理し、自動化の機会を見つけることに特化する傾向があるかについて説明します。最後に、彼は、機械学習の台頭により、機械学習エンジニアやリソース機械学習研究科学者などの新しい役割が生み出されたと述べています。

  • 00:35:00 このセクションでは、Andrew Ng が、AI 時代においてより価値のある仕事を行うために効果的なチーム編成が重要であることを強調しています。彼は、ソフトウェア エンジニアリングの世界がアジャイル開発、スクラム プロセス、およびコード レビューを開発して、ソフトウェアを効果的に構築する高性能の産業用 AI チームを作成する方法に例えています。 Ng は、機械学習アルゴリズムを体系的に教えて導き出し、適切なプロセスで効果的に実装したいと考えています。最後に、Ng は、機械学習を学びたいと考えている人々が目標を達成するためにどのクラスを受講すべきかをガイドします。

  • 00:40:00 このセクションでは、Andrew Ng が CS229、CS229A、および CS230 の違いについて説明します。 CS229 はこれらのクラスの中で最も数学的であり、アルゴリズムの数学的派生に焦点を当てています。 CS229A は応用機械学習であり、実用的な側面により多くの時間を費やし、機械学習への最も簡単な入口であるのに対し、CS230 はその中間であり、CS229A よりも数学的ですが、CS229 よりも数学的ではありません。 CS230 のユニークな点は、機械学習の最も難しいサブセットであるディープ ラーニングに焦点を当てていることです。 Andrew Ng は、数学だけに集中するのではなく、これらのアルゴリズムを適用するための実践的なノウハウを教えることに多くの時間を費やしたいと考えており、正確な期待値を設定しています。

  • 00:45:00 このセクションでは、Andrew Ng が、AI と機械学習がバックグラウンドで消え、それを可能にする学習アルゴリズムについて考えることなく使用できる魔法のツールになるという概念を紹介します。彼は、ヘルスケア、製造、農業、および教育における機械学習の重要性について説明しています。そこでは、学習アルゴリズムを使用してコーディングの宿題に関する正確な個別指導とフィードバックを実現できます。 CS230 のコース形式には、Coursera での deeplearning.ai ビデオの視聴と、スタンフォード大学の Kian による追加の講義が含まれ、より深い知識と実践が求められます。このクラスは、ニューロン、層、ネットワークの構築、ネットワークの調整、および AI の産業応用について学生に教える 5 つのコースで構成されています。

  • 00:50:00 このセクションでは、Andrew Ng がコースで取り上げるトピックとシラバスの構造を紹介します。このコースは 2 つの部分に分かれており、画像とビデオ用の畳み込みニューラル ネットワークと、自然言語処理と音声認識用のリカレント ニューラル ネットワークを含むシーケンス モデルに焦点を当てています。各モジュールには、Coursera のビデオ、クイズ、Jupyter Notebook のプログラミング課題が含まれます。出席率は、最終成績の 2 パーセント、小テストの 8 パーセント、プログラミングの課題の 25 パーセント、および最終プロジェクトの重要な部分です。

  • 00:55:00 このセクションでは、Andrew Ng がコース中に学生が行うプログラミング課題について説明します。学生は、手話の画像を数字に変換し、ハッピー ハウスのディープ ラーニング エンジニアになり、YOLOv2 オブジェクト検出アルゴリズムを使用してネットワークを作成します。ゴールキーパーのシュート予測の最適化、自動運転中の車の検出、顔認識とスタイル転送の実行、ジャズ音楽とシェイクスピアの詩を生成するシーケンス モデルの作成に取り組みます。講師は、各プロジェクトの関連論文へのリンクを学生に提供します。

  • 01:00:00 このセクションでは、スピーカーは、プログラミングの課題を通じてコースで構築されるさまざまなアプリケーションと、コース全体で学生が独自のプロジェクトを選択する機会について説明します。白黒写真のぬりえ、自転車の価格予測、地震予知信号の検出など、過去の学生プロジェクトの例が示されています。最終的なプロジェクトはコースの最も重要な側面であるため、学生は自分のプロジェクトを構築し、それを誇りに思うことが奨励されます。コースは適用され、いくつかの数学が含まれており、TA チームとインストラクターを通じて個別の指導を受けることができます。

  • 01:05:00 このセクションでは、コースラ アカウントの作成方法、完了すべき課題、コース プロジェクトのチーム編成方法など、コースのロジスティクスの詳細について講師が説明します。プロジェクト チームは、やりがいのあるプロジェクトを除いて、1 人から 3 人の学生で構成されます。学生は、インストラクターと話し合う限り、プロジェクトを他のクラスと組み合わせることができます。小テストは、Coursera で再受験でき、最後に提出された小テストが CS230 クラスと見なされます。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 1 - Class Introduction & Logistics, Andrew Ng
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 1 - Class Introduction & Logistics, Andrew Ng
  • 2019.03.21
  • www.youtube.com
For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3eJW8yTAndrew Ng is an Adjunct Pr...
 

講義 2 - 深層学習の直感



スタンフォード CS230: ディープラーニング | 2018年秋 |講義 2 - 深層学習の直感

講義の最初の部分では、画像分類、顔認識、画像スタイル転送など、深層学習のさまざまなアプリケーションに焦点を当てます。インストラクターは、深層学習モデルの開発におけるデータセットのサイズ、画像の解像度、損失関数などのさまざまな要因の重要性について説明します。深いネットワークを使用して画像をエンコードして有用な表現を作成するという概念についても説明し、顔認識で使用されるトリプレット損失関数に重点を置きます。さらに、講師は、画像分類に K-Means アルゴリズムを使用したクラスタリングと、画像からスタイルとコンテンツを抽出する方法について説明します。全体として、このセクションでは、成功する深層学習モデルの開発に関連するさまざまな手法と考慮事項を受講者に紹介します。

ビデオの 2 番目の部分では、画像の生成、音声認識、オブジェクト検出など、さまざまな深層学習のトピックについて説明します。講演者は、問題が発生したときに専門家に相談することの重要性と、ディープ ラーニング プロジェクトを成功させるための重要な要素である、戦略的なデータ取得パイプライン、アーキテクチャ検索、およびハイパーパラメータ チューニングを強調しています。このビデオでは、ディープ ラーニングで使用されるさまざまな損失関数についても説明します。オブジェクト検出損失関数には、大きなボックスよりも小さなボックスのエラーに大きなペナルティを課す平方根が含まれています。ビデオは、今後のモジュールと課題の要約で締めくくられます。これには、必須の TA プロジェクト メンターシップ セッションと、ニューラル スタイルの転送に焦点を当てた金曜日の TA セクションと、潜在的な GPU クレジットの AWS フォームへの記入が含まれます。

  • 00:00:00 講義のこのセクションの目的は、深層学習に関連するプロジェクトについて体系的に考える方法を提供することです。これには、データの収集とラベル付け、アーキテクチャの選択、最適化のための適切な損失関数の設計方法に関する決定が含まれます。モデルは、アーキテクチャとパラメーターとして定義できます。ここで、アーキテクチャーはモデル用に選択された設計であり、パラメーターは、関数が入力を受け取り、それらを出力に変換する数値です。損失関数を使用して出力をグラウンド トゥルースと比較し、損失関数の勾配を計算してパラメーターを更新し、認識を改善します。入力、出力、アーキテクチャ、損失関数、活性化関数、最適化ループ、ハイパーパラメーターなど、ディープ ラーニングのコンテキスト内で多くのことが変更される可能性があります。ロジスティック回帰は、議論された最初のアーキテクチャであり、コンピューター サイエンスでは画像を 3D マトリックスとして表すことができます。

  • 00:05:00 ビデオのこのセクションでは、インストラクターが猫の画像を分類するためのニューラル ネットワークの基本構造と、多重ロジスティック回帰を使用して複数の動物を分類するように変更する方法について説明します。データを正しくラベル付けすることの重要性が強調され、ワンホット エンコーディングの概念が導入されました。マルチホット エンコーディングの活性化関数としての Softmax の使用についても言及されており、コースで使用されるレイヤーとニューロン インデックスの表記法が説明されています。

  • 00:10:00 このセクションでは、ディープラーニングがネットワークの各レイヤーから情報を抽出する方法と、これを入力データのエンコードに使用する方法について説明します。彼は、顔認識と画像分類の例を使用して、深層学習の具体的なアプリケーションに関する直感を構築します。講師は、特定の問題に必要な画像の数の見積もりについても説明し、ネットワーク内のパラメーターの数ではなく、タスクの複雑さに基づく必要があることを提案します。

  • 00:15:00 このセクションでは、インストラクターがディープ ラーニング プロジェクトに必要なデータ量を決定する方法と、データをトレーニング セット、検証セット、およびテスト セットに分割する方法について説明します。インストラクターは、必要なデータの量は、タスクの複雑さと、プロジェクトに屋内または屋外の画像が含まれるかどうかによって異なると説明しています。ネットワークを適切にトレーニングするには、バランスの取れたデータセットも重要です。画像の解像度についても説明します。目標は、計算の複雑さを最小限に抑えながら優れたパフォーマンスを達成することです。インストラクターは、必要な最小解像度を決定するために、さまざまな解像度で人間のパフォーマンスを比較することを提案しています。最終的に、64 x 64 x 3 の解像度は、使用されたサンプル画像には十分であると判断されました。

  • 00:20:00 このセクションでは、講師が基本的な画像分類問題について説明します。タスクは、画像が日中に撮影されたか夜に撮影されたかを検出することです。モデルの出力は、画像のラベルである必要があります。ここで、Y は昼の場合は 0、夜の場合は Y が 1 です。このタスクに推奨されるアーキテクチャは、浅い全結合ネットワークまたは畳み込みネットワークです。使用すべき損失関数は対数尤度であり、分類問題の他の損失関数よりも最適化が容易です。次に講師は、この基本概念を実際のシナリオに適用します。このシナリオでは、顔認証を使用して体育館などの施設で学生 ID を検証することを目標としています。この問題に必要なデータセットは、ID スワイプ中にカメラによってキャプチャされた画像と比較するための画像のコレクションです。

  • 00:25:00 深層学習に関する講義からのこの抜粋では、スピーカーは、ジムに通う人の身元を確認する手段として顔認識を使用するというアイデアについて説明しています。スピーカーは、システムをトレーニングするために、学校は名前が付けられたすべての生徒の写真と、モデルの入力用に各生徒の写真をさらに必要とすることを示唆しています。解像度について話し合うとき、講演者は、目の間の距離や鼻のサイズなどの詳細をより適切に検出するには、より高い解像度 (約 400 x 400) が必要であると示唆しています。最後に、講演者は、2 つの画像が同一人物であるかどうかを判断するためのピクセル間の単純な距離比較は、照明の違いや、化粧や顔の毛などの他の要因のために機能しないことに注意します。

  • 00:30:00 講義のこのセクションでは、インストラクターがディープ ネットワークを使用して画像をエンコードし、画像の有用な表現を作成するプロセスについて説明します。目標は、顔の特徴、色、髪の間の距離など、画像の主要な特徴を表すベクトルを作成することです。これらのベクトルは、同じ被写体の異なる画像を比較し、一致を判断するために使用されます。インストラクターは、深層ネットワークに役立つ損失関数を生成するために、アンカーとネガティブ画像の間の距離を最大化しながら、アンカーとポジティブ画像の間の距離を最小化するプロセスを説明します。損失関数は、ネットワークをトレーニングして特定の機能を認識し、正確な予測を行うために重要です。

  • 00:35:00 このセクションでは、インストラクターが顔認識で使用されるトリプレット損失関数について説明します。損失は、A と P の符号化ベクトル間の L2 距離を、A と N の符号化ベクトル間の L2 距離から差し引いて計算されます。A と N の符号化ベクトル間の距離を最大化し、差を最小化することが目的です。 A と P の間。真の損失関数には、負の損失を防ぐ以外の特定の役割を持つアルファが含まれています。インストラクターは、損失関数でアルファを使用すると、損失関数の特定の部分に重みが追加されると説明しています。目標は、顔の特徴を表すエンコーディングを見つけることであり、最適化アルゴリズムは、複数回のパスの後、損失関数を最小化することを目的としています。

  • 00:40:00 このセクションでは、講師がネットワークの損失関数におけるアルファ項の使用について説明します。このアルファ項はマージンとして知られており、その目的は大きな重みにペナルティを課し、ネットワークをゼロで安定させることです。ただし、グラデーションやウェイトには影響しません。このアルファ用語の目的は、null 関数を学習する代わりに、ネットワークに何か意味のあることを学習させることです。講師は、顔認証と顔認識の違いについても説明し、検出要素をパイプラインに追加することで顔認識を改善できることを示唆しています。 K-Nearest Neighbors アルゴリズムを使用して、入力された顔のベクトルをデータベース内のベクトルと比較し、個人を識別できます。

  • 00:45:00 このセクションでは、講師がクラスタリング、より具体的には K-Means アルゴリズムと、それが画像分類でどのように使用されるかについて説明します。彼は、アルゴリズムがデータベース内のすべてのベクトルを取得し、それらを類似したグループにクラスター化する方法を説明しています。これは、たとえば、電話の別々のフォルダーにさまざまな人物の写真を分けるために使用できます。また、アルゴリズムで K パラメータを定義する方法と、さまざまな方法を使用する方法についても説明しています。インストラクターはまた、ある画像のコンテンツであるが別のスタイルでペイントされた画像を、そのスタイルのデータを使用して生成することを含むアート生成についても説明します。インストラクターはルーヴル美術館をコンテンツ イメージの例として使用し、クロード モネの絵画をスタイル イメージとして使用します。

  • 00:50:00 このセクションでは、講演者は深層学習技術を使用して画像からスタイルとコンテンツを抽出する方法について説明します。彼らは、ある方法は特定のスタイルを学習するようにネットワークをトレーニングすることですが、代わりに画像を学習することが好ましい方法であると説明しています。これには、コンテンツ画像を提供し、画像認識用にトレーニングされたニューラル ネットワークを使用してそのコンテンツに関する情報を抽出することが含まれます。スタイル情報を抽出するために、スピーカーはグラム行列の使用法を紹介し、スタイルはローカライズされていない情報であることを説明します。抽出されたコンテンツとスタイルを組み合わせることで、コンテンツを保持したまま、特定の画像のスタイルを持つ画像を生成することができます。講演者は、この手法には、ネットワークのパラメーターを学習するだけでなく、画像まで逆伝播することが含まれることを強調しています。

  • 00:55:00 このセクションでは、インストラクターは、グラム行列法を使用してスタイルを抽出するための損失関数と、スタイル イメージのスタイルと生成されたスタイルの間、およびコンテンツのコンテンツ間の L2 距離を使用して計算する方法について説明しますコンテンツ画像と生成されたコンテンツ。インストラクターは、ImageNet がこのプロセスで分類のために使用されるのではなく、事前にトレーニングされたパラメーターをネットワークに使用するために使用されることを強調しています。焦点は、ホワイト ノイズを使用して画像をトレーニングすることにあります。コンテンツ G とスタイル G は、ネットワークを介して実行し、損失関数の微分を計算して画像のピクセルに戻すことにより、画像から抽出されます。

  • 01:00:00 このセクションでは、コンテンツとスタイル イメージに基づいてイメージを生成するようにネットワークをトレーニングするプロセスについて説明します。このネットワークは、あらゆるスタイルやコンテンツに柔軟に対応できますが、画像が生成されるたびに新しいトレーニング ループが必要になります。ネットワークは何百万もの画像でトレーニングされており、特に Monet 画像でトレーニングする必要はありません。このネットワークの損失関数は、ベースラインがホワイト ノイズから始まるコンテンツ イメージとスタイル イメージから得られます。次にスピーカーは、トリガー ワード検出のアプリケーションについて説明します。これには、「アクティベート」などのポジティブ ワードと「キッチン」や「ライオン」などのネガティブ ワードを含む 10 秒のオーディオ クリップが多数必要です。

  • 01:05:00 このセクションのビデオでは、音声認識に最適なラベル付けスキームを選択するプロセスについて説明しています。スピーカーは、音声処理に使用する最適なサンプル レートを決定するには、音声認識の専門家に相談する必要があることを説明し、発話された文のトリガー ワードの検出を困難にする弱いラベル付けスキームの例を示します。スピーカーは、モデルがトリガー ワードを検出しやすくする別のラベル付けスキームを示しますが、データセットの不均衡や、タイム ステップごとにゼロまたは一。

  • 01:10:00 ビデオのこのセクションでは、講演者はディープ ラーニング プロジェクトを成功させるための 2 つの重要事項について説明します。 1 つ目は、戦略的なデータ取得パイプラインを持つことです。これを行う 1 つの方法は、電話を使用して、キャンパス内からさまざまなアクセントを持つ肯定的な言葉と否定的な言葉を含む 10 秒間の音声録音を収集することです。 2 番目の重要な要素は、アーキテクチャの検索とハイパーパラメーターの調整です。講演者は、最初にフーリエ変換を使用して音声から特徴を抽出し、次に専門家と話し、彼らのアドバイスに基づいてネットワークに変更を加えた方法について話します。彼は、適切なアーキテクチャを見つけることは複雑なプロセスですが、あきらめるべきではなく、専門家に相談する必要があることを強調しています。

  • 01:15:00 このセクションでは、スピーカーは、音声認識の問題と、フーリエ変換ハイパーパラメーターの正しい使用方法についてアドバイスしてくれた音声認識の専門家を見つけるまで、ニューラル ネットワークをデータに適合させるのにどのように苦労したかについて説明します。ネットワークのサイズと畳み込みを使用して時間ステップの数を減らし、出力を拡大します。プロジェクト中に問題が発生した場合は、専門家にアドバイスを求め、あきらめないことの重要性を強調します。次にスピーカーは、トリプレット ロス アルゴリズムを使用し、オーディオ スピーチを特定のベクトルにエンコードしてそれらのベクトル間の距離を比較することにより、コード検出を解決する別の方法について簡単に説明します。最後に、オブジェクト検出に対応し、YOLO と呼ばれるネットワークで使用される美しい損失関数について説明します。この関数では、損失はバウンディング ボックスの x、y、幅、高さを比較します。

  • 01:20:00 ビデオのこのセクションでは、講演者は深層学習におけるオブジェクト検出損失関数と、なぜ平方根が含まれているのかについて説明します。損失関数には、実際の境界ボックスと予測された境界ボックスの間の距離を最小化し、ボックス内のオブジェクト クラスを識別することを目的としたいくつかの項が含まれています。平方根が含まれているのは、大きなボックスよりも小さなボックスのエラーに大きなペナルティを課すためです。ビデオは、今後のモジュールと課題の要約、必須の TA プロジェクト メンターシップ セッション、ニューラル スタイルの転送に焦点を当てた金曜日の TA セクション、潜在的な GPU クレジットの AWS フォームへの記入で締めくくられます。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 2 - Deep Learning Intuition
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 2 - Deep Learning Intuition
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttps://stanford.io/3eJW8yTAndrew NgAdjunct Professor, Computer ScienceKian K...
 

講義 3 - フルサイクルの深層学習プロジェクト



スタンフォード CS230: ディープラーニング | 2018年秋 |講義 3 - フルサイクルの深層学習プロジェクト

フルサイクルの深層学習プロジェクトに関するこの講義では、講師は、問題の選択、データ収集、モデル設計、テスト、展開、保守など、成功する機械学習アプリケーションを構築するためのすべての側面を考慮することの重要性を強調します。講師は、音声起動デバイスの作成例を通じて、深層学習プロジェクトに関連する主要なコンポーネントについて説明し、生徒がそれぞれの分野にプラスの影響と独自の貢献をもたらす可能性のある実行可能なプロジェクトに集中するよう奨励します。また、インストラクターは、データを迅速に収集し、プロセス全体で適切なメモを取り、開発中に反復することの重要性を強調し、音声アクティベーションと音声アクティビティ検出への具体的なアプローチについても説明します。

講義の第 2 部では、機械学習プロジェクトにおける監視と保守の重要性に焦点を当てます。特に、モデルが現実の世界で適切に機能することを確認するためにモデルを継続的に監視および更新する必要性について説明します。講師は、機械学習モデルの精度を損なう可能性があるデータ変更の問題に対処し、モデルが引き続き効果的に機能することを保証するために、継続的な監視、データ収集、およびモデルの再設計の必要性を強調します。この講義では、音声アクティビティ検出システムで非 ML システムとトレーニング済みニューラル ネットワークを使用した場合の影響についても説明し、手動でコーディングされたルールは一般にデータの変化に対してより堅牢であることを示唆しています。講師は、モデルを再トレーニングするためのデータを収集する際には、データのプライバシーに細心の注意を払い、ユーザーの同意を得る必要があると結論付けています。

  • 00:00:00 ビデオのこのセクションでは、ニューラル ネットワーク モデルを構築するだけでなく、成功する機械学習アプリケーションを構築するための手順を説明することで、インストラクターがフルサイクル ディープ ラーニング プロジェクトのアイデアを紹介します。彼は、音声起動デバイスを構築する例を使用し、最初のステップは、教師あり学習を使用してアプリケーションを構築するなど、問題を選択することであると説明しています。彼はまた、四半期後半に設定された問題として、音声起動デバイスの実装を含む学生が取り組む予定のプロジェクトについても言及しています。

  • 00:05:00 講義のこのセクションでは、講演者は、「アレクサ」、「OK Google」などのトリガー ワードを検出する学習アルゴリズムを含む、ディープ ラーニングを使用した音声起動デバイスの構築に関連する主要コンポーネントについて説明します。 「Hey Siri」または「アクティベート」。講演者は、問題の選択、ラベル付きデータの取得、モデルの設計、テスト セットでのテスト、展開、システムの保守から始めて、機械学習製品を構築するための重要な手順の概要を説明します。講演者は、モデルのトレーニングは多くの場合、反復プロセスであり、優れたモデルを構築するには、機械学習のコアに加えて、ステップ 1、6、7 に焦点を当てる必要があることを強調しています。

  • 00:10:00 講義のこのセクションでは、講演者はディープ ラーニング プロジェクトの候補の特性について説明します。彼は音声起動デバイスの例を使用し、音声起動の可能性がある Echo や Google Home などのデバイスは、Wi-Fi 用にセットアップする必要があるため、構成がいかに難しいかについて話します。彼は、組み込みマイクを備え、ランプ自体への簡単な音声コマンドでオンとオフを切り替えることができる、ランプ メーカーに販売できる組み込みデバイスを通じて、この問題の解決策を提供します。講演者は、このプロジェクトでは、組み込みデバイスで実行でき、ランプをオン/オフするためのウェイク ワードを検出できる学習アルゴリズムを構築する必要があると述べています。彼はさらに、あいまいさを避けるためにこれらのデバイスに名前を付けることを提案しています。講演者は、彼がこのプロジェクトに取り組んでいない間、スタートアップが追求するのに妥当な製品である可能性があることを示しています.

  • 00:15:00 ビデオのこのセクションでは、プレゼンターが聴衆に、深層学習プロジェクトのアイデアを選択する際に通常注目する特性は何かを尋ねます。次に、プロジェクトのアイデアをブレインストーミングする際に考慮すべき 5 つの重要なポイントのリストを共有します。セグメントの冒頭は、応答システムの技術的な問題に気を取られますが、プレゼンターは最終的に目前のトピックに入り、聴衆に自分のアイデアや優先事項について熟考するよう促します.

  • 00:20:00 ビデオのこのセクションでは、Ng 教授が深層学習プロジェクトの選び方に関する 5 つの箇条書きを紹介しています。彼は学生に、自分が本当に興味を持っているものを選び、データの入手可能性を検討するようアドバイスしています。さらに、専門分野の知識を活用して機械学習技術を分野の独自の側面に適用し、独自の貢献を行う必要があります。さらに、彼は、必ずしもお金に焦点を合わせることなく、プラスの影響を与え、人々に有用性を提供できるプロジェクトを選択することを奨励しています.最後に、機械学習プロジェクトやアイデアの実行可能性を評価する上で、実現可能性が重要な要素であることを強調しています。 Ng 教授はまた、ディープ ラーニングに関心のある医師や放射線科の学生の例を挙げ、ヘルスケア放射線学の分野の知識を活用することで、単にゼロから始めるよりもユニークな貢献を生み出すことができることを思い出させます。

  • 00:25:00 このセクションでは、講師が実行可能なプロジェクトを選択し、ディープ ラーニング アルゴリズムをトレーニングするためのデータを取得することの重要性について説明します。彼は、学生がスタートアップ プロジェクトの特定のフレーズを検出するためにディープ ラーニング アルゴリズムをトレーニングする必要があるシナリオを提示し、フィボナッチ数列法を使用してデータを収集するのに必要な日数を見積もるように促します。学生は、必要なデータを収集する方法についても説明するよう求められます。プレゼンターのラップトップで技術的な問題が発生したため、代わりに Firefox ブラウザーを使用することをお勧めします。

  • 00:30:00 ビデオのこのセクションでは、インストラクターが学生に少人数のグループで互いに話し合い、データを収集するための最良の戦略を考え出し、データ収集に費やす日数を決定するよう求めます。彼は、最初のモデルのトレーニングにかかる時間と、データ収集に費やす時間を検討することを提案しています。講師は、最初のモデルのトレーニングに 1 日か 2 日かかる場合は、データ収集に費やす時間を減らしたほうがよいと警告しています。彼は学生に、プロジェクト パートナーと話し合い、データ収集の計画を立てるようアドバイスしています。

  • 00:35:00 このセクションでは、機械学習プロジェクトの作業中に次のデータセットを収集する前に、データを収集してアルゴリズムがどのように機能するかをテストすることの重要性についてインストラクターが説明します。講師は、1 ~ 2 日かけてデータを収集し、安価なマイクを入手してデータを収集することを提案しています。スタンフォード大学のキャンパスや友人のところに行って、さまざまなキーワードを言ってもらいます。彼は、新しい機械学習システムを構築する際に、問題の何が難しいのか、簡単なのかを知るのは難しいと述べています。そのため、基本的な学習アルゴリズムから始めることが不可欠です。

  • 00:40:00 このセクションでは、講演者は、機械学習の開発中にデータをすばやく収集して反復することの重要性について話します。彼は、データ収集に時間をかけすぎないようにアドバイスし、何が必要かを理解するために、最初は小さなデータ セットから始めることを提案しています。実施した実験と各モデルの詳細を明確にメモしておくことが重要です。これにより、研究者は、再度実行するのではなく、以前の実験を参照できるようになります。さらに、特定の分野で他の人が使用しているアルゴリズムを確認するために文献検索を行うことを推奨していますが、一部の分野では文献が未熟である可能性があると警告しています.

  • 00:45:00 このセクションでは、講師は、データ収集とモデル設計からデプロイまで、ディープ ラーニング プロセス全体で適切なメモを取ることの重要性について説明します。彼は、エッジ デバイス (スマート スピーカーなど) に音声認識システムを展開する例を使用して、計算量と電力量が限られている低電力プロセッサで大規模なニューラル ネットワークを実行するという課題を強調しています。に
    この課題に対処するために、より単純なアルゴリズムを使用して、誰かが話しているかどうかを検出してから、オーディオ クリップを大規模なニューラル ネットワークに渡して分類します。このより単純なアルゴリズムは音声アクティビティ検出 (VAD) として知られており、携帯電話で使用されるものを含む多くの音声認識システムの標準コンポーネントです。

  • 00:50:00 講義のこのセクションでは、教授は、非機械学習ベースの音声アクティビティ検出システムを使用するか、小規模なニューラル ネットワークをトレーニングしてプロジェクトの人間の音声を認識するかという問題を提起します。彼は、小さなニューラル ネットワークを低い計算予算で実行できることに注目し、誰かが話しているかどうかを検出する方が、話している言葉を認識するよりも簡単であることを示唆しています。クラスの学生はさまざまな意見を持っており、オプション 1 はデバッグが容易で単純であると主張する人もいれば、オプション 2 は犬の鳴き声や人のささやきなどのノイズを検出するのに適していると主張する人もいます。

  • 00:55:00 このセクションでは、講師が音声アクティベーションを実装するための 2 つのオプションについて説明します。これは、バックグラウンド ノイズがある場合にスマート スピーカーで発生する問題です。オプション 1 は、10 分で実装できるシンプルで迅速なソリューションであり、数行のコードでバックグラウンド ノイズを除外します。オプション 2 はより複雑で、ノイズの多い環境を処理するために大規模なニューラル ネットワークを構築する必要があります。大規模なスマート スピーカー企業ではオプション 2 が必要になる場合がありますが、小規模なスタートアップ チームは、オプション 1 から始めて、必要になったときにのみオプション 2 に投資することでメリットを得ることができます。講師はまた、製品出荷時のデータ変更の問題点を強調し、それを解決するための実践的なアイデアを提供します。

  • 01:00:00 このセクションでは、講演者は、学術界では無視されることが多い機械学習の実際的な弱点、つまりデータ変更の問題について説明します。機械学習モデルが特定のデータセットでトレーニングされている場合、訛りのある新しいユーザー クラス、さまざまなバックグラウンド ノイズ、大統領スキャンダルなどの新しいイベントなど、データが変化したときにうまく機能しない可能性があります。例としては、Web 検索、自動運転車、工場検査などがあります。この問題は、機械学習プラットフォームが現実の世界で機能し続けることを保証するために、継続的な監視、データ収集、およびモデルの再設計の必要性を浮き彫りにしています。

  • 01:05:00 このセクションでは、機械学習を使用しないアプローチと訓練されたニューラル ネットワークの間で、どのシステムが VAD (音声アクティビティ検出) に対してより堅牢であるかについて説明します。クラスの過半数が非 ML システムに投票しました。しかし、アメリカ訛りの発話で小規模なニューラル ネットワークをトレーニングすると、ニューラル ネットワークが特定のアメリカ訛りの特異性を検出する可能性が高くなり、イギリス訛りの発話の検出の堅牢性が低下することが判明しました。このクラスは、手作業でコーディングされたルールが十分に機能する場合、一般的にはデータをシフトするのにより堅牢であり、より一般化することが多いと結論付けていますが、そのようなルールがない場合は機械学習アルゴリズムが必要です.

  • 01:10:00 このセクションでは、講師は、厳密な学習理論によってサポートされているように、モデル内のパラメーターが少ないほど一般化が向上するという考えについて説明します。次に、世界は絶えず変化しており、更新が必要になる可能性があることを考えると、クラウドとエッジのどちらの展開タイプがモデルのメンテナンスを容易にするかという問題を提起します。聴衆に回答を入力する時間を与えた後、過半数は、ユーザーのプライバシーとセキュリティの問題はあるものの、更新をプッシュし、処理されたすべてのデータを 1 か所で受信できるため、クラウド展開によりメンテナンスが容易になると回答しました。

  • 01:15:00 このセクションでは、講演者は、機械学習プロジェクトの展開においてモニタリングとメンテナンスがいかに重要な考慮事項であるかについて説明します。彼らは、モデルのパフォーマンスとフィードバックを監視し、精度を向上させるために必要な変更に対処したり、必要に応じてモデルを再トレーニングしたりすることが不可欠であることを強調しています。彼らはまた、企業が統計テストを使用して品質保証プロセスを設定し、更新や変更があってもモデルが引き続き機能することを確認していることを示唆しています。さらに、フィードバックに使用するデータを収集してモデルを再トレーニングする際に、ユーザーのプライバシーを尊重し、ユーザーの同意を得ることの重要性を強調しています。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 3 - Full-Cycle Deep Learning Projects
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 3 - Full-Cycle Deep Learning Projects
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttps://stanford.io/3eJW8yTAndrew NgAdjunct Professor, Computer ScienceKian K...
 

講義 4 - 敵対的攻撃 / GAN




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 4 - 敵対的攻撃 / GAN

このレクチャーでは、敵対的な例の概念を紹介します。これは、事前にトレーニングされたニューラル ネットワークを欺くためにわずかに変更された入力です。講義では、これらの攻撃がどのように機能するかの理論的基礎を説明し、ディープラーニングで敵対的な例を利用する悪意のあるアプリケーションについて説明します。講義では、本物のように見える画像を生成できるモデルをトレーニングする方法として、Generative Adversarial Networks (GAN) も紹介し、GAN モデルのジェネレーターのコスト関数について説明します。最後に、生成された例を与えられたときの D の出力の対数グラフについて説明して、講義を締めくくります。

この講義では、Generative Adversarial Networks (GAN) に関連するさまざまなトピックを取り上げます。これには、GAN をトレーニングするためのヒントとコツ、およびイメージからイメージへの変換における GAN のアプリケーションと、CycleGAN アーキテクチャを使用した対になっていない生成的な敵対的ネットワークが含まれます。 GAN の評価についても説明します。ヒューマン アノテーション、分類ネットワーク、インセプション スコア、フレシェ インセプション ディスタンスなどの方法は、生成された画像のリアリズムをチェックするための一般的な方法です。

  • 00:00:00 このセクションでは、インストラクターはニューラル ネットワークに対する敵対的攻撃の概念を紹介し、イグアナではないが、事前トレーニング済みのネットワークによってイグアナとして分類される入力画像を見つけるという目標を設定します。インストラクターは、ニューラル ネットワークにはこれらの攻撃に対して脆弱な盲点があることを説明し、これらの攻撃がどのように機能するかの理論的基礎について説明します。インストラクターは、このトピックがより理論的なものであることを強調し、さらに理解を深めるための推奨読書をリストします。

  • 00:05:00 このセクションでは、予想される出力と予想されない出力の差を最小限に抑える損失関数を使用して敵対的な例を生成するプロセスについて説明します。損失関数は、L1、L2、またはクロスエントロピーであり、実際にはどちらがうまく機能するかに応じて異なります。次に、画像が目的の出力として分類されるまで、勾配降下法を使用して繰り返し最適化されます。ただし、実際の画像の空間よりもかなり大きい、ネットワークが認識できる入力画像の膨大な空間のため、結果として得られる画像は必ずしも目的の出力のように見えるとは限りません。

  • 00:10:00 このセクションでは、講師が深層学習における敵対的な例の悪意のあるアプリケーションについて説明します。攻撃者はこれらの例を使用して、ニューラル ネットワークをだまして入力を誤って解釈させることができます。たとえば、攻撃者は敵対的な例を使用して、自分の顔の写真を他人のものとして見せたり、CAPTCHA を破ったり、ソーシャル メディアの暴力的なコンテンツを検出するアルゴリズムをバイパスしたりできます。次に講師は、最適化問題に制約を課すと敵対的な例がより危険になる可能性があることを説明します。人間には猫に見える写真が、ニューラル ネットワークによってイグアナと解釈される可能性があり、これは自動運転車やその他の現実世界に影響を与えます。アプリケーション。最後に、最適化問題に使用される初期画像について説明します。講師は、対象オブジェクトの写真から始めることが最も効率的な戦略である可能性があることを示唆しています。

  • 00:15:00 このセクションでは、スピーカーは損失関数としての RMSE エラーの使用と、人間が 2 つの画像を似ていると見なすかどうかを正確に測定する方法ではない可能性について説明します。彼らはまた、たくさんの猫を取り、それらの間の最小距離を置く複雑な損失関数を作成するという課題にも取り組んでいます。次に、スピーカーは敵対的な例について話し、人間にとって現実に見える画像の空間が実際の画像の空間よりも実際にどのように大きいかについて話します。講演者は、非標的型攻撃と標的型攻撃について説明し、さまざまな種類の攻撃を検討する際に攻撃者の知識がいかに重要な要素であるかについて説明します。

  • 00:20:00 講義のこのセクションでは、教授は敵対的攻撃のブラック ボックス モデルを攻撃する方法について説明します。 1 つのアイデアは、数値勾配を使用して、画像がわずかに摂動したときに損失がどのように変化するかを推定することです。もう 1 つの概念は、あるモデル用に作成された敵対的な例が、別の同様のモデルをだますことができる転送可能性です。教授は、敵対的な例を除外するための「セーフティ ネット」モデルの作成や、異なる損失関数を持つ複数のネットワークのアンサンブルなど、潜在的な防御について言及しています。別のアプローチは、通常の例とともに敵対的な例でトレーニングすることですが、これはコストがかかる可能性があり、必ずしも他の敵対的な例に一般化するとは限りません。

  • 00:25:00 このセクションでは、講師が勾配降下最適化で敵対的な例を利用することの複雑さについて説明します。このプロセスでは、ネットワークを介して x を伝播して最初の項を計算し、最適化プロセスを使用して敵対的な例を生成し、敵対的な例を転送して伝播することで 2 番目の項を計算し、次にバックプロパゲーションを使用してネットワークの重みを更新します。ロジットペアリングの手法も、敵対的トレーニングの別の方法として簡単に言及されています。敵対的な例に対するニューラル ネットワークの脆弱性に関する理論的展望も持ち出されます。重要な議論は、高い非線形性やオーバーフィッティングではなく、ネットワークの線形部分が敵対的な例の存在の原因であるということです。

  • 00:30:00 このセクションでは、スピーカーは敵対的な例の概念と、元の入力に近い状態でネットワークの出力を根本的に変更するように入力を変更する方法について説明します。スピーカーは、x に関する y-hat の導関数を使用し、摂動値イプシロンを定義し、イプシロン*w-トランスポーズを x に追加することで、x を少し移動できることを示します。これは、それに応じて出力を変更するのに役立ちます。 .スピーカーは、項 w*w-transpose が常に正であることを強調しており、epsilon を小さな値に変更することで、この変化をほとんどなくすことができます。

  • 00:35:00 このセクションでは、講師は、ニューラル ネットワークの出力である y-hat を -4 からプッシュする x-star と呼ばれる x へのわずかな変化を計算することによって敵対的攻撃を作成する方法の例について説明します0.5に。講師は、W が大きい場合、x-star は x とは異なり、W の代わりに W の符号が使用される場合、結果は常に x 項を正側に押すことに注意します。さらに、x の次元が大きくなるにつれて、W の正のイプシロン記号の影響が大きくなります。

  • 00:40:00 このセクションでは、スピーカーは高速勾配符号法と呼ばれる方法について説明します。これは、敵対的な例を生成する一般的な方法です。このメソッドは、パラメーターの近くでコスト関数を線形化し、出力に大きな影響を与える一方向にピクセル イメージをプッシュするために使用されます。講演者は、研究がこれらのネットワークの動作を線形化することに焦点を当てているため、この方法はより深いニューラル ネットワークだけでなく線形にも機能すると説明しています。さらに、損失関数の導関数を計算するために連鎖則がどのように使用されるか、およびニューロンのパラメーターをトレーニングするために高い勾配を持つことの重要性について説明します。

  • 00:45:00 ビデオのこのセクションでは、敵対的生成ネットワーク (GAN) の概念をモデルをトレーニングする方法として紹介し、これまでに存在したことがなくても本物のように見える画像を生成できるようにします。目標は、ネットワークがデータセットの顕著な特徴を理解し、現実世界の分布に一致する新しい画像を生成する方法を学習することです。ミニマックス ゲームは、ジェネレーターとディスクリミネーターの 2 つのネットワーク間で行われます。ジェネレーターは、まずランダムな画像を出力し、ディスクリミネーターからのフィードバックを使用して、よりリアルな画像を生成する方法を学習します。 GAN のトレーニングは困難ですが、目標は、ジェネレーターが、利用可能なデータ量よりも少ないパラメーターで画像の現実世界の分布を模倣することを学習することです。

  • 00:50:00 このセクションでは、インストラクターが Generative Adversarial Networks (GAN) の概念と、バックプロパゲーションによるトレーニング方法を紹介します。 GAN はジェネレーターとディスクリミネーターで構成され、ディスクリミネーターは画像が本物か偽物かを識別しようとします。次に、ジェネレーターは偽の画像を生成し、識別器をだまして本物であると思わせようとします。ディスクリミネーターは、バイナリ クロス エントロピーを使用してトレーニングされます。実際の画像は 1 とラベル付けされ、生成された画像は 0 とラベル付けされます。ディスクリミネーターの損失関数は JD で、これには 2 つの項があります。

  • 00:55:00 このセクションでは、インストラクターが GAN モデルのジェネレーターのコスト関数について説明します。ジェネレーターがディスクリミネーターをだます現実的なサンプルを作成することが目標であり、コスト関数はこれを反映する必要があります。ただし、ゲームなのでDもGもバランスが取れるまで一緒に上達していく必要があります。ジェネレーターのコスト関数は、ディスクリミネーターが生成された画像を「1」に分類する必要があることを示しており、これは勾配の符号を反転することによって達成されます。インストラクターは、生成された例を与えられたときの D の出力の対数グラフについても説明します。

  • 01:00:00 このセクションでは、インストラクターがジェネレーターのコスト関数の問題と、それが負の無限大になる方法について説明します。これにより、勾配が 1 に近づくと勾配が非常に大きくなります。代わりに、ゼロに近づくと勾配が大きくなる非飽和コスト関数を使用し、数学的なトリックを使用して現在のコスト関数をこの非飽和コスト関数に変換することを提案しています。非飽和コスト関数は、ディスクリミネーターがジェネレーターよりも優れている場合、最初は高い勾配を持ちます。これは通常、トレーニングの早い段階です。

  • 01:05:00 このセクションでは、コスト関数の変更、ジェネレーターよりもディスクリミネーターの更新、Virtual BatchNorm の使用など、GAN をトレーニングするためのヒントとコツについてスピーカーが説明します。スピーカーは、ジェネレーターを使用してランダム化されたコードで顔を作成したり、コードの潜在空間で線形演算を実行して画像空間に直接影響を与えたりするなど、印象的な GAN の結果の例も示します。さらに、講演者は、GAN を画像から画像への変換に使用して、地図画像に基づいて衛星画像を生成し、シマウマと馬、リンゴとオレンジなどの異なるオブジェクト間で変換する方法を示します。

  • 01:10:00 このセクションでは、インストラクターは、馬をシマウマに、またはその逆に変換する際に、対になっていない敵対的生成ネットワークの使用について説明します。使用されるアーキテクチャは CycleGAN と呼ばれ、2 つのジェネレータと 2 つのディスクリミネータが含まれます。ジェネレーターは、画像をソース ドメインからターゲット ドメインに変換し、ソース ドメインに戻すようにトレーニングされています。これは、馬がシマウマと同じ馬である必要があるという制約を適用する上で重要です。使用される損失関数には、前に見た従来のコスト関数と、元の画像と生成された画像の一致を保証する追加の項が含まれます。

  • 01:15:00 ビデオのこのセクションでは、スピーカーは、条件付き GAN の損失関数を改善するためのサイクル コストの使用、エッジまたは低解像度画像に基づいて画像を生成する機能、およびプライバシーを保護する医療データセットや、骨や歯の交換などのオブジェクトのパーソナライズされた製造に GAN が使用される可能性があります。スピーカーは、ラーメンを顔と背中に変換したり、エッジに基づいて猫を生成したりするなど、作成された楽しいアプリケーションも強調しています。

  • 01:20:00 このセクションでは、講師が GAN の評価と、生成された画像が現実的かどうかを確認する方法について説明します。 1 つの方法は、ソフトウェアを作成し、どの画像が偽物で、どの画像が本物であるかをユーザーに示すよう求められるヒューマン アノテーションです。もう 1 つの方法は、Inception ネットワークのような分類ネットワークを使用して画像を評価することです。講師は、GAN を評価するための一般的な方法として、インセプション スコアとフレシェ インセプション ディスタンスについても言及しています。最後に、講師は学生に今後のクイズとプログラミングの課題について思い出させ、BatchNorm ビデオを確認するようにアドバイスします。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 4 - Adversarial Attacks / GANs
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 4 - Adversarial Attacks / GANs
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...
 

講義 5 - AI + ヘルスケア




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 5 - AI + ヘルスケア

この講義では、ヘルスケアにおける AI アプリケーションの概要を説明します。彼は、説明、診断、予測、処方など、AI が答えることができる質問の種類を分類しています。次に、著者は、さまざまな医療問題への AI の適用を示す、彼の研究室からの 3 つのケース スタディを紹介します。 1 つの例は、深刻な不整脈の検出です。専門家が誤診した可能性がありますが、機械によって検出される可能性があります。もう 1 つの例は、畳み込みニューラル ネットワークを使用して、膝の MR 検査から異常を特定することです。具体的には、ACL 断裂と半月板断裂の可能性を特定します。最後に、講演者は、ヘルスケア AI におけるデータ分散とデータ拡張に関連する問題について説明します。

第 2 部では、ヘルスケア アプリケーションでのディープ ラーニングの実装に関連するさまざまなトピックについて説明します。自動運転車の音声認識の問題に対する企業のソリューションによって実証されているように、データ拡張の重要性が議論されています。追加するレイヤーの数やフリーズするレイヤーの決定など、ヘルスケア アプリケーションの転移学習に関連するハイパーパラメーターについても説明します。その後、講義は画像分析に移り、ラベル付きデータセットに境界を追加することの重要性が強調されます。医用画像解析におけるオブジェクト検出とセグメンテーションの利点と違いについて説明し、ゼロまたは 1 でラベル付けされた医用画像のバイナリ分類のトピックを紹介します。講義は、深層学習におけるデータの重要性とコースの今後の評価について議論することで締めくくられます。

  • 00:00:00 ビデオのこのセクションでは、講義で医療における AI アプリケーションの概要を説明します。彼は、説明、診断、予測、処方など、AI が答えることができる質問の種類を分類しています。彼はまた、ディープ ラーニングのパラダイム シフトと、AI が機械学習エンジニアの仕事を自動化する可能性についても説明しています。次に Rajpurkar は、さまざまな医療問題への AI の適用を示す、彼の研究室からの 3 つのケース スタディを紹介します。

  • 00:05:00 このセクションでは、スピーカーは医用画像を使用して不整脈を検出する問題について説明します。不整脈は何百万人もの人々に影響を与える重大な問題であり、心拍リズムの微妙な違いにより、心電図検査でそれらを検出することは困難な場合があります。講演者は、Zio Patch などの最近のデバイスを使用して患者を監視することから 2 週間で生成されたデータ量を強調しています。これにより、自動解釈が必要になる可能性があります。ただし、自動化された方法を使用して不整脈を検出するには、利用できる電極が限られていることや、心拍リズムの微妙な違いなどの課題があります。これらの課題を克服するために、講演者はディープ ラーニングを使用することを提案します。これにより、特徴エンジニアリングと分類に対する従来のアプローチを変えることができます。

  • 00:10:00 このセクションでは、34 層の深さの 1D 畳み込みニューラル ネットワーク アーキテクチャを備えたディープ ニューラル ネットワークを使用して、心臓のリズム (A、B、および C とラベル付け) を入力から出力にマッピングする方法について説明します。使用されたネットワークは、エラー信号から各レイヤーまでの距離を最小限に抑えるのに役立つショートカットを備えた残差ネットワークであり、以前の最大のデータ セットの 600 倍の大きさのより大きなデータベースと組み合わされました。この新しいデータベースにより、アルゴリズムは F1 メトリクスの精度と再現率で心臓専門医を凌駕することができます。最大の間違いは、非常に似ているが治療に違いのない 2 つのリズムを区別することであり、専門家が見落としていたコストの間違いを見つけることさえあります。

  • 00:15:00 このセクションでは、講師がヘルスケアにおける自動化の使用と、ディープ ラーニングと機械学習がどのように患者の継続的なモニタリングを可能にし、危険因子の科学的理解を深め、医療のブレークスルーの可能性を高めるかについて説明します。 1 つの例は、深刻な不整脈の検出です。専門家が誤診した可能性がありますが、機械によって検出される可能性があります。講師はまた、胸部 X 線による肺炎の検出についても説明し、特に肺炎が世界的に大きな負担となっている小児における自動検出の有用性を強調しています。

  • 00:20:00 このセクションでは、スピーカーは、患者の胸部 X 線の入力画像を取得し、存在または不在を示すバイナリ ラベルを出力するために、ImageNet で事前にトレーニングされた 2D 畳み込みニューラル ネットワークの使用について説明します肺炎の。使用されたデータセットは、NIH によってリリースされた 100,000 の胸部 X 線の大規模なデータセットであり、各 X 線には最大 14 の異なる病状が注釈付けされています。モデルが放射線科医よりも優れているかどうか、または放射線科医と同等であるかどうかを判断するために、他の専門家と同様に同意するかどうかを評価する評価が行われました。 F1 スコアは、専門家とモデルごとに 1 回計算され、このタスクではモデルが平均的な放射線科医よりも優れたパフォーマンスを示したことが示されました。結果は、14 の病状すべてにおいて、以前の最先端技術よりも優れていました。

  • 00:25:00 このセクションでは、スピーカーは、病歴にアクセスせずに患者を診断する際の課題と、より多くの情報にアクセスできる放射線レポートでディープラーニング アルゴリズムをトレーニングする方法について説明します。目標は、新しい患者の胸部 X 線で見られる一連の症状から潜在的な病状を特定することです。モデルの解釈は、アルゴリズムの意思決定プロセスについて臨床医に知らせる上で不可欠であり、クラス アクティベーション マップを使用して、病状のある画像の領域を強調するヒート マップを生成します。このアプローチは、特に先進国でワークフローを優先することで医療提供を改善し、人口の 3 分の 2 が診断へのアクセスを欠いている世界的に医療画像の専門知識を増やすことができます。

  • 00:30:00 このセクションでは、講師が、ユーザーが X 線画像をアップロードしてモデルが診断できるようにするプロトタイプ アプリのデモを行います。このモデルは 14 の病状でトレーニングされており、心肥大 (心臓の肥大) を識別することができます。講師は、インターネットからダウンロードした画像の診断の成功によって実証されたように、アルゴリズムがトレーニングされたものを超えて母集団に一般化するアルゴリズムの能力に興奮しています.さらに、講師は、膝の異常を特定することを目的とした膝の MR 画像に関するケーススタディについて説明します。 3D の問題により、膝をさまざまな角度から見ることができます。これは、放射線科医が診断を行う上で不可欠です。

  • 00:35:00 このセクションでは、スピーカーは畳み込みニューラル ネットワークを使用して膝の MR 検査から異常を特定する方法、特に ACL 断裂と半月板断裂の可能性を特定する方法について説明します。講演者は、ビューとパソロジーのペアごとに 9 つの畳み込みネットワークをトレーニングし、ロジスティック回帰を使用してそれらを結合しました。彼らは 120 の検査でモデルをテストし、異常を識別するのにうまく機能することを発見しました。講演者はまた、モデルを一般化して、さまざまな機関や国からのデータセットを操作できるようにすることの重要性についても説明します。また、放射線科医などのさまざまな分野の専門家と協力してパフォーマンスを向上させるモデルの問題についても言及されています。

  • 00:40:00 講演のこのセクションでは、講演者は AI モデルを使用して ACL 断裂を検出する放射線科医の有効性に関する研究について説明します。この研究では、放射線科医と一緒にモデルを使用すると、ACL 断裂検出のパフォーマンスと特異性が向上することがわかりました。ただし、自動化バイアスの懸念が生じ、スピーカーは、モデルに頼りすぎている場合に放射線科医に警告するために、反転した回答で試験に合格するなど、潜在的な解決策に対処します。また、講演者は、MURA データセットの操作や AI for Healthcare Bootcamp への参加など、学生が AI とヘルスケアに参加する 2 つの機会についても説明します。

  • 00:45:00 このセクションでは、スピーカーは、ヘルスケアにおける AI モデルの開発と実装における医療専門家のアプリケーションと潜在的な補償について説明します。このトピックについては多くの作業が行われていますが、医療専門家の生活への潜在的な影響をめぐる倫理的懸念に対する直接的な解決策はありません。スピーカーは、特定の病状を検出する際の AI モデルの限界と、これらの限界をユーザーに伝えることの重要性についての質問にも答えます。このセクションの最後に、深層学習を使用して皮膚細胞の顕微鏡画像をセグメント化し、疾患を検出するケース スタディを紹介します。

  • 00:50:00 このセクションでは、スピーカーは医用画像のセグメント化と、データセットのトレーニング、開発、およびテスト セットへの分割について説明します。画像は、セルに対応するピクセルまたはセルに対応しないピクセルにバイナリ セグメント化されます。聴衆は、A、B、および C の 3 つの異なる顕微鏡からのデータを、A に 50%、B に 25%、C に 25% に分割してデータを分割するための戦略について話し合い、提供するよう求められます。コンセンサスは、トレーニングと開発テスト用にデータを 95-5 に分割し、C イメージを開発セットとテスト セットに使用し、C イメージもトレーニング データの 90% に含めます。

  • 00:55:00 このセクションでは、講演者はヘルスケア AI におけるデータ配布とデータ拡張に関連する問題について説明します。彼は、トレーニング データの分布が実際のアプリケーションの分布と一致することを保証することの重要性を強調し、回転、ズーム、ぼかし、対称などの拡張技術を提案しています。スピーカーはまた、対称反転が誤ったラベル付けにつながる可能性がある文字認識など、データ拡張がモデルを助けるのではなく害を及ぼす可能性がある場合について警告します.

  • 01:00:00 このセクションでは、自動運転車と車内の仮想アシスタントに取り組んでいる企業の例を使用して、データ拡張の重要性について説明します。彼らは、車が後退しているときに音声認識システムがうまく機能していないことに気付き、人々が助手席に手を置いて後ろを向いて仮想アシスタントに話しかけていることを発見しました。スマート データ オーグメンテーションを使用して、データの音声を変更して、車の後部に向かって話している誰かが使用しているように見せかけ、問題を解決しました。さらに、転移学習に関連するハイパーパラメータなどのトピックについても説明します。

  • 01:05:00 このセクションでは、深層学習を使用したヘルスケア アプリケーションの転移学習に関連するハイパーパラメータについて説明します。レイヤーの数、追加されるレイヤーのサイズ、トレーニング中にフリーズするレイヤーの決定などのハイパーパラメーターに焦点を当てています。スピーカーは、事前トレーニング済みのネットワークから保持するレイヤーを選択する方法と、セグメンテーション用の新しいネットワークを作成するために追加するレイヤーの数を説明します。さらに、小規模なデータセットの再トレーニング中に、事前トレーニング済みのレイヤーをどれだけ凍結するかを決定することが重要であると議論しています。

  • 01:10:00 このセクションでは、インストラクターがアルゴリズムによって生成された出力のイメージを示しますが、これは医師が望むものとは一致しません。画像には分離できない細胞が含まれており、医師が解釈するのが困難です。この問題の解決策は、ラベル付けされたデータセットに境界を追加することです。データセットは、境界の存在を考慮して再ラベル付けできます。モデルがまだうまく機能しない場合、損失関数の重み付けが調整されます。つまり、モデルは境界に焦点を当てるようにトレーニングされます。損失関数の各値に係数を割り当てて、モデルが境界を逃した場合にどのように処理を進めるかをモデルに伝えることができます。データセットの再ラベル付けは、線を引く場所で手動で行うことができ、線内の領域はセルとして扱われ、境界は線として扱われます。

  • 01:15:00 このセクションでは、医用画像解析におけるオブジェクト検出とセグメンテーションの利点と違いについて説明します。オブジェクト検出は分析を高速化するためにうまく機能する可能性がありますが、セグメンテーションは細胞の分離においてより正確です。次に、がん細胞の有無を示す0または1でラベル付けされた医用画像の2値分類について説明します。講演者は、99% の精度を達成した後、勾配値を使用してネットワークの予測を解釈することを推奨しています。次に、ネットワークが医師よりも高い精度を達成できるかどうかが問われますが、経験と認識の違いにより、答えはイエスです。

  • 01:20:00 このセクションでは、インストラクターがヘルスケア AI モデルの基本エラーと人間レベルのパフォーマンスについて説明します。彼らは、データセットにラベルを付けた医師グループの精度は、1 人の医師の精度を超える可能性があるため、考慮に入れる必要があると述べています。自動運転のパイプラインについても説明されており、各コンポーネントを分離してそのパフォーマンスをチェックすることで、問題がどこにあるかを特定するのに役立つことが示唆されています。さらに、パイプライン アプローチの利点についても説明します。これには、エンド ツー エンド システム全体よりも個々のステップごとにデータ収集を取得する方が簡単であることが含まれます。

  • 01:25:00 このセクションでは、講師が深層学習におけるデータの重要性と、どのデータに簡単にアクセスできるかによって、取り組むべき問題の選択がどのように左右されるかについて説明します。次に、畳み込みニューラル ネットワークのトピックを紹介し、今後のモジュールでは画像解析に重点が置かれると述べています。インストラクターは、今後のクイズ、プログラミングの課題、および今週のビデオまでのすべてをカバーする中間テストについて生徒に思い出させます。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 5 - AI + Healthcare
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 5 - AI + Healthcare
  • 2019.03.21
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...
 

講義 6 - 深層学習プロジェクトの戦略




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 6 - 深層学習プロジェクトの戦略

このビデオでは、スピーカーは、機械学習プロジェクトの成功を測定するための適切な指標を選択することの重要性について説明しています。選択した指標は、当面の問題と望ましい結果を反映する必要があります。講演者は、精度、精度、再現率、F1 スコアの例を示し、それぞれをいつ使用する必要があるかを説明します。また、検証セットとテスト セットの違いについても説明し、両方を使用することが重要である理由を説明しています。さらに、スピーカーは、学習アルゴリズムの有効性を測定するための比較のポイントとして、ベースライン モデルの必要性を強調しています。最後に、スピーカーは、バイナリ分類のしきい値の選択と、クラスの不均衡に対処する方法について、聴衆からのいくつかの質問に対処します。

  • 00:00:00 このセクションでは、インストラクターが、音声コマンドを使用してランプをオンにするために使用できる特定のフレーズ「Robert turn on」を検出する音声認識システムを構築するプロジェクト シナリオを紹介します。目標は、このフレーズを認識し、話されたときにランプを点灯できる学習アルゴリズムを構築することです。インストラクターは、機械学習プロジェクトで次に何をすべきかを決定する際に戦略的に洗練されていることの重要性を強調し、それをより効率的にして迅速に推進します.講義は双方向型で、学生は普段一緒に仕事をしない人と一緒に座ることが推奨されます。

  • 00:05:00 このセクションでは、インストラクターは聴衆に、特定のフレーズを検出するための学習アルゴリズムを構築するタスクを持つスタートアップの CEO であると想像してもらいます。彼は、新しいプロジェクトに着手する前に既存の文献を読むことの重要性を強調し、研究論文を効率的に読む方法についてのヒントを提供します。彼は聴衆に、どの論文をより詳細に読むかを決める前に、表面レベルで複数の論文に目を通すようアドバイスしています。彼はまた、すべての論文が意味を成したり重要であるとは限らないため、無関係な情報を除外することが不可欠であると警告しています。

  • 00:10:00 講義のこのセクションでは、特定のトピックを理解しようとする際に、専門家と話し、論文の著者と連絡を取ることの重要性が強調されています。スピーカーは、深層学習プロジェクトに適したトレーニング、開発、およびテスト データセットを収集するプロセスについても説明します。彼らは、「Robert turn on」などの特定のフレーズを検出する個人を記録し、データ拡張技術を使用して学習アルゴリズムの分散を減らすことを提案しています。講演者は、時間と労力を費やす前に、データ拡張の必要性を検証することの重要性を強調しています。

  • 00:15:00 このセクションでは、スピーカーは、トリガー ワード検出システムの作成に関する宿題の例について説明します。このシステムは、誰かが「Robert turn on」などの特定のフレーズを発したことを検出し、ランプをオンにするなどのアクションをトリガーするように設計されています。必要なデータを収集するために、スピーカーは、それぞれ 10 秒の 100 個のオーディオ クリップを収集することを提案します。開発セットは 25 個、テスト セットは 0 個です。彼は、スタンフォード大学のカフェテリアのような混雑したエリアでは、1 人が 1 ~ 2 分ごとに記録されると推定して、このプロセスは迅速に実行できると説明しています。

  • 00:20:00 ビデオのこのセクションでは、講師が音声検出の問題を教師あり学習用のバイナリ分類の問題に変換する方法について説明します。彼らは、10 秒のクリップから 3 秒のオーディオ クリップを切り取って、クリップごとに異なるターゲット ラベルを付けることを提案しています。この方法では、何千ものトレーニング サンプルを生成できます。講師は、配列データを処理する他の方法が存在することを認めていますが、これは 1 つの方法です。また、まばらなターゲットと 3 秒のクリップの選択に関する聴衆からの質問にも答えます。最後に、精度は高いが、アルゴリズムが問題のフレーズのインスタンスを検出しないシナリオについて説明します。

  • 00:25:00 このセクションでは、スピーカーは、学習アルゴリズムが 95% の精度を提供するが検出されないシナリオについて説明します。彼らは、アルゴリズムを改善する 1 つの方法は、開発セットを指定し、実際の目標により近いメトリックを評価することであると示唆しています。これは、トレーニング セットと開発セットを再サンプリングして、正例と負例の点でより比例するようにするか、正例により大きな重みを与えることによって実行できます。別のアプローチとして、ターゲット ラベルを多数のラベルに変更することも考えられます。これは手早く汚い方法ですが、数学的に厳密ではありません。講演者はまた、デプロイ時にデータ セットを再調整する方法についての質問に答え、導入される可能性のあるバイアスを調整する必要性について言及します。

  • 00:30:00 このセクションでは、スピーカーは学習アルゴリズムを構築するための戦略について説明し、開発よりもデバッグのように感じることができることを強調します.ワークフローには通常、問題を修正してから、解決すべき新しい問題に遭遇することが含まれます。たとえば、アルゴリズムが過剰に適合している場合は、エラー分析が必要であり、データセットのバランスを取るためにエラー分析を追加できます。ただし、リバランスの単純な方法では、多くの否定的な例が破棄される可能性があり、学習アルゴリズムに役立つ可能性があります.講演者は、システムの効率を測定するための指標についても言及しました。たとえば、ランプが起動またはオンになる可能性や、ランプが自動的にオンになるランダム性などです。

  • 00:35:00 このセクションでは、スピーカーはオーディオのデータ拡張について説明し、バックグラウンド ノイズ データを収集してシステムをより堅牢にする 3 つの方法を提案します。最初の方法では、ユーザーの家でどのように聞こえるかをシミュレートするために、オーディオ クリップに追加する許可を得て、人々の家の中のバックグラウンド サウンドのオーディオ サンプルを収集します。 2 番目の方法では、雨や車の 10 時間のオーディオ クリップをクリエイティブ コモンズ ライセンスのオンライン コンテンツからダウンロードします。3 番目の方法は、Amazon Mechanical Turk を使用して世界中の人々にオーディオ サンプルを提供してもらうことです。

  • 00:40:00 ビデオのこのセクションでは、スピーカーは聴衆に、スタンフォード周辺のさまざまな場所でさまざまなメカニズムを使用して 10 時間の音声データを収集するのにかかる時間を見積もるように求めます。講演者は、ラップトップを持つ複数の友人を持つことでデータを並行して収集することは迅速に行うことができるが、クリップをオンラインでダウンロードすることは、クリップがループする可能性があり、データの多様性に寄与しない可能性があるため、より困難になる可能性があることを示唆しています.講演者は、アイデアを効率的にブレインストーミングし、どれだけの時間と労力が必要かを判断するために、このような演習を行うことの重要性を強調しています。

  • 00:45:00 このセクションでは、適切なトリガー ワード検出システムを構築するために、ブレインストーミングされたアイデアと時間の見積もりに基づいて効率的に選択を行うことの重要性について、インストラクターが説明します。与えられたアドバイスは、「汚い」ものをすばやく構築し、後でデータセットを開発してシステムをさらに改善することです。インストラクターは、企業の成功と失敗の違いは、最終的には効率的であり、与えられた時間枠を最大限に活用することに帰着することを強調しています.最後に、インストラクターは、コースを改善するために匿名のアンケートに記入するよう学生に勧めます
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 6 - Deep Learning Project Strategy
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 6 - Deep Learning Project Strategy
  • 2019.04.03
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...
 

講義 7 - ニューラル ネットワークの解釈可能性




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 7 - ニューラル ネットワークの解釈可能性

この講義では、講師は、顕著性マップ、オクルージョン感度、クラス アクティベーション マップなど、ニューラル ネットワークを解釈して視覚化するためのいくつかの方法を紹介します。クラス アクティベーション マップは、ニューラル ネットワークの中間層を解釈するために使用されます。これは、出力を入力空間にマッピングし直して、意思決定プロセスにおいて入力のどの部分が最も識別力があったかを視覚化することによって行われます。教授はまた、畳み込みニューラル ネットワークで空間情報を維持する方法としてのグローバル平均プーリングと、画像セグメンテーションなどのタスクのために画像の高さと幅をアップサンプリングする方法としてのデコンボリューションについても説明しています。さらに、講義では、畳み込みフィルターにおける直交性の仮定と、サブピクセル畳み込みを視覚化アプリケーションでの再構成に使用する方法について説明します。

この講義では、サブピクセル畳み込み、2D デコンボリューション、アップサンプリング、アンプーリング、DeepViz ツールボックスや Deep Dream アルゴリズムなどのツールの使用など、ニューラル ネットワークを解釈および視覚化するためのさまざまな方法について説明します。講演者は、ネットワークの最初の層でフィルターを視覚化すると解釈が容易になることを説明していますが、深く掘り下げるほど、ネットワークを理解するのが難しくなります。スピーカーは、さまざまな層の活性化を調べることで、特定のニューロンが特定の機能にどのように反応するかを示します。ニューラル ネットワークの解釈には限界がありますが、視覚化技術は、セグメンテーション、再構築、敵対的ネットワークの生成などの洞察と潜在的なアプリケーションを提供できます。

  • 00:00:00 このセクションでは、スピーカーは、ニューラル ネットワークを改善するために試行錯誤を行うのではなく、ニューラル ネットワークを解釈するという考え方を紹介します。彼らはさらに、ニューラル ネットワークを解釈するための 3 つの方法を紹介します。それは、顕著性マップ、オクルージョン感度、およびクラス アクティベーション マップです。これらの方法は、入力空間を逆にマッピングして、入力のどの部分が特定の出力に対して識別的であったかを確認することにより、ネットワークの意思決定プロセスを理解するのに役立ちます。次にスピーカーは、中間層をさらに掘り下げる方法と、勾配上昇クラス モデルの視覚化、データセット検索、デコンボリューションなどの方法を使用してネットワークをよりよく理解する方法について説明します。目標は、試行錯誤に頼るのではなく、ニューラル ネットワークを改善するための科学的な方法を提供することです。

  • 00:05:00 このセクションでは、講師がニューラル ネットワークの解釈可能性と、ネットワークが見ているものを視覚化するための顕著性マップの使用について説明します。彼らは、ネットワークの一般的な出力に最も大きな影響を与えるピクセルを識別するために、ソフトマックス層の確率を使用する代わりに、ソフトマックス前のスコアを使用する方が良いと説明しています。講師は、より正確な視覚化のための方法としてオクルージョン感度も紹介します。これには、入力画像内の犬に灰色の正方形を配置し、それをネットワークを介して複数回伝播して、クラスの犬の確率マップを作成することが含まれます。ここで、ネットワークの信頼度は異なる色で示されます。グレーの正方形をシフトすることで、ネットワークが犬として分類するために最も重要な入力画像の領域がマップに示されます。

  • 00:10:00 このセクションでは、講師がニューラル ネットワークを解釈して理解するための 3 つの異なる方法について説明します。最初の方法では、画像の一部を隠して、ネットワークがどこを見ているか、何に焦点を合わせているかを確認します。講師は、犬と椅子の画像を使用してこの方法を実演し、画像のどの部分が遮られるかによってネットワークの信頼度がどのように変化するかを示します。 2 番目の方法はオクルージョン感度で、画像の特定の部分が削除されると、ネットワークの信頼度が実際に向上します。 3 番目の方法は、クラス アクティベーション マップです。これは、画像レベルのラベルのみでトレーニングした場合でも、画像内のオブジェクトをローカライズするネットワークの能力を示します。講師は、このローカリゼーション能力は物体検出などのタスクに不可欠であり、分類タスクのトレーニングを通じて開発されることが多いと説明しています。

  • 00:15:00 このセクションでは、インストラクターは、畳み込みニューラル ネットワーク (CNN) で平坦化されて完全に接続されている代わりに、グローバル平均プーリングを使用して空間情報を維持する方法を示します。これは、ネットワークが見ているものを視覚化するのに役立ちます。 6 つの特徴マップでボリュームを取得した後、グローバル平均プーリングを適用して 6 つの値のベクトルに変換します。次に、ソフトマックス アクティベーションを使用して完全に接続されたレイヤーにフィードし、確率を取得します。全結合層の重みを見ることで、各特徴マップが出力にどれだけ寄与しているかを把握することができ、これらすべての特徴マップの加重合計により、入力画像でネットワークが見ているものを明らかにできます。

  • 00:20:00 このセクションでは、スピーカーはクラス アクティベーション マップと、それらがニューラル ネットワークで分析されるクラスにどのように依存するかについて説明します。最初のアクティベーションと前のレイヤーの間のエッジを調べることによって、スピーカーは、分析されるクラスによって重みが異なることを説明します。すべての特徴マップを合計すると、さまざまな結果が得られます。次にスピーカーは、最後のいくつかのレイヤーを変更することで、ネットワークを使用してクラス アクティベーション マップを視覚化する方法と、これには微調整が必要である方法について説明します。講演者はまた、116 の正規化を含むグローバル平均プーリング プロセスが、特徴マップがわかっているため空間情報を失わず、正確にマッピングできることについても説明します。

  • 00:25:00 このセクションでは、スピーカーはクラス活性化マップがニューラル ネットワークの中間層を解釈するためにどのように機能するかを説明します。このメソッドは、出力を入力空間にマップし直すことで、意思決定プロセスにおいて入力のどの部分が最も識別力があったかをユーザーが視覚化できるようにします。望ましい出力のスコアを最大化する反復プロセスである勾配上昇を通じて、話者はこの方法を使用して、ネットワークが犬がどのように見えるかを表す画像を見つける方法のデモンストレーションを提供します。話者は、この方法は画像データを解釈する効果的な方法ですが、非画像データを解釈するためにアテンション モデルなどの他の方法が使用されると述べています。

  • 00:30:00 講義のこのセクションでは、教授は、ニューラル ネットワークが見ているものを視覚化するためのさまざまな手法について説明します。彼は、特定のピクセル値をプッシュすると特定のクラスのスコアが高くなる例や、L2 やガウスぼかしなどの正則化によって視覚化の品質が向上する例を示しています。教授はまた、目的関数を使用して特定のクラスのスコアを最大化するクラス モデルの視覚化のアイデアと、それを使用してネットワークが正しいものを見ていることを検証する方法を紹介します。さらに、教授は、データセット検索を使用して、特徴マップを選択し、ネットワークを介して多くのデータを実行して、どのデータポイントがその機能マップの最大活性化。

  • 00:35:00 このセクションでは、講師が畳み込みニューラル ネットワークのさまざまな特徴マップが画像のさまざまな部分によってどのように活性化されるかを説明します。講師は、シャツを検出する特徴マップとエッジを検出する特徴マップの例を示します。次に、講師は、ネットワーク内の画像の活性化は入力画像の一部のみを見ており、ネットワークが深くなるにつれて、各レイヤーの活性化は画像のより大きな部分を見ることを説明します。講師は、デコンボリューション ネットワークを使用してコード入力に基づいて画像を出力する方法と、この方法が多くのニューロンを含む全結合層を使用するよりも実用的である方法についても説明します。

  • 00:40:00 このセクションでは、スピーカーはニューラル ネットワークでのデコンボリューションの使用について説明します。デコンボリューションは、画像の高さと幅をアップサンプリングできるため、画像のセグメンテーションなどのタスクに役立ちます。講演者は、勾配上昇法と、アンプーリング、アン ReLU、およびデコンボリューションを通じて入力空間でアクティベーションを再構築する方法についても説明します。次にスピーカーは、デコンボリューションを行列ベクトルの数学演算として定義し、パディングを使用した 1D コンボリューションの例を示します。

  • 00:45:00 講義のこのセクションでは、教授が行列とベクトルの間の数学演算について説明しています。彼は、サイズが 4 でストライドが 2 のフィルターを 1 つ持つ畳み込み層の例を挙げています。出力サイズは、nx-f+2p/ストライドという式を使用して計算されます。次に、連立方程式を書き、行列の形状を見つけることによって、この畳み込みを行列とベクトルの間の数学演算として定義する方法を説明します。結果の行列は連立方程式に従って埋められ、アクティベーションのベクトルは行列で乗算されます。

  • 00:50:00 レクチャーのこのセクションでは、インストラクターが畳み込み演算を単純な行列×ベクトルとして表現する方法を説明します。行列は重みで構成され、行列内での配置はストライドとウィンドウ サイズによって決定されます。畳み込みを行列演算としてフレーミングすることにより、行列を反転してデコンボリューションを実行し、元の入力を再構築できます。ただし、このアプローチは、重み行列が可逆で直交していることを前提としており、実際には常にそうであるとは限りません。直交性の仮定は、畳み込みフィルターがエッジ検出器である場合に役立ちます。

  • 00:55:00 講義のこのセクションでは、教授は Y から X を生成する方法を紹介します。これは、再構成が常に正しいとは限らない場合でも役立つという仮定を使用して行われます。イラストと Menti コードを使用してプロセスを示し、サブピクセル畳み込みを使用して、上から下ではなく左から右にストライクを行って同じ操作を実行する方法を示しています。この手法では、入力をトリミングしてパディングして、目的の出力を取得します。教授は、このタイプの畳み込みは、視覚化アプリケーションでの再構成によく使用されると述べています。

  • 01:00:00 このセクションでは、講師がサブピクセル畳み込みの概念を説明します。これには、ベクトル Y にゼロを挿入して、デコンボリューションのより効率的な計算を可能にすることが含まれます。重みを反転し、ストライドを 2 で割ってゼロを挿入することにより、デコンボリューション プロセスは本質的に畳み込みと同等になります。このプロセスは 2 次元の畳み込みに拡張でき、全体として、畳み込みの行列とベクトルの間の数学的操作をよりよく理解できます。

  • 01:05:00 このセクションでは、スピーカーは 2D デコンボリューションの解釈について詳しく説明します。デコンボリューションの背後にある意図は、再構成された x である 5 行 5 列の入力を取得することです。これを行うために、スピーカーは、サイズが 2 行 2 列のフィルターが、conv レイヤーでストライドが 2 に等しい前方伝搬入力に適用されることを示します。次に、デコンボリューション技術を適用して、再構成された画像を取得します。講義では、デコンボリューション プロセスには、フィルターを取得し、すべての重みを y11 で乗算し、これを 1 ストライドでシフトし、すべてのエントリに対して同じプロセスを繰り返すことが含まれていると説明されています。スピーカーは、プロセスがやや複雑であることに注意して締めくくります。ただし、デコンボリューションの概念がよく理解されていなくても心配する必要はありません。

  • 01:10:00 講義のこのセクションでは、教授が画像のアップサンプリング プロセスを視覚的に説明します。彼は、画像を再構築するために、可能であれば ConvNet からの重みを使用する必要があると説明しています。次に、4x4 画像から始まり、ゼロを挿入して 9x9 画像にパディングしてから、フィルターを使用して画像を畳み込み、その過程で畳み込みを実行するアップサンプリング プロセスの視覚的表現を示します。彼はまた、unpool と unReLU の方法についても簡単に説明し、最大プールは数学的に可逆ではないが、最大値のスイッチを分散およびキャッシュすることでプロセスを概算できると述べています。

  • 01:15:00 このセクションでは、元の入力を再構築するためのスイッチとフィルターの使用とともに、ニューラル ネットワークにおけるアンプーリングとマックスプーリングの概念について説明します。 ReLU 活性化関数についても説明し、ReLU バックワードの概念を紹介します。 ReLU DeconvNet の使用は、順伝播に依存しない偏りのない再構成の方法として説明されています。このアプローチはハックとして説明されており、常に科学的に実行可能であるとは限りませんが、ニューラル ネットワークの視覚化と解釈には役立ちます。

  • 01:20:00 レクチャーのこのセクションでは、各アクティベーションが何に対応するかを調べることで、ニューラル ネットワーク内で何が起こっているかを視覚化して理解する方法をスピーカーが説明します。視覚化手法には、活性化の選択、最大活性化の検出、その他すべての活性化のゼロへの設定、および画像の再構成が含まれます。話者は、ネットワークの最初の層のフィルターがどのように解釈可能であるかについて説明します。これは、重みが直接ピクセルを乗算しているという事実によるものです。ただし、ネットワークを深く掘り下げると、フィルターの解釈が難しくなります。講演者はさらに、深く掘り下げるほど複雑さが増すことを説明し、さまざまなフィルターの例とそれらをアクティブにする画像の種類を示します。

  • 01:25:00 講義のこのセクションでは、講演者が DeepViz ツールボックスを使用してニューラル ネットワークの解釈可能性を調査する方法を実演します。スピーカーは、畳み込みネットワークのさまざまな層でニューロンの活性化を調べることにより、顔やしわなどの特定の特徴に反応して特定のニューロンがどのように発火するかを示します。講演者はまた、勾配を特定の層の活性化と等しくなるように設定することで画像を生成する Deep Dream 手法のオプションの使用についても言及し、ニューラル ネットワークの動作をさらに調査できるようにします。

  • 01:30:00 このセクションでは、スピーカーは Deep Dream アルゴリズムを実演します。これは、ニューラル ネットワークの活性化を入力層に逆伝播し、ピクセルを更新することによって画像を生成します。その結果、動物やその他のオブジェクトが一緒にモーフィングされた、さまざまなシュールなイメージが得られます。講演者はまた、ニューラル ネットワークの解釈の限界と、クラス アクティベーション マップやデコンボリューションなどの視覚化手法を使用して、ネットワークが世界をどのように認識し、死んだニューロンを検出するかを理解する方法についても説明します。さらに、スピーカーは、セグメンテーション、再構築、敵対的ネットワークの生成など、これらの視覚化の潜在的なアプリケーションを強調しています。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 7 - Interpretability of Neural Network
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 7 - Interpretability of Neural Network
  • 2019.04.03
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...
 

講義 8 - キャリアアドバイス / 研究論文を読む




スタンフォード CS230: ディープラーニング | 2018年秋 |講義 8 - キャリアアドバイス / 研究論文を読む

この講義では、Andrew Ng 教授が研究論文を効率的に読み、急速に進化する深層学習の分野についていく方法についてアドバイスを提供します。彼は、図や表に注意を払うだけでなく、序文と結論のセクションで研究を要約することの重要性を強調しています。 Ng はキャリアに関するアドバイスも共有しており、求職者は AI と機械学習の複数の分野で幅広く深い知識を持ち、成長の機会を最大化するために有名なブランドではなく個人と協力することに集中することを推奨しています。彼は、一貫して論文を読み、コースやプロジェクトを通じて水平および垂直の両方のスキルを構築して、機械学習の強力な基盤を構築することを提案しています。

  • 00:00:00 講義のこのセクションでは、講演者は、特に急速に進化している深層学習の分野で、研究論文を効率的に読む方法についてアドバイスを共有します。彼は、arXiv に投稿された研究論文、Medium の投稿、GitHub の投稿など、論文やリソースのリストを作成することを提案しています。それから彼は、論文にざっと目を通して、それぞれの論文を素早く理解し、意味をなさない論文や役に立たない論文は飛ばすことを勧めています。彼は、影響力のある論文により多くの時間を費やし、引用を使用してそのトピックに関する追加の論文を見つけることを提案しています。

  • 00:05:00 このセクションでは、講師が特定のトピックの理解を深めるために研究論文を読むためのガイドラインを提供します。彼は、15 から 20 の論文を読むことでその分野の基本的な理解が得られ、50 から 100 の論文を読むことで非常によく理解できるようになると示唆しています。さらに、彼は 1 つの論文の読み方についてアドバイスを提供し、最初のパスでタイトル、要約、および図を読むことに重点を置いて、論文を複数回読む必要があることを示唆しています。講演者は、序文と結論のセクションで研究を要約することの重要性を強調します。これらのセクションでは、著者が研究の重要性を明確に説明することがよくあります。

  • 00:10:00 講義のこのセクションでは、講演者が研究論文を効率的に読む方法についてアドバイスします。彼は、論文の概要、導入部、結論から始めて、論文の内容を明確に理解することを提案しています。彼はまた、関連する作業セクションをざっと読むことを勧めていますが、文献にまだ慣れていない場合、理解するのが難しいことがよくあります.講演者は、論文全体を読むことを勧めていますが、重要でないセクションが論文に含まれていることは珍しくありません。最後に、著者が達成しようとしていたことや適用できる重要な要素など、論文の理解を深めるために、読者が試行して回答する一連の質問を提供します。

  • 00:15:00 講義のこのセクションでは、教授は学生に研究論文を読むことを奨励し、数学を掘り下げる前に英語のテキストから始めることを勧めています。彼は「Densely Connected Convolutional Neural Networks」と呼ばれる論文を割り当て、クラスメートと議論する前に学生がそれを読むのに 7 分かかることを提案しています。彼はまた、練習を積むことで、ネットワーク アーキテクチャの説明に使用される一般的な形式の理解を含め、学生は研究論文をより速く読み、理解できるようになると述べています。教授は、論文の図や表に示されている主な概念に焦点を当てることで、より早く学ぶことができると強調しています。

  • 00:20:00 このセクションでは、Andrew Ng 教授が、深層学習の研究についていく方法と理解する方法についてアドバイスを提供します。彼は、Web 検索を行って重要な論文に関するブログ投稿を探し、Twitter と ML Subreddit をチェックし、論文をオンラインで頻繁に共有している研究者をフォローすることを提案しています。 Ng はまた、アルゴリズムを深く理解するために、同僚やクラスメートとコミュニティを形成して興味深い論文を共有し、詳細なメモから数学を再導出することを推奨しています。 Ng 氏は、経験レベルと難易度によって 1 論文に費やす時間が異なる可能性があることを強調していますが、より多くの時間を費やすことで、ディープ ラーニングの概念をより深く理解することができます。

  • 00:25:00 このセクションでは、インストラクターは、新しいアルゴリズムを一般化して導き出す能力を可能にするため、深い理解を確実にするために機械学習アルゴリズムを最初から導き直すよう学生にアドバイスします。彼はまた、学習に関しては詰め込むよりも間隔をあけて繰り返すことを推奨しており、学生が読書グループを形成し、仲間と協力して学習を続け、機械学習のキャリアをナビゲートすることを奨励しています。彼は激しい活動よりも着実な学習を強調し、キャリア ナビゲーションへのアプローチ方法に関するヒントを提供します。

  • 00:30:00 講義のこのセクションでは、講演者は、機械学習分野で就職する方法や博士号プログラムに参加する方法について説明し、重要な仕事をすることの重要性を強調します。採用担当者は、技術的なスキル、コーディング能力、および機械学習に関する有意義な実務経験を求めています。新しいスキルを学び続け、フィールドの急速な進化に遅れないようにする能力も高く評価されています。成功している AI および機械学習エンジニアは、機械学習のさまざまな分野について学び、それらの分野での作業を経験しており、さまざまな設定で機械学習アルゴリズムを適用する方法を深く理解しています。

  • 00:35:00 このセクションでは、講師が求職者に望ましい「T 字型」のスキルについて説明します。これは、複数の AI および機械学習の分野を幅広く理解している一方で、少なくとも 1 つの特定の分野を深く理解していることを意味します。エリア。彼は、有意義なプロジェクトに取り組んだり、オープンソースに貢献したり、採用担当者に候補者の能力を納得させるための調査を行ったりするなど、実践的な経験を持つことの重要性を強調しています。講師は、実践的な経験を積まずに多くのクラスを受講したり、深く飛び込みすぎたり、深みのない小さなプロジェクトをやりすぎたりしないように警告しています。

  • 00:40:00 講義のこのセクションでは、Ng 教授が、水平方向と垂直方向の部分を構築することを推奨することで、機械学習の強固な基盤を構築する方法についてアドバイスを提供します。彼は、10 個の小さなプロジェクトを完了しても、1 つまたは 2 つの大きなプロジェクトほど採用担当者に好印象を与えない可能性があると述べています。 AI と機械学習の基本的なスキルで構成される水平部分を構築するには、コースを受講し、研究論文を読み、コミュニティに参加することをお勧めします。より関連性の高い深いプロジェクトを行うことを含む垂直的な部分を構築するために、Ng は機械学習や AI に関連することに取り組み、これらの分野でのキャリアの成長を支援するようアドバイスしています。彼は続けて、個人的な満足以外に深い学習の仕事に対する短期的な報酬がないことが多いため、楽しむことと休憩を取ることの重要性を強調しています.

  • 00:45:00 このセクションでは、深層学習の分野を改善するために一貫性がいかに重要であるかについて講師が説明します。週2回の論文を1年間継続して読むことは、100本の論文を読むことにつながり、その分野の向上に貢献します。さらに、優れた人やプロジェクトは成功の最大の予測因子であり、熱心に働き、多くの論文を読み、自分の仕事に気を配る親しい友人を持つことは、同じことをするように影響を与える可能性があります.仕事を選ぶ際には、チームに焦点を当て、キャリアを構築し、スキルを向上させることができる10〜30人のグループとやり取りすることをお勧めします.

  • 00:50:00 このセクションでは、講演者が深層学習愛好家にキャリアのアドバイスを提供し、企業のブランドではなく個人に焦点を当てるよう促します。スピーカーは、自分のマネージャーと彼らがやり取りするコア グループが彼らに最も影響を与えることを強調しています。彼らの勤勉さと教える意欲のレベルを考慮すると、個人的な評価と個人とのつながりが会社のブランドよりも重要になります。巨大企業が小さな AI チームに求人を送信するなど、与えられたシナリオの例が評価され、個人とそれが自分の成長にどのように影響するかに焦点が当てられます。企業のブランディングを優先して個人を無視するという失敗モードは、特定の人と仕事をすることに集中するのではなく、有名な企業からJavaベースのバックエンド支払いの仕事のオファーを受け入れた後、キャリアが頭打ちになった学生の個人的な例で強調されています小さなチームで。

  • 00:55:00 このセクションでは、Andrew Ng が、理論的には良さそうに見えるローテーション プログラムを検討する際に注意を促しています。彼は、大きなブランド名を追いかけるのではなく、機械学習で重要な仕事をしている可能性のある小規模であまり知られていないチームと協力する機会を探すことを提案しています。彼は、業界で有名なブランド名だけに焦点を当てるよりも、学習体験を優先し、影響力のある仕事をすることの重要性を強調しています.

  • 01:00:00 ビデオのこのセクションでは、スピーカーがキャリアの初期段階にある人にキャリア アドバイスを提供します。優れたチームメイトと一緒にチームに参加し、他の人を助ける有意義な仕事をすることをお勧めします。ただし、たばこのような有害な製品を製造する会社では働かないようにアドバイスしています。彼は、さまざまな業界でなすべき重要な仕事がたくさんあり、世界はさまざまなことに取り組む人々を必要としていると信じています。彼は、機械学習の次の波はテクノロジー企業だけでなく、テクノロジーが実装されていないすべての従来の業界にも目を向けるべきだと示唆しています。
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 8 - Career Advice / Reading Research Papers
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 8 - Career Advice / Reading Research Papers
  • 2019.04.03
  • www.youtube.com
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford Universityhttp://onlinehub.stanford.edu/Andrew NgAdjunct Professor, Computer ScienceKia...