Машинное обучение и нейронные сети - страница 46

 

CS480/680 Лекция 3: Линейная регрессия



CS480/680 Лекция 3: Линейная регрессия

Лекция по линейной регрессии начинается с введения в проблему поиска наилучшей линии, максимально близкой к заданному набору точек. Лектор объясняет, что линейные функции могут быть представлены комбинацией взвешенных входных данных. Линейную регрессию можно решить с помощью оптимизации с целью минимизации евклидовых потерь за счет изменения вектора весов, что можно эффективно выполнить с помощью задач выпуклой оптимизации. Процесс решения уравнения линейной регрессии включает в себя поиск переменной W или весов, которые дадут глобальный минимум для целевой функции, что можно сделать с использованием таких методов, как обращение матрицы или итерационные методы. Также обсуждается важность регуляризации в предотвращении переобучения с добавлением к целевой функции штрафного члена, чтобы ограничить величину весов и заставить их быть как можно меньше. Лекция заканчивается обсуждением важности решения проблемы переобучения в линейной регрессии.

  • 00:00:00 В этом разделе инструктор представляет линейную регрессию, которая является стандартной техникой машинного обучения для регрессии, и объясняет проблему интуитивно. Задача состоит в том, чтобы найти наилучшую линию, максимально приближенную к заданному набору точек. Данные состоят из входных признаков, X, и целевого вывода, T. Цель состоит в том, чтобы найти гипотезу H, которая отображает X в T, предполагая, что H является линейным. Линейные функции всегда можно представить в виде взвешенной комбинации входных данных, где веса умножаются на входные данные, а затем складываются вместе.

  • 00:05:00 В этом разделе докладчик обсуждает пространство линейных функций и цель поиска наилучших линейных функций для минимизации функции потерь. Используется евклидова функция потерь, где квадрат расстояния берется путем вычитания прогноза из цели. Спикер объясняет, что Y — это выход предиктора, который представляет собой линейную функцию, а T1 — это цена, по которой продается дом, что является основной истиной. При оценке дома учитывается множество характеристик, таких как количество ванных комнат и спален, в результате чего получается вектор размером 25-30. Докладчик также обсуждает обозначения, используемые в слайдах, и упоминает, что деление на два не обязательно требуется в теории.

  • 00:10:00 В этом разделе лекции профессор обсуждает обозначения, которые он будет использовать на протяжении всего курса, говоря о линейной регрессии. Он вводит переменные H для гипотезы, X для точек данных, Y для вектора выходных данных для всех точек данных и W для вектора весов. Он также упоминает использование полосы X для представления точки данных, объединенной со скалярной точкой. Профессор продолжает объяснять, что линейную регрессию можно решить с помощью оптимизации с целью минимизации евклидовых потерь путем изменения W. Он отмечает, что эта задача оптимизации проста, потому что она выпуклая, а это означает, что существует один минимум и можно надежно найти глобальный оптимум.

  • 00:15:00 В этом разделе лекции о линейной регрессии спикер объясняет, как можно эффективно решать задачи выпуклой оптимизации с помощью градиентного спуска, который включает в себя отслеживание кривизны функции до достижения минимума. Однако спикер также отмечает, что невыпуклые цели могут иметь несколько минимумов, что затрудняет надежный поиск глобального оптимума. Цель линейной регрессии является выпуклой, и, таким образом, более эффективное решение состоит в том, чтобы вычислить градиент, установить его равным нулю и найти единственную точку, которая удовлетворяет этому уравнению, что необходимо и достаточно для обеспечения минимума.

  • 00:20:00 В этом разделе лекции профессор объясняет процесс решения уравнения линейной регрессии для нахождения переменной W или весов, которые дадут глобальный минимум для целевой функции. Систему линейных уравнений можно переписать в виде W равно B путем выделения W, а затем матрицу A, представляющую входные данные, можно инвертировать для решения W. Однако существуют и другие методы, такие как исключение Гаусса, сопряженный градиент и итерационные методы, которые могут быть быстрее и эффективнее. Профессор также рисует рисунок, чтобы продемонстрировать концепцию поиска линии, которая минимизирует евклидово расстояние по отношению к выходным данным или оси Y за счет сокращения вертикальных расстояний между точками данных и линией.

  • 00:25:00 В этом разделе лектор объясняет интуицию, лежащую в основе минимизации расстояния по вертикали в линейной регрессии для получения единственного решения. Целевая функция выпуклая, а шарообразная функция имеет единственный минимум. Однако решение, полученное путем минимизации задачи наименьших квадратов, неустойчиво, что может привести к переоснащению. Лектор иллюстрирует это двумя примерами, один из которых искажает ввод эпсилон. В лекции также обсуждается важная проблема невозможности обращения матрицы A из-за сингулярности или близости к сингулярности.

  • 00:30:00 В этом разделе лекции инструктор дает два числовых примера линейной регрессии с одной и той же матрицей A, но с разными целевыми значениями B. В первом примере целевое значение ровно 1 для первой точки данных, в то время как второй пример имеет целевое значение 1 плюс эпсилон для той же точки данных. Разница в целевых значениях приводит к значительному изменению выходных данных, несмотря на то, что эпсилон является очень маленьким значением. Преподаватель иллюстрирует проблему графическим представлением, подчеркивая значимость изменений во входных значениях и почему это создает проблемы в линейной регрессии.

  • 00:35:00 В этом разделе лектор объясняет линейную регрессию с помощью двух точек данных. X имеет две записи, но второе измерение меняется, а первая запись игнорируется. Лектор рисует две точки данных, одну с X как 0 и цель как 1 + эпсилон, а другую с X как эпсилон и цель как 1. Линия, проведенная через эти точки, меняет свой наклон с 0 на -1, когда цель первой точки данных увеличивается с 1 до 1 + эпсилон, что свидетельствует о переоснащении из-за недостатка данных и шума. Решение нестабильно, даже если данных больше или размерностей больше.

  • 00:40:00 В этом разделе вводится понятие регуляризации в линейной регрессии. Регуляризация добавляет штрафной член, который ограничивает величину весов, заставляя их быть как можно меньше. Этот штрафной член добавляется к первоначальной цели минимизации евклидова расстояния между выходом и целью. Использование регуляризации имеет смысл как с числовой, так и со статистической точки зрения, что будет объяснено в следующей лекции. В зависимости от проблемы гиперпараметр лямбда, который определяет важность штрафного члена, необходимо настроить с помощью перекрестной проверки. Регуляризация в линейной регрессии изменяет систему линейных уравнений на лямбда I + A, умноженное на W, равное B. Благодаря регуляризации собственные значения линейной системы должны быть не меньше лямбда, что ограничивает их от 0, предотвращая числовую нестабильность и ошибки.

  • 00:45:00 В этом разделе лектор обсуждает применение регуляризации в линейной регрессии для предотвращения переобучения. Идея регуляризации включает в себя добавление штрафного члена к целевой функции и введение лямбда-параметра для управления весом, присваиваемым штрафному члену. Лектор объясняет, как работает этот метод регуляризации с точки зрения линейной алгебры. Кроме того, приведен пример, иллюстрирующий, как регуляризация может стабилизировать решения, полученные при линейной регрессии, и предотвратить переоснащение. Пример показывает, что путем минимизации весов и добавления штрафного члена можно получить более близкие друг к другу решения.

  • 00:50:00 В этом разделе лектор обсуждает важность регуляризации для смягчения проблемы переобучения в линейной регрессии. Переобучение — это распространенная проблема, когда модель хорошо работает на обучающих данных, но плохо на тестовых данных. Регуляризация — один из способов решения этой проблемы, и в курсе будут рассмотрены и другие подходы. На следующем уроке эта тема будет рассмотрена со статистической точки зрения.
 

CS480/680 Лекция 4: Статистическое обучение



CS480/680 Лекция 4: Статистическое обучение

В этой лекции о статистическом обучении профессор объясняет различные концепции, такие как правило маргинализации, условная вероятность, совместная вероятность, правило Байеса и байесовское обучение. Эти концепции включают использование распределений вероятностей и их обновление для уменьшения неопределенности при обучении. В лекции подчеркивается важность понимания этих концепций для обоснования и объяснения различных алгоритмов. В лекции также подчеркивается ограниченность этих концепций, особенно при работе с большими пространствами гипотез. Несмотря на это ограничение, байесовское обучение считается оптимальным, если априорное значение является правильным и предоставляет пользователям значимую информацию.

В этой лекции инструктор объясняет концепцию приближенного байесовского обучения как решение проблемы управляемости при байесовском обучении. Максимальное правдоподобие и максимальное апостериорное приближение обычно используются в статистическом обучении, но они имеют свой собственный набор недостатков, таких как переобучение и менее точные прогнозы, чем байесовское обучение. Лекция также охватывает проблему оптимизации, возникающую из-за максимизации правдоподобия, объем данных, необходимых для различных задач, и важность следующих нескольких слайдов для задания курса. В заключение инструктор подчеркивает, что алгоритм будет сходиться к наилучшей гипотезе в заданном пространстве, даже если некоторые отношения не реализуемы.

  • 00:00:00 В этом разделе лекции профессор представляет тему статистического обучения, которое включает использование статистики и теории вероятностей для фиксации и уменьшения неопределенности при обучении. Идея состоит в том, чтобы использовать распределения вероятностей для количественной оценки неопределенности и обновлять их по мере обучения. В лекции также представлен обзор распределений вероятностей и концепции совместного распределения вероятностей по множеству случайных величин. В конечном счете, статистическое обучение помогает объяснить и обосновать алгоритмы, включая регуляризацию, со статистической точки зрения.

  • 00:05:00 В этом разделе лектор объясняет, как использовать правило маргинализации для извлечения конкретной раздачи из совместной раздачи. Он приводит пример, в котором дается совместное распределение по трем переменным погодных условий, условий головной боли и вероятности для каждого дня. Он демонстрирует вычисление вероятностей с использованием маргинальных распределений, показывая, как можно найти совместную вероятность или вероятности конкретных сценариев погоды или головной боли. Используя этот метод, он достигает стороны головной боли или солнечного света, которая достигает точки двадцать восемь, таким образом показывая, как извлечь конкретное распределение из совместного распределения.

  • 00:10:00 В этом разделе обсуждается понятие условной вероятности, которая обозначается вероятностью одной переменной при заданной другой переменной. Вертикальная черта представляет собой ссылку на дробь, а числитель представляет миры, в которых обе переменные верны. Для объяснения этой концепции используется графическое представление, в котором учитывается соотношение количества людей, имеющих обе переменные. Эта концепция используется для определения редких случаев событий, таких как вероятность возникновения головной боли при гриппе.

  • 00:15:00 В этом разделе спикер объясняет, как вычислять условные вероятности с помощью методов подсчета и визуализации. Общее уравнение для условной вероятности представляет собой долю двух площадей, представляющую количество миров с конкретными переменными. Вводится понятие совместных вероятностей и предельных вероятностей, а также объясняется уравнение цепи, которое позволяет нам разложить совместное распределение на условную вероятность и предельную вероятность. Докладчик также предостерегает от распространенной ошибки предположения, что вероятность заболеть гриппом при головной боли равна вероятности заболеть головной болью при гриппе, и объясняет, почему это неверно.

  • 00:20:00 В этом разделе спикер исследует условную вероятность в контексте диагностики болезни на основе симптомов. Порядок аргументов в условной вероятности имеет значение, потому что левая часть — это то, что оценивается, а правая — контекст. Докладчик иллюстрирует это на примере вычисления вероятности заболевания гриппом при головной боли. Совместная вероятность заболевания гриппом и головной болью вычисляется с использованием цепного правила, а затем условная вероятность получается путем деления совместной вероятности на предельную вероятность возникновения головной боли. Другой пример приведен с тремя случайными переменными головной боли, солнечного света и холода. Вычисляются условные вероятности головной боли и простуды при солнечном свете, а также обратная условная вероятность солнечного дня при головной боли и простуде.

  • 00:25:00 В этом разделе лекции инструктор объясняет расчет совместных вероятностей для нескольких событий в конкретном контексте и обсуждает, почему вероятности могут не равняться единице в определенных ситуациях. Приведенные примеры включают вероятность возникновения головной боли и простуды независимо от того, солнечный день или нет. Затем инструктор подчеркивает важность рассмотрения всех результатов в левой части вертикальной полосы, чтобы определить, должна ли сумма вероятностей равняться единице, и предостерегает от распространенной ошибки, предполагающей, что изменение контекста событий приведет к с вероятностью, которая в сумме равна единице.

  • 00:30:00 В этом разделе инструктор объясняет правило Байеса, которое используется для машинного обучения и логических выводов. Правило Байеса позволяет вычислить взаимосвязь между двумя условными вероятностями путем замены аргументов. Он используется с априорным распределением, которое фиксирует начальную неопределенность, за которым следуют доказательства или набор данных, которые используются для пересмотра априорного распределения для получения апостериорного распределения. Это правило также может быть использовано для измерения вероятности получения определенных наборов данных и может быть эффективным инструментом обучения путем пересмотра распределений, которые количественно определяют неопределенность. Уравнение для правила Байеса включает в себя умножение априорного значения на вероятность и константу вместо деления его на свидетельство.

  • 00:35:00 В этом разделе лекции спикер объясняет, что свойство очевидности является константой нормализации с точки зрения обучения. Его цель - нормализовать числитель так, чтобы результирующие числа находились в диапазоне от 0 до 1. Процесс байесовского обучения дает апостериорное распределение, но на практике требуется гипотеза, которую можно использовать для прогнозирования. Для этого используется взвешенная комбинация гипотез, чтобы делать прогнозы, взвешивая их в соответствии с их соответствующей апостериорной вероятностью.

  • 00:40:00 В этом разделе обсуждается концепция использования апостериорного распределения для определения весов различных гипотез машинного обучения. Приведен пример использования байесовского обучения для оценки соотношения вкусов в пакете с конфетами, где априорное распределение является догадкой, сделанной в начале, а свидетельство соответствует данным, полученным при поедании конфет. Апостериорное распределение используется для уменьшения неопределенности и изучения соотношения ароматов. Первоначальное убеждение субъективно и может быть основано на обоснованном предположении.

  • 00:45:00 В этом разделе лекции спикер обсуждает байесовское обучение для оценки соотношения вкусов в пакете конфет. Распределение правдоподобия рассчитывается на основе предположения, что конфеты распределяются одинаково и независимо друг от друга. Используя теорему Байеса и умножив априорное значение на вероятность, получается апостериорное распределение, дающее апостериорные вероятности для каждой гипотезы. Докладчик графически показывает апостериорные распределения и объясняет, как преобладает вероятность гипотезы со всем лаймом, когда все съеденные до сих пор конфеты являются лаймом.

  • 00:50:00 В этом разделе видео о статистическом обучении ведущий обсуждает результаты эксперимента с мешком конфет, в котором конфеты случайным образом достаются из мешка и отмечаются их вкусы. Гипотеза о соотношении вкусов в пакете обновляется на основе наблюдения, и вычисляется вероятность. Замечено, что вероятность гипотезы о том, что в пакете только вишни, падает до нуля, когда наблюдается лайм, в то время как вероятность гипотезы о 75% лайма и 25% вишни увеличивается с лаймом, но снова падает после четырех конфет. Ведущий также объясняет, что начальная вероятность, выбранная для каждой гипотезы, представляет собой предшествующее убеждение, а выбор является субъективным в зависимости от убеждения эксперта. Наконец, докладчик подчеркивает важность прогнозирования с использованием апостериорного распределения, чтобы предоставить пользователям значимую информацию.

  • 00:55:00 В этом разделе лекции спикер обсуждает байесовское обучение и его свойства. Байесовское обучение считается оптимальным, если априорное значение является правильным и обеспечивает принципиальный способ делать прогнозы. Кроме того, он, как правило, невосприимчив к переоснащению, что является важной проблемой машинного обучения. Однако главный недостаток байесовского обучения заключается в том, что оно, как правило, трудно поддается обработке, особенно при работе с большими пространствами гипотез. Это делает вычисление апостериорного распределения и предсказания проблематичным.

  • 01:00:00 В этом разделе концепция приблизительного байесовского обучения представлена как решение проблемы управляемости при байесовском обучении. Максимальное апостериорное приближение - это одно из распространенных приближений, которое включает в себя выбор гипотезы с наибольшей вероятностью в апостериорном плане и создание прогнозов на ее основе. Этот подход может контролировать, но не устранять переоснащение, и он менее точен, чем байесовское предсказание, поскольку он опирается на одну гипотезу. Максимальное правдоподобие - это еще одно приближение, которое включает в себя выбор гипотезы, которая лучше всего соответствует данным и не использует априорные вероятности, что делает его более простым, но менее точным, чем байесовское обучение. Оба приближения решают проблему неразрешимости, но заменяют ее проблемами оптимизации.

  • 01:05:00 В этом разделе видео инструктор объясняет концепцию максимального правдоподобия, то есть гипотезу, которая лучше всего соответствует данным. Однако это может включать подгонку всего, включая шум, что может привести к переобучению. Хотя максимизация правдоподобия может упростить вычисления, она приводит к менее точным прогнозам, чем байесовские и MAP-прогнозы. Проблема оптимизации, которая возникает из-за максимизации правдоподобия, все еще может быть неразрешимой, но многие алгоритмы в курсе будут максимизировать правдоподобие со статистической точки зрения. Наконец, преподаватель обсуждает вопрос о том, сколько данных необходимо для различных задач, который относится к области теории обучения и зависит от размера пространства гипотез.

  • 01:10:00 В этом разделе спикер завершает лекцию, но упоминает, что в следующей лекции он раскроет еще несколько слайдов, которые будут важны для выполнения задания. Он также упоминает, что даже если некоторые отношения не реализуемы, алгоритм все равно будет сходиться к гипотезе, которая лучше всего подходит для предсказания в заданном пространстве.
 

CS480/680 Лекция 5: Статистическая линейная регрессия



CS480/680 Лекция 5: Статистическая линейная регрессия

В этой лекции по статистической линейной регрессии профессор охватывает множество тем, начиная с концепции максимального правдоподобия и гауссовского распределения правдоподобия для зашумленных, искаженных данных. Они объясняют использование методов максимального правдоподобия для нахождения весов, дающих максимальную вероятность для всех точек данных в наборе данных. Затем лекция углубляется в идею максимального апостериорного (MAP), сферического гауссиана и ковариационной матрицы. Спикер также обсуждает использование априорной информации и регуляризации. Затем ожидаемая ошибка в линейной регрессии разбивается на два члена: один учитывает шум, а другой зависит от вектора весов W, который далее можно разбить на смещение и дисперсию. Лекция заканчивается обсуждением использования байесовского обучения для вычисления апостериорного распределения. В целом лекция охватывает широкий круг тем, связанных со статистической линейной регрессией, и дает ценную информацию об оптимизации моделей для уменьшения ошибки прогнозирования.

Лекция посвящена байесовской регрессии, которая оценивает апостериорное распределение, которое сходится к истинному набору весов по мере наблюдения большего количества точек данных. Показано, что априорное распределение представляет собой распределение по парам W naught и W1 и является распределением линий. После наблюдения за точкой данных апостериорное распределение рассчитывается с использованием априорного распределения и распределения правдоподобия, что приводит к обновленному мнению о положении линии. Чтобы делать прогнозы, берется взвешенная комбинация прогнозов гипотез на основе апостериорного распределения, что приводит к гауссовскому прогнозу со средним значением и дисперсией, задаваемыми конкретными формулами. Хитрость для получения фактического точечного прогноза состоит в том, чтобы взять среднее значение гауссовского прогноза.

  • 00:00:00 В этом разделе вводится концепция максимального правдоподобия и максимального предполагаемого обучения противника в контексте линейной регрессии. Предполагается, что данные поступают из зашумленных и искаженных измерений. Наблюдаемый результат представляет собой искаженную версию вывода базовой функции с добавлением некоторого шума. Предполагается, что гауссова функция обозначает шум. Распределение правдоподобия выражается для определения вероятности измерения определенного результата для каждого входа в наборе данных. Это понимание помогает сделать лучший выбор для регуляризации.

  • 00:05:00 В этом разделе лекции профессор обсуждает распределение Гаусса в контексте линейной регрессии. Они объясняют, что, если предположить, что основная функция является линейной и детерминированной, результирующее распределение является гауссовым со средним значением, равным W, транспонированному X, и дисперсией, эквивалентной сигма-квадрату. Затем они рисуют график распределения Гаусса, чтобы проиллюстрировать, что вероятность измерения значений вокруг среднего выше, а ширина кривой определяется квадратом сигма. Профессор отмечает, что это функция правдоподобия, и мы можем использовать методы максимального правдоподобия, чтобы найти W, который дает максимальную вероятность для всех точек данных в нашем наборе данных.

  • 00:10:00 В этом разделе лектор объясняет, как выбрать наилучшую модель для статистической линейной регрессии, начиная с оптимизации вероятности наблюдаемого Y при заданных входных X и уровне шума с дисперсией Sigma. Затем лектор показывает вывод того, как упростить и масштабировать это выражение до выпуклой цели, взяв натуральный логарифм и удалив нерелевантные факторы. Результатом является исходная задача наименьших квадратов, демонстрирующая интуитивный подход к минимизации расстояния между точками и линией в линейной регрессии.

  • 00:15:00 В этом разделе спикер обсуждает статистическую перспективу и то, как найти W, который дал бы наибольшую вероятность наблюдения за измерениями, предполагая модель с гауссовским шумом. Задача оптимизации математически эквивалентна, что дает большую уверенность в этом подходе. Удаление сигмы из каждого члена суммирования математически эквивалентно исключению его из суммирования и позволяет предположить, что один и тот же шум присутствует для каждого отдельного измерения при выборе W. Докладчик также упоминает, что важно иметь модель шума, чтобы найти наилучшее решение и оценить Sigma на основе повторных экспериментов, чтобы сохранить его фиксированным. Апостериорное распределение вычисляется путем нахождения W с наибольшей вероятностью в апостериорном распределении путем вычисления апостериорного распределения как произведения априорного на вероятность и константу нормализации.

  • 00:20:00 В этом разделе лекции инструктор обсуждает концепцию максимальной апостериорной вероятности (MAP) и чем она отличается от максимальной вероятности. MAP включает в себя включение априорного распределения в расчет для уточнения распределения гипотезы, что снижает неопределенность. Преподаватель объясняет, как определить гауссово априорное распределение для вектора весов (W) и как рассчитать PDF многомерного гауссова распределения. Преподаватель также приводит пример рисования горизонталей, чтобы проиллюстрировать форму распределения Гаусса.

  • 00:25:00 В этом разделе лекции инструктор объясняет понятие сферического гауссиана и его связь с ковариационной матрицей. Диагональные элементы ковариационной матрицы представляют собой дисперсию каждого веса, а недиагональные элементы представляют собой ковариацию между весами. Затем инструктор показывает, как найти максимум апостериорной вероятности, используя производную, предполагая, что обратная ковариационная матрица равна лямбда, умноженному на единичную матрицу. Таким образом, выражение эквивалентно регуляризованной задаче наименьших квадратов со штрафным членом, равным лямбда, умноженному на квадрат нормы W. Теперь член регуляризации можно интерпретировать по-новому, проясняя, что он исходит из предыдущего распределения и что минимизация нормы W эквивалентна приближению весов к среднему значению распределения.

  • 00:30:00 В этом разделе спикер обсуждает использование априорной информации для выбора ковариационной матрицы в статистической линейной регрессии. Если есть информация о том, что решения должны быть близки к нулю, то используется априор нулевого среднего с ковариационной матрицей, определяемой колоколообразным распределением с определенным разбросом. Максимизация вероятности эквивалентна минимизации регуляризованной цели со штрафным сроком при использовании этого априора. В ситуациях, когда гауссиана имеет не сферическую форму, а более общую форму, радиус для каждого измерения разный, а это означает, что в диагональных элементах есть разные значения. Разумно предположить, что ковариационная матрица имеет диагональную форму с одинаковой шириной во всех направлениях, что хорошо работает на практике.

  • 00:35:00 В этом разделе спикер обсуждает, как подходы к минимизации квадрата потерь с организационным термином и максимизации апостериорной гипотезы могут привести к потенциально различным результатам потерь. В этом разделе анализируется функция убытков и разбивается ожидаемый убыток на два разных термина. Выбор лямбда влияет на решение и, следовательно, на ожидаемые потери. Затем спикер показывает математический вывод того, как данный W может привести к ожидаемому убытку, и как этот убыток можно разложить на два разных условия. Анализ основан на выборочном наборе данных и базовом распределении, и результаты можно использовать для понимания ожидаемых потерь данного W и влияния изменения лямбда.

  • 00:40:00 В этом разделе лекции спикер объясняет вывод ожидаемой ошибки в модели линейной регрессии. Ожидаемая ошибка разбивается на два члена: один учитывает шум, а другой зависит от вектора весов W. Этот второй член можно расширить, чтобы показать, что его можно разложить на квадрат смещения и дисперсию . Смещение измеряет среднюю разницу между выходными данными модели и аппроксимируемой истинной базовой функцией, а дисперсия измеряет изменчивость выходных данных модели относительно их среднего значения. Понимая вклад систематической ошибки и дисперсии в ожидаемую ошибку, специалисты по данным могут лучше оптимизировать свои модели, чтобы уменьшить ошибку прогноза.

  • 00:45:00 В этом разделе лекции профессор объясняет разложение ожидаемых потерь на три условия: шум, дисперсия и квадрат смещения. Это приводит к графику, на котором по оси X отложена лямбда, вес члена регуляризации в задании. При увеличении лямбда ошибка сначала уменьшается, а затем снова увеличивается. Ожидаемые потери складываются из шума, дисперсии и квадрата смещения. График показывает, что кривая для квадрата дисперсии и смещения представляет собой сумму отдельных кривых для квадрата дисперсии и смещения. Перекрестная проверка используется для нахождения наилучшего значения лямбда, которое может контролировать достигнутую ошибку, в то время как разница между ожидаемыми потерями и фактическими потерями представляет собой шум, присутствующий во всех случаях.

  • 00:50:00 В этом разделе лектор приводит пример нелинейной регрессии, чтобы проиллюстрировать, как разные кривые, полученные в результате применения максимального апостериорного обучения с разными наборами данных, связаны со смещением и дисперсией. Лектор объясняет, что по мере уменьшения лямбда смещение уменьшается, а дисперсия увеличивается. Цель состоит в том, чтобы найти лямбду, которая дает наилучший компромисс между смещением и дисперсией, как показано на кривой. Лектор также упоминает, что ошибка измеряется в квадрате расстояния и что лямбда является параметром, используемым при регуляризации.

  • 00:55:00 В этом разделе лектор обсуждает идею минимизации квадратов расстояний и добавления штрафного члена, где лямбда — это вес штрафного члена. Изменение лямбда влияет на смещение и дисперсию, что приводит к различным оптимальным значениям W, и ожидаемые потери можно рассматривать как функцию лямбда. Байесовское обучение влечет за собой вычисление апостериорного распределения, начиная с априорного и уменьшая неопределенность с помощью машинного обучения. Апостериорное распределение вычисляется путем умножения гауссовского априорного и гауссовского правдоподобия, в результате чего получается гауссовский апостериор.

  • 01:00:00 В этом разделе концепция байесовской регрессии объясняется с помощью гауссовского априорного распределения в пространстве w, которое может представлять линию. Показано, что априорное распределение является распределением по парам w ноль и w1 и является распределением линий. Затем, после наблюдения одной точки данных, вычисляется апостериорное распределение путем умножения априорного распределения и распределения правдоподобия. Результирующее апостериорное распределение вытянуто вдоль гребня и несколько округло, и, таким образом, становится обновленным представлением о положении линии.

  • 01:05:00 в этом разделе лектор объясняет, как байесовское обучение оценивает апостериорное распределение, которое сходится к истинному набору весов по мере наблюдения большего количества точек данных. Красные линии представляют выборки из соответствующего апостериорного распределения, которое является распределением относительно весов, определяющих соответствующую линию в пространстве данных. Однако остается вопрос, как делать прогнозы на основе окончательного апостериорного распределения.

  • 01:10:00 В этом разделе спикер объясняет, как делать прогнозы с помощью байесовского обучения, которое включает взвешенную комбинацию прогнозов, сделанных каждой гипотезой. Прогноз делается для нового входа, а веса определяются апостериорным распределением. Спикер использует гауссовский апостериор и вероятность, чтобы получить гауссовский прогноз со средним значением и дисперсией, заданными конкретными формулами. Наконец, общий прием для получения фактического точечного прогноза состоит в том, чтобы взять среднее значение гауссовского прогноза.
 

CS480/680 Лекция 6: Инструменты для опросов (Пауло Пачеко)



CS480/680 Лекция 6: Инструменты для опросов (Пауло Пачеко)

В этом видео Пауло Пачеко представляет два академических инструмента для проведения опросов: Google Scholar и RefWorks. Он объясняет, как искать научные статьи и сортировать их по цитированию с помощью Google Scholar, а также предлагает отфильтровывать старые статьи в пользу более свежих. Пачеко подчеркивает важность экспорта и управления цитатами и представляет RefWorks как инструмент для решения этой задачи. Он также дает советы по доступу к академическим публикациям, включая творческий поиск по ключевым словам и потенциально требующий доступа к университетской сети или VPN.

  • 00:00:00 В этом разделе Пауло Пачеко представляет два инструмента для проведения опросов: Google Scholar и библиотеку RefWorks. Он объясняет, как можно использовать Google Scholar для поиска научных работ и их приблизительного упорядочения по цитированию. Он также предлагает, как отфильтровать старые документы и сосредоточиться на более новых. Пачеко подчеркивает важность экспорта и управления цитатами для академической работы и упоминает RefWorks как инструмент, который может помочь в этом процессе.

  • 00:05:00 В этом разделе спикер обсуждает различные инструменты и советы по доступу к академическим публикациям, в частности, через Google Scholar и библиотеку Университета Ватерлоо. Он объясняет, как можно использовать Google Scholar для поиска соответствующих статей и сортировки их по годам или количеству цитирований, а также отмечает, что для доступа к полным текстам может потребоваться доступ к университетской сети или использование VPN. Кроме того, он предлагает использовать творческий поиск по ключевым словам, таким как «отличные наборы данных для НЛП» или «отличные ссылки для компьютерного зрения», чтобы найти вдохновение и высококачественные ресурсы.
 

CS480/680 Лекция 6: Неконтролируемый перевод слов (Кира Селби)



CS480/680 Лекция 6: Неконтролируемый перевод слов (Кира Селби)

В видео обсуждается неконтролируемый перевод слов, который включает в себя обучение модели машинного обучения переводу на язык и с языка без какой-либо межъязыковой информации или сопоставления словаря. Модель Muse представлена как подход, который позволяет достичь высочайшей точности на сотнях языков без какой-либо межъязыковой информации и приближается по производительности к контролируемым моделям. В процессе неконтролируемого перевода слов используется матрица, которая переводит пространства встраивания слов разных языков с использованием GAN или генеративно-состязательных сетей. Путем обучения этих двух моделей друг другу создается способ сопоставления двух дистрибутивов с одним пространством, обеспечивающий лучшие результаты преобразования. Модели могут достигать точности 82,3% в пословном переводе.

  • 00:00:00 В этом разделе лектор обсуждает тему неконтролируемого перевода слов, который включает в себя обучение модели машинного обучения переводу на язык и с языка без какой-либо межъязыковой информации или сопоставления словаря. Лектор объясняет концепцию встраивания слов, когда слова превращаются в векторы, которые могут стать частью модели. Лектор знакомит с моделью Muse, в которой используется простая гипотеза о том, что линейное преобразование может соединять векторные пространства разных языков. Muse может достичь высочайшей точности на сотнях языков без какой-либо межъязыковой информации и приближается по производительности к контролируемым моделям.

  • 00:05:00 В этом разделе Кира Селби объясняет процесс неконтролируемого перевода слов с использованием матрицы, которая переводит пробелы встраивания слов разных языков. Матрица может сравнивать целую кучу векторов из одного языкового пространства, преобразованного в другое языковое пространство. Цель состоит в том, чтобы достичь совпадающих языковых пространств для достижения переводов. В этом процессе используется GAN или генеративные состязательные сети, в которых генератором является матрица u, которая принимает вектор исходного пространства и обеспечивает вектор целевого пространства. Тем временем дискриминатор учится определять, является ли набор векторов реальными французскими данными или аппроксимированными французскими данными, сгенерированными моделью. Путем обучения этих двух моделей друг другу создается способ сопоставления двух дистрибутивов с одним пространством, обеспечивающий лучшие результаты преобразования. Модели могут достигать точности 82,3% в пословном переводе, хотя они еще не сходятся на нескольких языках, таких как английский на фарси, хинди, японский и вьетнамский.
 

CS480/680 Лекция 6: Наборы данных Kaggle и соревнования



CS480/680 Лекция 6: Наборы данных Kaggle и соревнования

В лекции рассказывается о Kaggle, сообществе специалистов по обработке и анализу данных, которые участвуют в спонсируемых соревнованиях, используя предоставленные наборы данных за денежный приз, предлагая ядра для обучения моделей машинного обучения и извлечения признаков данных, а также широкий выбор из почти 17 000 наборов данных для использования при разработке алгоритмов. Лектор также отмечает, что репозитории GitHub компании могут предоставить ценные наборы данных, коды и опубликованные статьи для конкурсов.

  • 00:00:00 В этом разделе лектор рассказывает о Kaggle, сообществе по науке о данных, где специалисты по науке о данных могут участвовать в соревнованиях, спонсируемых частными компаниями, где они предоставляют набор данных и денежный приз. Участники могут загружать данные, обучать алгоритмы машинного обучения и отправлять прогнозы на конкурс, чтобы выиграть, если их прогнозы будут лучшими для набора данных. Kaggle также предоставляет ядра, фрагменты кода, отправленные разными пользователями, которые полезны для извлечения функций или обучения определенного типа модели на некоторых данных. В дополнение к соревнованиям и ядрам Kaggle предоставляет почти 17 000 наборов данных, которые охватывают любую дисциплину, о которой вы только можете подумать. Пользователи могут немного поискать набор данных, который может соответствовать предположениям, необходимым им для разработки алгоритма.

  • 00:05:00 В этом разделе спикер обсуждает некоторые источники, из которых можно найти наборы данных для различных соревнований. Он упоминает Kaggle как отличный источник наборов данных. Он также предлагает заглянуть в репозитории GitHub компании, где доступны платные коды и опубликованные статьи, а также данные, которые можно использовать для запуска кода. Это может быть ценным ресурсом для получения высококачественных наборов данных.
 

CS480/680 Лекция 6: Нормализация потоков (Приянк Джайни)



CS480/680 Лекция 6: Нормализация потоков (Приянк Джайни)

Видео представляет собой введение в нормализацию потоков в глубоких генеративных моделях, метод, который изучает функцию для преобразования одного распределения в другое с целью преобразования известного распределения в неизвестное интересующее распределение. В видео также обсуждаются возможные исследовательские проекты, связанные с нормализацией потоков, в том числе проведение обзора различных статей и достижений, связанных с нормализацией потоков и анализом преобразования одного гауссиана в смесь гауссианов. Лектор поощряет изучение многих различных приложений нормализующих потоков.

  • 00:00:00 В этом разделе спикер представляет введение в нормализацию потоков в глубоких генеративных моделях. Изучение распределения — ключевой аспект машинного обучения, и спикер объясняет, что нормализация потоков — это метод, который изучает функцию для преобразования одного распределения в другое. Цель состоит в том, чтобы преобразовать известное распределение, такое как распределение Гаусса, в неизвестное представляющее интерес распределение. На практике для этого преобразования используется нейронная сеть, и основное внимание в исследованиях уделяется разработке нейронных сетей для получения желаемого распределения.

  • 00:05:00 В этом разделе лектор обсуждает возможные исследовательские проекты, связанные с нормализацией потоков, что является горячей темой в машинном обучении, которой в последние годы уделяется большое внимание. Одна из идей проекта состоит в том, чтобы провести обзор различных документов и достижений, связанных с нормализацией потоков, которые потенциально могут быть опубликованы. Другая идея состоит в том, чтобы проанализировать преобразование одного гауссиана в смесь гауссианов с использованием определенных функций и то, как это можно распространить на другие распределения, такие как экспоненциальное и Т-распределение Стьюдента. Лектор также освещает теоретически открытые вопросы, связанные с определением поведения с тяжелыми хвостами на рынках финансового капитала. В целом, лектор поощряет изучение множества различных приложений нормализации потоков и приглашает заинтересованных студентов связываться с ними для получения дополнительных знаний о t.
 

CS480/680 Лекция 6: Проверка фактов и обучение с подкреплением (Вик Гоэл)



CS480/680 Лекция 6: Проверка фактов и обучение с подкреплением (Вик Гоэл)

Ученый-компьютерщик Вик Гоэл обсуждает применение обучения с подкреплением при проверке онлайн-новостей и предлагает использовать систему рекомендаций для вставки подтверждающих доказательств в режиме реального времени. Он предлагает использовать большой корпус академических статей в качестве источника данных, чтобы научить классификатор предсказывать, где требуется цитирование. Кроме того, Гоэл объясняет, как исследователи начали кодировать человеческие априорные данные в модели обучения с подкреплением, чтобы ускорить процесс и распознавать различные объекты в видеоиграх. Это представляет собой многообещающую область исследований, в которой дополнительные априорные данные могут улучшить процесс обучения.

  • 00:00:00 В этом разделе лекции Вик Гоэл обсуждает идею использования обучения с подкреплением для проверки фактов в онлайн-новостях. Он объясняет, что Google собрал набор данных веб-сайтов для проверки фактов, которые можно использовать для обучения моделей классификации для определения достоверности новостных статей. Однако, поскольку в большинстве новостных статей отсутствуют ссылки в тексте, Гоэл предлагает разработать систему рекомендаций для добавления подтверждающих доказательств в режиме реального времени. Он предлагает использовать большой корпус академических статей в качестве источника данных и обучить классификатор предсказывать, где в каждой статье необходима ссылка. Затем применение системы рекомендаций может подсказать, какие источники следует цитировать, помогая предотвратить распространение дезинформации в Интернете.

  • 00:05:00 В этом разделе ученый-компьютерщик Вик Гоэл объясняет концепцию обучения с подкреплением, когда агент пытается достичь цели, максимизируя вознаграждение в окружающей среде. Текущие модели предполагают миллионы взаимодействий с окружающей средой, что затрудняет обучение видеоиграм. Чтобы ускорить процесс, исследователи начали кодировать человеческие априорные модели в модели, позволяющие агентам понимать и распознавать различные объекты в игре. Этот подход представляет собой широко открытую область исследований, в которой ученые могут добавлять больше априорных значений, чтобы значительно улучшить процесс обучения.
 

CS480/680 Лекция 6: Сети сумм-произведений (Пранав Субрамани)



CS480/680 Лекция 6: Сети сумм-произведений (Пранав Субрамани)

В лекции обсуждаются концепции сетей суммы-произведения (SPN), которые представляют собой сети, состоящие из сумм и произведений, используемые для удобного вероятностного моделирования, которое дает неэкспоненциальное время выполнения и имеет множество приложений, таких как интерпретируемость и простое вычисление предельной плотности. В видео также упоминается превосходная производительность SPN со сверточными нейронными сетями, его потенциал в создании более качественных генеративных моделей в сочетании с такими моделями, как GAN и вариационные кодировщики воды, а также неиспользованные потенциальные области исследований для SPN, включая устойчивость к состязаниям, сценарии обучения с подкреплением и моделирование ожидаемых полезностей. в играх. Также были подчеркнуты теоретическая гарантия интерпретации модели и возможность ученых внести значительный вклад в области машинного обучения.

  • 00:00:00 В этом разделе спикер обсуждает податливое вероятностное моделирование с использованием некоторых сетей продуктов, которые представляют собой сети, состоящие из сумм и продуктов — следовательно, «сумма-произведение» — и представляют собой удобный способ моделирования функции вероятности таким образом, чтобы получить неэкспоненциальное время выполнения. Несмотря на свой размер, сетевые модели суммы произведений очень полезны с точки зрения выразительности, интерпретируемости, простоты вычисления предельной плотности, вычисления запросов MAP и вычисления правдоподобия, а также демонстрируют отличную производительность в сочетании со свёрточными нейронными сетями. Было показано, что эти модели могут превосходить современные модели примерно на 10% и могут быть объединены с другими моделями, такими как Ганс и вариационные кодировщики воды, для создания более совершенных генеративных моделей.

  • 00:05:00 В этом разделе спикер обсуждает потенциальные области исследований для некоторых продуктовых сетей (SPN). Докладчик сначала представляет некоторые этические свойства, которые позволяют интерпретировать модели и наборы данных, такие как «набор данных Amnesty». В отличие от нейронных сетей, эта модель дает теоретическую гарантию, которая позволяет в некоторой степени интерпретировать то, что делает модель. Некоторые потенциальные области исследований для SPN включают создание функций поверх основной библиотеки для SPN, устойчивость к состязаниям, сценарии обучения с подкреплением с некоторыми сетями максимального продукта и моделирование ожидаемых полезностей в играх. Эти области исследований в основном не используются, что дает ученым возможность внести значительный вклад в области машинного обучения.
 

CS480/680 Лекция 6: ЭМ и смешанные модели (Гоцзюнь Чжан)



CS480/680 Лекция 6: ЭМ и смешанные модели (Гоцзюнь Чжан)

В лекции 6 CS480/680 профессор Гоцзюнь Чжан обсуждает основы неконтролируемого обучения и кластеризации, уделяя особое внимание смешанным моделям и их использованию для кластеризации данных. Лекция посвящена алгоритму максимизации ожидания и его процессам Estep и Mstep, а также градиентному спуску как методу оптимизации. Предлагаемый потенциальный проект включает в себя изучение того, как EM и градиентный спуск ведут себя в моделях обучающей смеси, с конечной целью — предложить лучший алгоритм, позволяющий избежать плохих локальных минимумов. Математическая подготовка отмечается как необходимая для проекта.

  • 00:00:00 В этом разделе Коди знакомит с основами обучения без учителя и кластеризации, а также о том, как это связано со смешанными моделями. Смешанная модель — это способ описать распределение вероятностей как выпуклую комбинацию условных распределений. Например, для кластеризации данных можно использовать смесь гауссианов и смесь распределений Бернулли. Чтобы найти решение смешанных моделей, нам нужно сформулировать целевую функцию для минимизации. Классический алгоритм для этого — алгоритм максимизации ожидания.

  • 00:05:00 В этом разделе лектор рассказывает о процессах Estep и Mstep, которые используются при оценке апостериорного распределения и максимизации функции q при оптимизации смешанных моделей. Градиентный спуск — это еще один обсуждаемый алгоритм оптимизации, и отмечается, что есть некоторые кластеры, которые не могут быть извлечены в процессе оптимизации. Предлагаемый потенциальный проект состоит в том, чтобы изучить, как EM и градиентный спуск ведут себя в моделях обучающей смеси, и есть ли способ избежать плохих локальных минимумов, с конечной целью — предложить лучший алгоритм. Лектор отмечает, что для этого проекта необходима математическая подготовка.