Машинное обучение и нейронные сети - страница 41

 

Курс Numerics of Machine Learning в Тюбингенском университете в зимний семестр 2022/23. Лекция 1 - Введение -- Филипп Хенниг



Numerics of ML 1 -- Введение -- Филипп Хенниг

В этом видео Филипп Хенниг обсуждает важность понимания численных алгоритмов в машинном обучении и представляет содержание курса для этого термина. Первым рассмотренным числовым алгоритмом является линейная алгебра с приложением в регрессии гауссовых процессов. Хенниг также обсуждает роль моделирования, дифференциальных уравнений, интеграции и оптимизации в машинном обучении. Он представляет новые разработки в численных алгоритмах, такие как алгоритмические шипы, наблюдаемые и вероятностные численные алгоритмы. На протяжении всего видео Хенниг подчеркивает важность обновления классических алгоритмов, используемых в машинном обучении, для решения сложных задач, а также подчеркивает роль написания кода на этом уроке информатики.

Филипп Хенниг представляет свой курс «Численные основы машинного обучения», целью которого является изучение того, как алгоритмы машинного обучения функционируют внутри коробки и как их можно адаптировать или изменить для улучшения обучающихся машин. Высокотехнические знания в области численных алгоритмов и алгоритмов машинного обучения пользуются большим спросом у исследователей и профессионалов отрасли. Курс будет состоять из теории и работы по кодированию, а задания оцениваются по двоичной системе. Хенниг подчеркивает важность численных алгоритмов в машинном обучении и предлагает студентам присоединиться к этому уникальному учебному эксперименту с девятью разными инструкторами.

  • 00:00:00 В этом разделе Филипп Хенниг рассказывает о важности понимания численных алгоритмов в машинном обучении. В то время как алгоритмы машинного обучения принимают данные в качестве входных данных и создают модели, которые предсказывают или действуют в мире, фактический процесс обучения включает численные вычисления. В отличие от классических алгоритмов ИИ, современные алгоритмы машинного обучения используют численные алгоритмы, такие как линейная алгебра, методы моделирования, интеграции и оптимизации, в качестве примитивов для этих вычислений. Филипп определяет численные алгоритмы как методы, которые оценивают математическую величину, которая не имеет решения в закрытой форме и может пойти не так, как надо, в отличие от атомарных операций, которые всегда работают. Поскольку численные алгоритмы занимают центральное место в машинном обучении, важно понимать их, чтобы убедиться, что они работают правильно.

  • 00:05:00 В этом разделе спикер обсуждает разницу между обычными функциями и численными алгоритмами, отмечая, что последние, как правило, имеют свои собственные библиотеки и несколько подпрограмм на выбор. Затем он приводит пример прототипа числового алгоритма, написанного в 1993 году на языке Forth и реализующего алгоритм, изобретенный двумя математиками в 1975 году. Это подчеркивает тот факт, что числовые алгоритмы устарели и имеют точные интерфейсы, что затрудняет их модификацию. Инженеры по машинному обучению часто сталкиваются с числовыми задачами и могут использовать эти старые алгоритмы, разработанные в других областях, но это может быть проблематично, если решаемая задача не совсем соответствует возможностям метода. Спикер предполагает, что это может стать проблемой в машинном обучении при попытке решить задачи, для которых существующих численных методов недостаточно.

  • 00:10:00 В этом разделе Филипп Хенниг представляет тему численных алгоритмов и содержание курса для этого термина. Линейная алгебра, базовый уровень машинного обучения, является первым числовым алгоритмом, который они охватывают. Примером его применения является регрессия гауссовского процесса, где для вывода используются две функции: апостериорное среднее и апостериорная ковариационная функция. Эти функции определяются с использованием методов ядра, и их реализация включает метод разложения Холецкого, а не вычисление обратной матрицы. Хенниг также представляет фрагмент кода Python и объясняет, почему следует использовать разложение Холецкого вместо вычисления обратной матрицы.

  • 00:15:00 В этом разделе видео спикер Филипп Хенниг обсуждает проблему с машинами ядра, особенно в отношении их неспособности хорошо масштабироваться для больших объемов данных. Он объясняет, что дорогостоящие вычисления, необходимые для ядерных машин, затрудняют их использование в современном машинном обучении. Однако Хенниг также предполагает, что существуют другие алгоритмы линейной алгебры, которые можно использовать для ускорения вычислений за счет использования структуры набора данных и приближений, что в конечном итоге приводит к решениям с регрессией гауссовского процесса, которые масштабируются для больших наборов данных.

  • 00:20:00 В этом разделе Филипп Хенниг представляет алгоритмы моделирования и их роль в машинном обучении. Методы моделирования моделируют траекторию динамической системы во времени и могут оценивать X. Они проявляются в машинном обучении при создании таких агентов, как беспилотный автомобиль, или при создании алгоритма машинного обучения, использующего физические данные, такие как научные исследования. машинное обучение. Дифференциальные уравнения, такие как уравнение Шредингера, обычно используются для кодирования знаний о природе. Кроме того, Хенниг приводит пример простой задачи прогнозирования случаев заболевания COVID-19 в Германии за полтора года, чтобы объяснить, почему глубокие нейронные сети и гауссовы процессы не работают при решении этой задачи.

  • 00:25:00 В этом разделе Филипп Хенниг обсуждает использование дифференциальных уравнений в системах моделирования, в частности моделей SIR, которые обычно используются в симуляциях, а также проблему включения в эти модели реальной динамики, такой как блокировки. Он предлагает использовать нейронную сеть, чтобы коэффициент бета зависел от времени, но отмечает сложность этого из-за отсутствия производных в коде. Однако он подчеркивает недавнюю разработку алгоритма в Jax, который решает эту проблему.

  • 00:30:00 В этом разделе Филипп Хенниг обсуждает алгоритм, называемый выводом на основе моделирования, который является современным способом решения сложных задач. Этот алгоритм включает вложенный цикл for, который многократно оценивает функцию f, возвращает градиент и выполняет шаг градиентного спуска. Хенниг объясняет, что для создания более гибкого и быстрого алгоритма, чем этот примитивный код, мы можем создать собственный метод, который создает список чисел внутри фотонного кода процедурным образом и адаптирует их. Этот метод включает в себя позвоночник цепи Маркова, на который можно навешивать операторы, такие как операторы распределения вероятностей и информационные операторы, чтобы информировать алгоритм о неизвестных факторах. Делая это, мы можем решить эти проблемы, не вызывая цикл for снова и снова во внешнем цикле, что отнимает много времени.

  • 00:35:00 В этом разделе Филипп Хенниг обсуждает важность обновления классических алгоритмов, используемых в машинном обучении, которым более 100 лет. Он вводит идею алгоритмических шипов, которые могут работать с различными информационными операторами и могут создавать новые функциональные возможности. Затем Хенниг продолжает обсуждение роли интеграции в машинном обучении, которое является элементарной операцией терпеливого вывода. Элементарной операцией вероятностного машинного обучения является вычисление апостериорного распределения путем взятия совместного распределения и деления его на маргинальное, что включает в себя интегрирование. Наконец, Хенниг обсуждает важность оптимизации, которая является фундаментальной операцией в машинном обучении, включая вычисление значений, которые минимизируют функции потерь. Эти алгоритмы составляют основу дифференцируемых программ, для которых градиент функции может вычисляться автоматически.

  • 00:40:00 В этом разделе Филипп Хенниг обсуждает алгоритмы оптимизации и их важность в машинном обучении. В то время как классические методы, такие как BFGS и минимизация, хранятся в scipy.optimize, новые методы, такие как SGD и Adam, теперь являются нормой в машинном обучении. Однако эти методы часто требуют скорости обучения и большого контроля, в отличие от старых методов, которые могут сходиться к минимуму и работать над любой дифференцируемой проблемой. Чтобы справиться с ограничениями этих новых методов на больших наборах данных с миллионами точек данных, используется пакетный градиентный спуск для вычисления гораздо меньшей суммы, которая является объективной оценкой того, что нас интересует. Хотя эти новые методы более эффективные и действенные, они по-прежнему основаны на тех же принципах, что и старые алгоритмы, что может вызвать проблемы для определенных приложений.

  • 00:45:00 В этом разделе видео спикер обсуждает возможность вычисления дисперсии в дополнение к градиенту в алгоритмах глубокого обучения. Он утверждает, что исключение вычисления дисперсии из процесса оптимизации связано с тем, что оптимизация по-прежнему рассматривается как проблема вычисления градиента, а не как проблема использования случайных величин для поиска точек, которые хорошо обобщаются. Тем не менее, он подчеркивает важность учета неопределенности, возникающей из-за случайности, в вычислениях, отмечая, что это важно для создания лучших обучающих установок для глубоких нейронных сетей. В заключение он упомянул о предстоящих лекциях, которые позволят глубже изучить эту тему.

  • 00:50:00 В этом разделе Филипп Хенниг обсуждает использование наблюдаемых для добавления новых функций в глубокие нейронные сети, таких как неопределенность или преобразование их в байесовскую глубокую нейронную сеть без использования дорогостоящих алгоритмов Монте-Карло с цепями Маркова. Он также объясняет, как численные алгоритмы, используемые для обучения алгоритмов машинного обучения, на самом деле сами являются алгоритмами машинного обучения, поскольку они оценивают неизвестную величину или скрытую переменную, наблюдая поддающиеся обработке и наблюдаемые данные. Это похоже на процесс логического вывода, когда скрытая величина оценивается на основе наблюдаемых результатов вычислений.

  • 00:55:00 В этом разделе Филипп Хенниг представляет концепцию численных алгоритмов как обучающихся машин и обсуждает идею создания численных алгоритмов с нуля как вероятностных численных алгоритмов. Это алгоритмы, которые берут распределение вероятностей, описывающее их задачу, и используют ЦП или ГП в качестве источника данных для уточнения своей оценки решения числовой задачи. Хенниг подчеркивает, что этот класс не является типичным классом численного анализа, поскольку основное внимание уделяется пониманию машин внутри как обучающихся машин и построению новых алгоритмов на языке машинного обучения. На этом уроке информатики учащиеся могут написать много кода.

  • 01:00:00 В этом разделе Филипп Хенниг представляет свой курс по цифрам машинного обучения, который, по его словам, является первым специализированным курсом такого рода в мире. Курс направлен на то, чтобы углубиться в работу алгоритмов машинного обучения, в частности, как они функционируют внутри коробки и как их можно изменить или адаптировать для улучшения обучающихся машин. Высокая техническая природа численных алгоритмов и алгоритмов машинного обучения означает, что знания в этой области пользуются большим спросом как у исследователей, так и у профессионалов отрасли. Лекции будет читать его команда высококвалифицированных аспирантов, которые потратили годы на исследования и размышления о внутренней работе этих алгоритмов и, таким образом, лучше подготовлены для обсуждения более тонких технических деталей, чем профессор.

  • 01:05:00 В этом разделе Филипп Хенниг обсуждает структуру курса и требования к курсу. Курс будет включать в себя как теоретическую работу, так и работу по кодированию, поскольку ожидается, что студенты будут решать числовые задачи, используя код Python или Julia. Упражнения будут представлены в формате PDF, а решения будут оцениваться по бинарной основе: за хорошее решение будет ставиться отметка, а за неудовлетворительное — крестик. Студенты получат бонусный балл за каждую отметку, которая будет учитываться при подсчете итогового результата экзамена. Экзамен состоится 13 февраля или 31 марта следующего года, и сдача первого экзамена приветствуется, поскольку сброс может быть недоступен. Наконец, студентам, заинтересованным в получении более высокой степени в области числовых алгоритмов машинного обучения или вычислений, ориентированных на данные, рекомендуется пройти этот курс, поскольку он предлагает широкие возможности для прикладных исследований в различных областях.

  • 01:10:00 В этом разделе Филипп Хенниг подчеркивает важность численных алгоритмов в машинном обучении, заявляя, что они являются двигателями, которые управляют обучающейся машиной. Он описывает, как понимание этих алгоритмов и их байесовского языка вывода может привести к более быстрым, надежным и простым в использовании решениям для машинного обучения. Хенниг подчеркивает, что, хотя классические численные алгоритмы важны, их следует рассматривать через призму машинного обучения, принимая точку зрения обучающихся машин как средство более целостной интеграции моделирования и глубокого обучения. Он приглашает студентов присоединиться к этому захватывающему эксперименту по обучению машинному обучению с помощью уникальной системы из девяти разных инструкторов.
Numerics of ML 1 -- Introduction -- Philipp Hennig
Numerics of ML 1 -- Introduction -- Philipp Hennig
  • 2023.01.16
  • www.youtube.com
The first lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 2 -- Численные методы линейной алгебры -- Марвин Пфертнер



Numerics of ML 2 -- Численные методы линейной алгебры -- Марвин Пфертнер

Численные методы линейной алгебры лежат в основе машинного обучения, гауссовских процессов и других методов непараметрической регрессии. Лекция охватывает различные аспекты числовой линейной алгебры, в том числе важность понимания структуры матрицы для более эффективного умножения, оптимизацию алгоритмов машинного обучения путем решения задач выбора гиперпараметров и вычисления ядерных матриц, а также решение линейной системы с использованием Разложение LU, среди прочего. В лекции также подчеркивается важность правильной реализации алгоритмов, поскольку алгоритм, используемый для математических операций, оказывает значительное влияние на производительность, стабильность и потребление памяти.

Во второй части видео Марвин Пфертнер обсуждает важность численной линейной алгебры в алгоритмах машинного обучения. Он охватывает различные темы, включая разложение LU, разложение Холецкого, лемму об обращении матриц и регрессию гауссовского процесса. Пфертнер подчеркивает важность использования структуры для повышения эффективности алгоритмов и подчеркивает важность численной стабильности при решении больших систем уравнений в регрессии гауссовского процесса. Он также обсуждает такие методы, как активное обучение и аппроксимации низкого ранга для обработки больших наборов данных и потенциальные ограничения памяти матриц ядра. В целом видео демонстрирует решающую роль, которую числовая линейная алгебра играет во многих аспектах машинного обучения.

  • 00:00:00 В этом разделе аспирант обсуждает важность численной линейной алгебры в машинном обучении и гауссовских процессах. Численная линейная алгебра лежит в основе машинного обучения и представляет собой набор инструментов, необходимых для реализации алгоритмов. Лекция охватывает фундаментальные задачи численной линейной алгебры, важные для машинного обучения, изучение структуры, позволяющей сделать алгоритмы численной линейной алгебры быстрыми и надежными, а также правильную реализацию регрессии гауссовского процесса. В лекции также приводятся примеры приложений численной линейной алгебры, такие как базовая теория вероятностей, общие линейные модели, анализ главных компонентов и матрично-векторные произведения, которые уменьшают размерность.

  • 00:05:00 В этом разделе спикер обсуждает числовую линейную алгебру в контексте машинного обучения. Он объясняет, как гауссовские процессы, метод непараметрической регрессии в машинном обучении, полагаются на априорную вероятностную меру, которая представляет собой гауссов процесс, который генерирует симметричную и положительно определенную матрицу Грама ядра. Генерирующая информация в этой матрице позволяет создавать эффективные и надежные алгоритмы. Докладчик также упоминает, как подобные уравнения применимы к более широкому классу моделей, включая ядерные методы и регрессию Риджа. Он также кратко обсуждает, как числовая линейная алгебра используется для решения линейных дифференциальных уравнений в частных производных и в методах оптимизации для локальной оптимизации функций потерь.

  • 00:10:00 В этом разделе спикер обсуждает важность линейной алгебры в машинном обучении и приводит примеры, иллюстрирующие эту важность. Операции линейной алгебры, такие как умножение матриц на вектор, решения линейных систем и разложение матриц, являются фундаментальными для многих моделей машинного обучения. Кроме того, он отмечает, что многие модели машинного обучения на самом деле зашумлены, поскольку они используют зашумленную оценку матрицы, с помощью которой они стремятся решать линейные системы. Наконец, он подчеркивает, что логарифмические детерминанты необходимы в случае гауссовой плотности и регрессии GP для получения максимальных апостериорных оценок.

  • 00:15:00 В этом разделе спикер подчеркивает важность эффективного умножения матрицы на вектор в численной линейной алгебре и машинном обучении. Они дают пример того, как даже простые задачи могут стать невыполнимыми с точки зрения вычислений, если математическое выражение не будет должным образом преобразовано в алгоритм. Спикер также подчеркивает важность определения структуры в Матрице для более эффективного умножения. В заключение они заявляют, что алгоритм, реализующий математическую операцию, оказывает значительное влияние на производительность, стабильность и потребление памяти.

  • 00:20:00 В этом разделе спикер подчеркивает важность понимания структуры матрицы для оптимизации алгоритмов машинного обучения. Он объясняет, что если вы знаете, что в матрице есть структура более низкого ранга, то вам следует использовать методы, специализированные для более низких матриц, чтобы разложить ее на множители, а не перемножать всю матрицу. Он объясняет, что понижение — это всего лишь один тип структуры, и существуют различные матричные структуры, такие как разреженные матрицы и матрицы ядра, которые также зависят от ненулевых элементов и входных измерений регрессора. Спикер также коснется того, как хранить матрицы ядра, чтобы получить экономию памяти.

  • 00:25:00 В этом разделе докладчик обсуждает, как эффективно хранить и оценивать матрицы ядра для гауссовских процессов. Если точки данных превышают определенный предел, наивный подход к их хранению больше невозможен из-за проблем с памятью. Существуют доступные библиотеки, которые пишут очень эффективные ядра CUDA и используют графические процессоры для вычисления гауссовых процессов на ноутбуке с использованием сотен тысяч точек данных. Спикер также говорит о матрицах с общей функциональной формой, таких как графы авторазницы, которые требуют одинаковых требований к времени и пространству. Наконец, спикер углубляется в конкретный алгоритм применения байесовской регрессии к гауссовским процессам, где ядром гауссовой меры является ковариация неизвестной функции. Докладчик представляет график апостериорной меры по функции в сочетании с наблюдаемыми данными и показывает, как хорошо работает количественная оценка неопределенности. Однако проблема возникает при вычислении обратного, которое масштабируется весьма непозволительно, что делает наивный подход вычисления матрицы грамм ядра из n точек данных невозможным для больших n.

  • 00:30:00 В этом разделе спикер обсуждает числовую сложность вычисления матриц ядра в гауссовских процессах, которые могут стать чрезмерно дорогими. Кроме того, существуют гиперпараметры, которые необходимо настроить для ядра, такие как масштаб вывода и масштаб длины, чтобы оптимизировать априорное объяснение наблюдаемого набора данных. Докладчик описывает байесовский подход к решению этой проблемы выбора модели путем вычисления логарифмической предельной вероятности и минимизации функции потерь, состоящей из компромисса между соответствием модели и сложностью, представленной коэффициентом нормализации распределения Гаусса. Докладчик показывает примеры сильного недообучения и переобучения и объясняет, как можно найти компромисс между этими двумя терминами для достижения наилучшей производительности модели.

  • 00:35:00 В этом разделе Марвин Пфертнер обсуждает решение линейной системы. Для решения требуется M плюс одно решение, где M — количество точек данных, в которых мы хотим оценить наш регрессор. Система симметрична и положительно определена в самом общем случае, но могут быть дополнительные структуры, которые можно использовать, поскольку система обычно огромна, и мы обычно не можем решить это для очень больших наборов данных. Одним из очень важных матричных разложений является разложение Лу. Алгоритм, используемый для решения нижней треугольной системы, представляет собой прямую замену, которая разбивает матрицу на четыре части: скаляр в правом нижнем углу, столбец над ним равен нулю, вектор-строка слева и еще одна треугольная часть, называемая L минус li минус один над ним, который также является нижним треугольным.

  • 00:40:00 В этом разделе Марвин Пфертнер обсуждает, как решать системы, в которых системная матрица имеет нижний треугольник размерности n минус один. Выделив последнюю строку, систему можно решить с помощью простого алгоритма. Затем рекурсивные методы используются для решения системы для любого заданного измерения. Пфертнер также объясняет, как разделить матрицу на нижние и верхние треугольные части, используя то, что он называет разложением Лу, которое представляет собой рекурсивное определение с использованием методов «разделяй и властвуй». Этот метод полезен для инвертирования матриц и удешевления решения линейных систем, при этом процесс занимает O (N ^ 2) вместо O (N ^ 3).

  • 00:45:00 В этом разделе объясняется метод разложения Лу для решения линейных систем уравнений. Этот метод разлагает матрицу на нижнюю треугольную матрицу и верхнюю треугольную матрицу, что позволяет быстрее вычислять решения линейных систем. Процесс включает установку диагональных элементов левой части нижней треугольной матрицы на единицу и использование частичного поворота для обеспечения стабильности и надежности. Несмотря на эффективность метода, необходимо учитывать стоимость вычислений, которая составляет O(n^3).

  • 00:50:00 В этом разделе Марвин Пфертнер обсуждает время вычисления UD-разложения и демонстрирует, как его реализовать на месте. Он объясняет, что самая большая часть каждого шага рекурсии — это вычисление внешнего произведения и вычитание, что приводит к суммированию в два раза (n-1) в квадрате. Используя стратегию, известную как исключение Гаусса, алгоритм эффективно вычисляет верхнюю треугольную матрицу. Пфертнер показывает, как выполнить пример вычисления с небольшой матрицей, демонстрируя, что нетривиальная часть L содержится в трех элементах ниже диагонали, а верхняя треугольная часть будет содержать ненулевые части U. Сохраняя все в памяти, Пфертнер представляет реализацию, которая разумно хранит L и U в одной и той же матрице.

  • 00:55:00 В этом разделе спикер объясняет процесс декомпозиции LU в численной линейной алгебре. Он показывает, как шаг за шагом вычислять алгоритм и как использовать его для решения линейных систем. Получив LU-разложение матрицы, мы можем применить его для эффективного решения нескольких линейных систем с несколькими правыми частями, затратив всего 2N в квадрате на однократное прямое и обратное замещение. Инверсия матрицы перестановок — это просто ее транспонирование, которое дешево вычислить, что позволяет выполнять K решений с той же системной матрицей в регрессии гауссовского процесса.

  • 01:00:00 В этом разделе докладчик обсуждает, как эффективно решать несколько линейных систем с одной и той же матрицей, используя LU-разложение, которое эффективно с точки зрения вычислений. Кроме того, представлен метод вычисления логарифмического определителя с LU-разложением, который позволяет эффективно представлять линейную систему и выполнять с ней различные задачи линейной алгебры. Докладчик подчеркивает важность использования структуры для повышения эффективности алгоритмов и отмечает, что разложение Холецкого является специализированной версией разложения LU, в которой используются преимущества симметричного и положительно определенного характера матрицы грамм ядра.

  • 01:05:00 В этом разделе докладчик обсуждает вычисление апостериорного среднего и ковариации в гауссовских процессах. Чтобы получить апостериорное среднее, нужно решить одну систему с помощью прямой замены, а другую - с обратной заменой. Докладчик отмечает, что при структуре факторов Холецкого ковариационной матрицы можно получить хорошее понижающее приближение к матрице. Кроме того, он говорит о проблеме потенциальной невозможности разместить большую матрицу ядра в памяти и представляет два подхода к решению этой проблемы; используя структуру в используемых ядрах или используя разреженные приближения.

  • 01:10:00 В этом разделе спикер обсуждает, как эффективно инвертировать матрицы в алгоритмах машинного обучения. В качестве примера он использует набор данных, сгенерированный из синусоидальной функции, и показывает, что, зная порождающую структуру набора данных, можно выбрать ядра, которые отражают это знание и являются эффективными в вычислительном отношении. Лемма об обращении матриц — это инструмент, который можно использовать для эффективного обращения матриц путем их возмущения небольшим количеством подпространств. Используя эту лемму, можно очень эффективно вычислять выражения и даже не нужно формировать всю матрицу в памяти. Спикер подчеркивает, что существует множество различных подходов к использованию структуры в алгоритмах машинного обучения.

  • 01:15:00 В этом разделе лектор обсуждает методы численной линейной алгебры, используемые в гауссовских выводах и оптимизации гиперпараметров в машинном обучении. Одним из методов масштабирования регрессии GP (гауссовский процесс) для больших наборов данных является приближенная инверсия, которая включает итеративное построение приближений низкого ранга к системной матрице, представленной в матрице ядра. Лектор демонстрирует этот метод на примере алгоритма Холецкого и показывает, как можно на лету получить аппроксиматор низкого ранга к матрице без вычисления всей факторизации Холецкого. Качество аппроксимации зависит от матрицы ядра и порядка обработки точек данных. В целом в этом разделе подчеркивается важность числовой линейной алгебры в различных аспектах машинного обучения.

  • 01:20:00 В этом разделе Марвин Пфертнер обсуждает, как выбрать порядок точек данных, в котором Холецкий работает с ними, чтобы аппроксимировать Матрицу ядра. Он объясняет, что предварительное умножение матрицы граммов на матрицу перестановок, также известное как полная поворотная или поворотная декомпозиция Холецкого, может привести к более низкому приближению с меньшим количеством итераций. Идея состоит в том, чтобы наблюдать предиктор для точек данных после одной итерации Todeschini, а затем использовать собранную информацию для выбора точки данных для наблюдения в следующей итерации. Этот метод считается проблемой активного обучения и может дать умный способ одновременной обработки строк и столбцов и, таким образом, исследовать порождающую структуру Матрицы в режиме онлайн.

  • 01:25:00 В этом разделе докладчик обсуждает разложение по сингулярным числам (SVD) и то, как оно решает задачу оптимизации, чтобы получить наилучшие коэффициенты для матричной аппроксимации. Однако усечение SVD может быть сколь угодно плохим, поэтому для аппроксимации SVD и вычисления собственного разложения используется эвристический подход. Также необходим матричный квадратный корень, который можно получить с помощью разложения Холецкого. Важно учитывать структуру при практической реализации алгоритмов численной линейной алгебры, так как это может значительно ускорить процесс.

  • 01:30:00 В этом разделе Марвин Пфертнер обсуждает, как структура численной линейной алгебры влияет на регрессию гауссовского процесса. Регрессия гауссовского процесса требует больших вычислительных ресурсов и требует решения больших систем уравнений, что может быть выполнено с использованием методов численной линейной алгебры. Докладчик подчеркивает важность численной устойчивости при решении этих систем уравнений, чтобы избежать потери точности в окончательных результатах.
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
  • 2023.01.16
  • www.youtube.com
The second lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

Лекция 3 -- Масштабирование гауссовских процессов -- Джонатан Венгер



Numerics of ML 3 -- Масштабирование гауссовских процессов -- Джонатан Венгер

Джонатан Венгер обсуждает методы масштабирования гауссовских процессов для больших наборов данных в видео «Числовые данные ML 3». Он исследует итерационные методы для решения линейных систем и изучения обратной матрицы с основной целью достижения обобщения, простоты/интерпретируемости, оценки неопределенности и скорости. Венгер вводит приближения низкого ранга к матрице ядра, такие как итеративное разложение Холецкого, метод частичного Холецкого и методы сопряженных градиентов. Он также обсуждает предварительную подготовку для ускорения сходимости и повышения стабильности при работе с большими наборами данных. Наконец, он предлагает использовать ортогональную матрицу Z для перезаписи следа матрицы, что потенциально может привести к квадратичному времени для масштабирования гауссовских процессов.

Во второй части лекции Джонатан Венгер обсуждает масштабирование гауссовских процессов (GP) для больших наборов данных в этом видео. Он представляет различные стратегии для улучшения скорости сходимости оценок Монте-Карло для регрессии GP, включая использование существующих предварительных условий для решения линейной системы для оценки матрицы ядра и ее обратной. Он также вводит идею линейного времени GP посредством вариационной аппроксимации и обращается к количественной оценке неопределенности с использованием метода индуцирующих точек. Используя эти стратегии, с помощью графического процессора возможно масштабирование до наборов данных, содержащих до миллиона точек данных, что упрощает быструю оптимизацию гиперпараметров.

  • 00:00:00 В этом разделе видео Джонатан Венгер обсуждает, как масштабировать гауссовские процессы для больших наборов данных, используя итерационные методы для решения линейных систем. Он объясняет, что эти методы можно рассматривать как алгоритмы обучения для обратной матрицы, которая является основным объектом, необходимым для вычисления апостериорной GP. Венгер также описывает основные цели регрессии, включая обобщение, простоту/интерпретируемость, оценки неопределенности и скорость. Он отмечает, что GP являются яркими примерами моделей, которые могут достичь всех этих целей, но их обучение и выводы требуют больших затрат. Однако, разрабатывая современные методы решения линейных систем с матрицами ядра, квадратичный вывод времени для GPS может выполняться быстрее, чем кубическое время. Венгер также намекает, что есть способ сделать это еще быстрее за линейное время, но признает, что могут быть некоторые недостатки, о которых он подробнее расскажет в следующей лекции.

  • 00:05:00 В этом разделе спикер обсуждает ограничения разложения Шолески для гауссовских процессов при работе с большими наборами данных, поскольку оно становится недопустимым с точки зрения временной и пространственной сложности. Он предлагает итерационные методы для уменьшения сложности до возведения в квадрат количества точек данных, показывая, как итеративный метод Холецкого используется для низкоранговой аппроксимации матрицы ядра. Однако проблема заключается не в аппроксимации самой матрицы ядра, поскольку регрессия GP требует аппроксимации обратной матрицы ядра или матрицы точности, поэтому вопрос заключается в том, можно ли интерпретировать итеративную формулировку Холецкого как приближение к матрице точности. Матрица для линейных решений.

  • 00:10:00 В этом разделе спикер исследует итеративную форму разложения Холецкого, которую можно использовать для низкоранговых аппроксимаций ядерных матриц. Отслеживая дополнительные величины, можно получить обратную аппроксимацию матрицы, тоже низкоранговую, аналогичную матрице Холецкого. Докладчик демонстрирует, как рекурсивно вычислить эту обратную аппроксимацию с точки зрения факторов Холецкого и остатка. Этот итерационный метод можно использовать в качестве приближенного алгоритма обращения матриц для положительно определенных матриц, таких как матрицы ядра, и он является полезным инструментом для масштабирования гауссовских процессов.

  • 00:15:00 В этом разделе спикер обсуждает использование частичного метода Холецкого для масштабирования гауссовских процессов. Метод включает изменение разложения Холецкого с коэффициентом и его умножение на вектор. Это приводит к итеративному процессу, который производит обратное приближение путем добавления внешних произведений векторов. Анализ сложности показывает, что это не менее затратно, чем аппроксимация самой матрицы. Докладчик также сравнивает частичный метод Холецкого с регрессией GP и подчеркивает важность выбора правильных точек данных или единичных векторов для улучшения процесса обучения.

  • 00:20:00 В этом разделе Джонатан Венгер обсуждает важность выбора правильных точек данных при аппроксимации матрицы ядра для гауссовских процессов (ГП). Он иллюстрирует, как случайный выбор точек данных для обработки может привести к замедлению процесса обучения. Он вводит «метод сопряженных градиентов», первоначально разработанный для решения линейных систем в регрессии общей теории. Этот метод перефразирует проблему ax=B, где a — матрица ядра, а B — вектор размера n, как задачу квадратичной оптимизации, которая эквивалентна решению линейной системы ax=B. Взяв градиент квадратичной функции и установив его равным нулю, столбец по оси равен B, а остаток можно определить как B минус ось, что можно использовать для поиска лучшего и более эффективного способа выбора точек данных для ускорения. до процесса обучения.

  • 00:25:00 В этом разделе Джонатан Венгер обсуждает использование сопряженных направлений для оптимизации в гауссовских процессах. Он объясняет, что, изменяя направление, в котором мы идем, мы можем сойтись не более чем за n шагов при использовании сопряженных направлений. Для начала он использует отрицательный градиент в качестве первого шага в направлении наискорейшего спуска и модифицирует шаги, чтобы удовлетворить условию сопряженности. Он представляет алгоритм и объясняет его части высокого уровня, включая критерий остановки, основанный на норме градиента.

  • 00:30:00 В этом разделе Джонатан Венгер обсуждает метод сопряженных градиентов, который представляет собой метод аппроксимации обратного при решении множественных линейных систем для апостериорной ковариации. Метод сопряженных градиентов строит аппроксимацию для обратного, которая имеет низкий ранг так же, как частичный Swarovski. Обновление оценки решения включает сопряженное направление di, а матрица CI аппроксимирует обратное с помощью формы всех предыдущих направлений поиска, сложенных в столбцы. Этот метод позволяет быстро решить систему сценариев, а его низкоранговая структура делает его эффективным методом масштабирования гауссовских процессов.

  • 00:35:00 В этом разделе спикер сравнивает частичный схоластический метод с методом сопряженных градиентов для логического вывода процесса. Метод сопряженных градиентов сходится намного быстрее, и докладчик объясняет, что «действия», используемые в методе сопряженных градиентов, исследуют матрицу по-другому, что обеспечивает лучшую сходимость. Однако спикер отмечает, что важно проанализировать, насколько быстро метод сходится, что требует понимания числовых показателей, в частности машинной точности и числа обусловленности. Число обусловленности представляет собой максимальное собственное значение, деленное на минимальное собственное значение в абсолютном выражении, и измеряет неизбежное усиление ошибки при реализации алгоритмов инверсии.

  • 00:40:00 В этом разделе Джонатан Венгер обсуждает устойчивость и сходимость методов решения линейных систем с ядерными матрицами, таких как метод сопряженных градиентов или разложение Холецкого. Устойчивость определяется числом обусловленности матрицы, которое зависит от ее собственных значений, и чем больше число обусловленности, тем более неустойчивым является метод. Поведение сходимости определяется числом обусловленности матрицы и наибольшим делением на наименьшее собственное значение. Чем ближе число обусловленности к единице, тем медленнее сходимость. Несмотря на умеренно большое число обусловленности матрицы ядра с тысячей точек данных, Венгер показывает, что метод сопряженных градиентов по-прежнему быстро сходится за несколько сотен итераций относительно размера задачи.

  • 00:45:00 В этом разделе Джонатан Венгер обсуждает масштабирование гауссовских процессов и влияние шума наблюдения на сходимость. По мере уменьшения шума наблюдения сходимость CG замедляется из-за увеличения числа обусловленности матрицы ядра. Число обусловленности — это наибольшее собственное значение, деленное на наименьшее собственное значение, и по мере того, как точки данных становятся ближе друг к другу, число обусловленности увеличивается. Чтобы решить эту проблему, можно использовать предварительную обработку для аппроксимации матрицы ядра, предполагая, что хранение матрицы обходится довольно дешево по сравнению с хранением фактической матрицы. Эффективно оценивая обратную аппроксимацию, преобуславливатель может заменить исходную задачу более простой для решения, что приведет к более быстрой сходимости CG.

  • 00:50:00 В этом разделе Джонатан Венгер обсуждает концепцию предварительной обработки при масштабировании гауссовских процессов для более эффективного решения линейных систем. Он использует пример вероятностных методов обучения, чтобы объяснить, как предварительное знание проблемы может облегчить ее решение, и аналогичным образом предварительная обработка преобразует проблему, чтобы она была ближе к единичной матрице и, следовательно, ее легче решать. При использовании предобуславливателя число обусловленности системы снижается, что ускоряет CG и делает его более стабильным. Венгер демонстрирует эффективность предобусловливания, используя низкоранговый плюс диагональный предобуславливатель и частичное SVD для решения крупномасштабной линейной системы со 100 000 точек данных за семь минут.

  • 00:55:00 В этом разделе спикер обсуждает использование предварительно обусловленного сопряженного градиента (CG) для решения линейных систем при оптимизации гиперпараметров для Холецкого. Чтобы оценить потери и вычислить их градиент, нам нужно решить линейные системы и вычислить трассировки. Однако вычисление трассы требует n умножений матрицы на вектор, что слишком дорого для больших наборов данных. Чтобы решить эту проблему, спикер предлагает использовать ортогональную матрицу Z такую, что cx Z(транспонирование) = единичная матрица, что позволяет нам переписать след a как след Z(транспонирование) xax Z. Этот метод аппроксимации потенциально может привести к квадратичному время для масштабирования гауссовских процессов.

  • 01:00:00 В этом разделе ведущий обсуждает проблему увеличения масштаба вычисления трассировки матрицы ядра, которая включает в себя выполнение нескольких умножений матрицы на вектор. Одним из возможных решений является рандомизация вычислений путем рисования случайных векторов, масштабированных с квадратным корнем измерения, а затем вычисления ковариации тождества. При аппроксимации ковариации случайного вектора можно вычислить след, что аналогично решению исходной задачи без случайных векторов. Однако использование оценок Монте-Карло в этом методе недостаточно для больших наборов данных, поскольку для этого требуются десятки тысяч случайных векторов, что замедляет оптимизацию гиперпараметров.

  • 01:05:00 В этом разделе Джонатан Венгер обсуждает масштабирование гауссовских процессов (GP) для больших наборов данных. Он объясняет, что существующие предварительные условия для решения линейной системы могут использоваться для оценки матрицы ядра и ее обратной для решения проблемы масштабирования данных. Использование предобуславливателя с частичной оценкой Холецкого или стохастической трассировки помогает оценить обратную трассировку. Используя ту же информацию, можно также оценить градиент логарифмического определителя. Используя эти стратегии, с помощью графического процессора возможно масштабирование до наборов данных, содержащих до миллиона точек данных. Венгер отмечает, что предварительное обучение предполагает использование небольшого набора данных в качестве трамплина для оптимизации гибридных параметров.

  • 01:10:00 В этом разделе спикер обсуждает различные стратегии улучшения скорости сходимости оценок Монте-Карло для регрессии гауссовского процесса. Наследуя скорость сходимости предобусловливания, можно быстрее сходиться к истинному значению экспоненциально или полиномиально. Выбор действий для наблюдения за матрицей ядра посредством умножения вектора матрицы также может повлиять на то, насколько быстро может быть достигнута сходимость. Следовательно, для разработки быстрых численных алгоритмов для гауссовского процесса необходима экспертиза предметной области, которую можно обеспечить с помощью предварительных условий или выбора действий для быстрой сходимости. Кроме того, вводится идея GP с линейным временем посредством вариационной аппроксимации, которая включает сжатие многомерных данных в меньший набор обучающих данных для более эффективного их обобщения.

  • 01:15:00 В этом разделе Венгер обсуждает использование гауссовских процессов и способы их эффективного масштабирования. Идея состоит в том, чтобы обобщить обучающие данные, чтобы обеспечить прямое приближение к апостериорному, которое берет только I в квадрате n, где I — количество индуцирующих входных данных, а n — размер обучающих данных. Однако итерационные методы требуют оптимизации гиперпараметров, что также необходимо учитывать. В этом случае можно использовать стохастические методы, такие как пакетная оптимизация или sdd, которые можно быстро оптимизировать с помощью предпочтительного оптимизатора. Все основные операции представляют собой I в кубе или I в квадрате, умноженное на n, за исключением вычисления матрицы ядра, которая является наиболее дорогостоящей операцией.

  • 01:20:00 В этом разделе спикер обсуждает вопрос количественного определения неопределенности с масштабированием гауссовских процессов с помощью метода индуцирующих точек, который требует априорного задания количества индуцирующих точек для набора данных. По мере того, как оптимизатор ищет лучшие точки сводных данных, результирующая количественная оценка неопределенности становится значительно отличной от истинного гауссовского процесса. В то время как итерационные методы могут контролировать точность аппроксимации до тех пор, пока не истечет время, метод индуцирующих точек требует контроля точности аппроксимации перед оптимизацией. Докладчик задает вопрос о том, можно ли разработать метод, в котором количественному определению неопределенности можно доверять в любой точке аппроксимации, независимо от времени вычислений.
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The third lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 4 -- Гауссовские процессы с поддержкой вычислений -- Джонатан Венгер



Numerics of ML 4 -- Гауссовские процессы с поддержкой вычислений -- Джонатан Венгер

В этом видеоролике, посвященном числовым характеристикам машинного обучения, Джонатан Венгер обсуждает гауссовские процессы с учетом вычислений и их способность количественно определять ошибку аппроксимации и неопределенность в прогнозах. Он исследует важность выбора правильных действий и то, как сопряженные градиенты могут значительно уменьшить неопределенность и ускорить обучение. Венгер также говорит об использовании аппроксимаций ГП линейного времени, основанных на индуцированных точках, но выделяет проблемы, возникающие в результате таких аппроксимаций. Наконец, он обсуждает обновление представлений о репрезентативных весах и использование алгоритмов вероятностного обучения для устранения ошибки репрезентативных весов. В целом видео демонстрирует эффективность гауссовских процессов с учетом вычислений в повышении точности прогнозов за счет учета вычислительных неопределенностей.

Джонатан Венгер также обсуждает в этом видео гауссовский процесс с учетом вычислений и его сложность. Он объясняет, что необходимо вычислить и сохранить только верхний квадрант матрицы ядра, а вычислительная стоимость алгоритма пропорциональна размеру этого квадранта. Процесс Гаусса можно использовать для наборов данных произвольного размера, если вычисления нацелены только на определенные точки данных, стирая грань между данными и вычислениями. Венгер утверждает, что GP можно смоделировать для учета этой ситуации, обусловив прогнозируемые данные. Он вводит новую теорему, которая позволяет точно определить количественную оценку неопределенности с помощью приближенной модели. Наконец, он анонсирует лекцию на следующей неделе о расширении модели GP на случаи, когда физический закон частично управляет изучаемой функцией.

  • 00:00:00 В этом разделе Джонатан Венгер рассказывает о заключительной кульминации своих лекций о гауссовских процессах, где он демонстрирует, как проводить точную количественную оценку неопределенности в произвольное время. Он объясняет, что этот подход позволяет пользователям всегда количественно определять, насколько они далеки от функции, которую они пытаются изучить, независимо от того, сколько вычислений они вложили или каков их бюджет. Переосмысливая алгоритмы из предыдущих лекций в качестве агентов обучения, они могут количественно оценить ошибку аппроксимации, которая вводится в апостериорный прогноз. Кроме того, они обсуждают, что значит наблюдать за данными с помощью компьютера, и философские дебаты, связанные с этим.

  • 00:05:00 В этом разделе Джонатан Венгер обсуждает важность выбора правильных действий при работе с гауссовскими процессами с поддержкой вычислений. Он показывает, что выбор действий может значительно снизить неопределенность и ускорить процесс познания прогнозируемых явлений. Кроме того, он исследует метод сопряженных градиентов как способ поиска лучших действий при решении линейных систем или минимизации квадратичных функций. Принимая во внимание геометрию задачи, сопряженные градиенты могут сходиться к решению за небольшое количество шагов.

  • 00:10:00 В этом разделе видео Джонатан Венгер обсуждает гауссовские процессы с учетом вычислений и то, чем они отличаются от других методов аппроксимации. Он говорит о том, что самой дорогой операцией как в методах частично сопряженного градиента, так и в методах частичной обратной аппроксимации является умножение матрицы на вектор. Затем он дразнит идею аппроксимаций ГП линейного времени, основанных на индуцированных точках в качестве точек сводных данных, и обсуждает проблемы, возникающие в связи с аппроксимацией линейного времени. Затем Венгер представляет вывод GP с учетом вычислений, который решает вопросы точной количественной оценки неопределенности, и говорит, что это передовое исследование, которое будет представлено на NURBS в конце этого года.

  • 00:15:00 В этом разделе Джонатан Венгер обсуждает гауссовский процесс с учетом вычислений и способы количественной оценки ошибки аппроксимации, возникающей при использовании итерационных методов для решения линейной системы репрезентативных весов. Он объясняет, что функции ядра в модели GP кодируют предположения о том, как выглядит истинная функция, а итерационные решатели аппроксимируют эти веса для построения прогноза апостериорного среднего. Путем вероятностной количественной оценки этой ошибки аппроксимации можно добавить к прогнозу дополнительную неопределенность, что может повысить точность модели. Венгер также дает краткий обзор линейной алгебры гауссовских распределений и того, как они упрощают расчеты в теории вероятностей, особенно когда речь идет об обусловленности и наблюдениях.

  • 00:20:00 В этом разделе Джонатан Венгер обсуждает свойства распределений Гаусса и то, как их можно использовать для определения апостериорного распределения по переменной X с учетом наблюдений Y. Комбинируя свойства масштабирования и маргинализации, можно использовать процессы Гаусса. для количественной оценки ошибки аппроксимации в оценках репрезентативных весов. Венгер объясняет, как априорное распределение Гаусса можно обновить и использовать для определения истинных репрезентативных весов, которые нельзя наблюдать напрямую. Разброс и ориентация кривой Гаусса могут использоваться для определения направления, в котором следует искать истинные репрезентативные веса.

  • 00:25:00 В этом разделе Джонатан Венгер объясняет, как косвенно наблюдать черную точку в гауссовском процессе с поддержкой вычислений, используя невязку и векторное преобразование. Он показывает, как применить аффинную теорему вывода Гаусса для вычисления расстояния между представлениями и оценочными весами. Процесс включает в себя свертывание убеждения в ортогональную линию и разработку одномерного вероятностного убеждения, которое используется для нахождения представленных весов. Венгер также обсуждает, как выбрать более информативную красную линию, которая соответствует предшествующему убеждению, чтобы получить более точное решение.

  • 00:30:00 В этом разделе Джонатан Венгер обсуждает алгоритм обновления представления о репрезентативных весах в гауссовских процессах с поддержкой вычислений посредством наблюдения, сделанного действием, умноженным на невязку. Он объясняет, что обновление включает в себя аффинный вывод Гаусса, и указывает ключевые элементы в процессе обновления. Хотя алгоритм похож на CG и частичный Холецкий, он отмечает, что выбор априорного значения по-прежнему является проблемой, которую необходимо решить, поскольку он должен быть связан с тем, где лежат истинные репрезентативные веса для получения хорошей оценки ошибки. Венгер предполагает, что априорная GP и сделанные предположения связаны с репрезентативными весами, поскольку они участвуют в обратной матрице ядра, что делает их значимыми в априорной GP.

  • 00:35:00 В этом разделе Джонатан Венгер обсуждает, как понять, какие данные распределения были сгенерированы, прежде чем делать какие-либо наблюдения с помощью гауссовского процесса (GP). Предполагая распределение по f , Венгер объясняет, что метки распределяются в соответствии с нулевым средним значением при использовании гауссовского априора с нулевым средним значением и изменяются в соответствии с матрицей ядра плюс независимый шум, который является частью модели наблюдения. Затем Венгер обсуждает поиск представителей с помощью алгоритма вероятностного обучения, который обновляет априорное, проецируя действия. Наконец, Венгер объясняет, как решить проблему необходимости откалиброванного априорного обратного значения K, вычислив распределение мю-звезд, оцененное в точке данных, которое является линейной функцией V-звезды.

  • 00:40:00 В этом разделе Джонатан Венгер объясняет гауссовские процессы с учетом вычислений и то, как учитывать вычислительные неопределенности. Он обсуждает идею маргинализации, когда рассматриваются несколько вариантов случайной величины и вычисляется апостериорное среднее предсказание, которое учитывает все возможные оценки репрезентативных весов. Он объясняет, как работает линейная маргинализация и как она добавляет дополнительную неопределенность ковариации. Затем Венгер продолжает обсуждение интерпретации неопределенности GP как оценки средней ошибки и того, как вычислительная неопределенность также может рассматриваться как оценка ошибки. В целом, в этом разделе объясняется вычисление комбинированной неопределенности, которая включает ошибку истинной функции и ошибку репрезентативных весов в одну единую оценку.

  • 00:45:00 В этом разделе докладчик обсуждает гауссовские процессы с учетом вычислений, которые объединяют ошибку, возникающую из-за отсутствия достаточного количества наблюдаемых данных, с ошибкой из-за того, что не было выполнено достаточно вычислений для изучения прогноза. Спикер демонстрирует два примера этого процесса в действии с действиями Эда Холески и компьютерной графики. Предлагаемый метод, называемый GP, вычисляет апостериорную вероятность и объединяет репрезентативное доверие с инициализацией для получения более точных прогнозов за счет отслеживания неопределенности. Метод прост и эффективен, о чем свидетельствует снижение вычислительной неопределенности и более близкое приближение к истинному апостериорному среднему на построенных графиках.

  • 00:50:00 В этом разделе спикер обсуждает гауссовские процессы с поддержкой вычислений и использование убеждений без необходимости инвертировать матрицу ядра. Они выбирают действие в определенном направлении и наблюдают, насколько они близки к двум представленным весам в выбранном подпространстве, что влияет на то, как быстро они сходятся к представленным весам. Чтобы обновить оценку репрезентативных весов, они наблюдают прогнозируемый остаток и вычисляют направление движения. Они также вычисляют аппроксимацию низкого ранга и обновляют свои оценки представителей и матрицы точности. Они применяют одни и те же величины, используя частичную Аляску и компьютерную графику, выбирают действия единичного вектора для восстановления определенных действий и разрабатывают метод, подобный методу линейного времени, который взвешивает точки данных в соответствии с функцией ядра с центром в вызывающей точке.

  • 00:55:00 В этом разделе Джонатан Венгер обсуждает гауссовские процессы (GP) с учетом вычислений и сравнивает их с полностью независимым тренировочным условным GP (FITC-GP). Он представляет векторные действия ядра, которые решают некоторые проблемы с FITC-GP, но являются плотными, что приводит к сложности N в квадрате, и, следовательно, они неэффективны с точки зрения затрат. Венгер показывает, что, предпринимая определенные действия, нацеленные только на часть точек данных, они могут уменьшить сложность, необходимую для вычисления матрицы ядра. В конце концов, вычислительная GP имеет лучшую производительность, и такие действия оказываются полезным подходом для масштабируемых вычислений с высокой точностью.

  • 01:00:00 В этом разделе Джонатан Венгер обсуждает гауссовский процесс с учетом вычислений и его сложность. Он показывает, что необходимо вычислить и сохранить только верхний квадрант матрицы ядра, и в результате вычислительная стоимость алгоритма пропорциональна только размеру этого квадранта. Кроме того, он подчеркивает, что алгоритм можно использовать с наборами данных произвольного размера, если действия, имеющие нули в нижнем квадранте, выбираются для вычисления только определенных точек данных. Венгер утверждает, что это стирает различие между данными и вычислениями, потому что только наблюдения, предназначенные для вычислений, считаются данными. Наконец, он отмечает, что гауссовский процесс можно смоделировать, чтобы учесть эту ситуацию, обусловливая прогнозируемые данные.

  • 01:05:00 В этом разделе Джонатан Венгер объясняет, что гауссовские процессы (ГП) можно рассматривать двумя способами: как более точную модель того, что происходит, или как вероятностный числовой инструмент, который количественно определяет ошибку, вносимую посредством аппроксимации, и принимает это учитывать в прогнозах. Затем он продолжает обсуждение интерпретации квадратов ошибок как вероятностных показателей и того, как комбинированные апостериорные значения могут использоваться в качестве инструмента прогнозирования. Венгер также вводит новую теорему, которая позволяет проводить точную количественную оценку неопределенности с помощью приближенной модели, позволяя пользователям доверять своей количественной оценке неопределенности так же, как они доверяют гауссовским процессам.

  • 01:10:00 В этом разделе Джонатан Венгер объясняет, что гауссовские процессы (ГП) можно аппроксимировать путем разработки алгоритма обучения, который может вероятностно количественно оценить ошибку алгоритма и передать ошибку в апостериорную ГП, используемую для прогнозирования, что позволяет для точной количественной оценки неопределенности независимо от используемой вычислительной мощности. Венгер также отмечает, что, хотя существуют различные варианты метода, они обеспечивают точную количественную оценку неопределенности, если действия линейно независимы. Наконец, Венгер анонсирует лекцию на следующей неделе, в которой Джонатан обсудит расширение модели GP на случаи, когда физический закон частично управляет изучаемой функцией.
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The fourth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

Лекция 5 -- Модели пространства состояний -- Джонатан Шмидт



Numerics of ML 5 -- Модели в пространстве состояний -- Джонатан Шмидт

В этом разделе Джонатан Шмидт представляет модели в пространстве состояний и их применение в машинном обучении. Он объясняет, что модели в пространстве состояний используются для моделирования сложных динамических систем, которые поддаются наблюдению лишь частично и включают сильно нелинейные взаимодействия. Лекция посвящена графическому представлению моделей в пространстве состояний и важным свойствам марковских свойств и условно независимых измерений. Шмидт представляет различные алгоритмы для вычисления различных распределений, таких как распределения предсказания, фильтрации и сглаживания, которые используются для оценки состояния системы с использованием измерений, полученных в разные моменты времени. Лекция также охватывает реализацию алгоритмов фильтра Калмана в Джулии и вычисление оценок сглаживания в линейных гауссовских моделях пространства состояний. Наконец, Шмидт обсуждает расширенный фильтр Калмана, который позволяет оценивать нелинейную динамику и измерения в моделях в пространстве состояний.

Джонатан Шмидт также обсуждает модели в пространстве состояний и их реализацию с помощью кода, уделяя особое внимание нелинейной динамике и расширенному фильтру Калмана. Он также демонстрирует алгоритмы сглаживания и альтернативные методы байесовской фильтрации, выделяя их плюсы и минусы. Лекция завершается рекомендацией по дальнейшему обучению и ожиданием следующей лекции, на которой Натаниэль представит вероятностные числа для моделирования динамических систем.

  • 00:00:00 В этом разделе Джонатан Шмидт представляет модели в пространстве состояний и динамические системы в качестве нового направления курса лекций по числовым методам машинного обучения. Он объясняет, что динамические системы развиваются со временем и их можно наблюдать лишь частично, что затрудняет их моделирование. Шмидт приводит примеры, такие как подсчет случаев COVID-19 и оценка ориентации смартфона, чтобы проиллюстрировать временную структуру и скрытые компоненты динамических систем. Конечной целью является использование вероятностных методов для моделирования этих систем, но сначала необходимо создать язык и алгоритмическую основу для обнаружения скрытых компонентов из наблюдаемых данных.

  • 00:05:00 В этом разделе докладчик обсуждает модели в пространстве состояний, которые включают онлайн-задачу оценки, целью которой является быстрое обновление оценки сложной динамической системы по мере поступления новых данных. Эти модели часто наблюдаемы лишь частично. и включают сильно нелинейные функции и взаимодействия. Чтобы достичь этого, необходима алгоритмическая структура для соответствующего обновления убеждений. Докладчик обсуждает графическое представление языка моделирования, используемого в моделях пространства состояний, где последовательность белых узлов представляет собой случайные величины, моделирующие состояние системы, а красный прямоугольник представляет наблюдаемые данные. Состояние динамической системы представляет собой совокупность физических величин, определяющих эволюцию системы, которые отслеживаются и взаимодействуют друг с другом. Наблюдаемые данные y зависят от текущего состояния и часто доступны только для некоторых состояний траектории, но не для других.

  • 00:10:00 В этом разделе Джонатан Шмидт представляет модели в пространстве состояний как вероятностную основу для моделирования динамических систем. Он подчеркивает два важных свойства моделей в пространстве состояний: марковское свойство и условно независимые измерения. Используя эти свойства, он определяет модель в пространстве состояний как байесовскую модель, которая включает начальное распределение для первого состояния, динамическую модель для последующих состояний и модель измерения для наблюдений. Шмидт отмечает, что эти очищенные компоненты лягут в основу остальной серии лекций.

  • 00:15:00 В этом разделе спикер объясняет, как анализировать системы с использованием моделей пространства состояний и вычисляет четыре различных распределения условной вероятности. К ним относятся распределение предсказания, распределение фильтрации, вероятность данных и распределение сглаживания, которые вычисляются для каждого шага в текущей последовательности. Вывод включает в себя введение вычисляемой величины и построение совместного распределения на основе того, что уже известно. Уравнение Чепмена-Колмогорова используется для прогнозирования будущего с учетом прошлых измерений, а шаг коррекции с использованием теоремы Байеса используется для интеграции новых данных в оценку.

  • 00:20:00 В этом разделе спикер объясняет концепцию модели пространства состояний и используемую в ней схему прогнозирования и обновления. Вычисляя прогнозируемое распределение с помощью уравнения Чепмена-Гомографа, модель обновляет прогноз с помощью теоремы Байеса. Затем спикер представляет псевдокод для алгоритма, который работает в линейной временной петле, не возвращаясь назад. Докладчик подчеркивает важность создания последовательности распределений для текущих состояний с учетом всех предыдущих измерений. Наконец, спикер представляет линейную гауссовскую модель пространства состояний и то, как она создает распределения.

  • 00:25:00 В этом разделе докладчик представляет модели в пространстве состояний для линейной гауссовой системы с матрицей ковариации шума процесса Q и моделью измерения с матрицей измерения H и матрицей ковариации измерения R. В лекции объясняется, как прогнозирование и фильтрующие моменты модели могут быть вычислены с использованием гауссовского вывода, при этом апостериорное распределение представляет собой сложный набор терминов. Затем докладчик представляет фильтр Калмана, названный в честь венгерского ученого Рудольфа Калмана, который позволяет вычислять моменты предсказания и фильтрации в закрытой форме. Представлены уравнения предсказания и коррекции фильтра Калмана, где коэффициент усиления Калмана является важной величиной, которая переводит информацию, полученную в пространстве измерений, в пространство состояний для обновления среднего значения фильтрации.

  • 00:30:00 В этом разделе видео Джонатан Шмидт представляет модели в пространстве состояний и объясняет, как их использовать для фильтрации траекторий на основе зашумленных измерений. Он приводит пример отслеживания автомобиля в 2D-плоскости с помощью GPS-измерений и пишет код на языке Julia. Шмидт объясняет, что динамическая модель является линейной моделью Гаусса, а ковариация шума процесса включает полиномиальные члены временного шага. Он также подчеркивает, что траектория фильтрации использует только предыдущие и настоящие точки данных и не зависит от будущего.

  • 00:35:00 В этом разделе спикер объясняет реализацию фильтра Калмана для моделей в пространстве состояний с использованием кода Джулии. Он объясняет, как настроить модели перехода и измерения, предсказать среднее значение и ковариацию, а также скорректировать оценку с помощью модели измерения. Затем докладчик демонстрирует, как запустить фильтр Калмана, и обеспечивает визуализацию полученной оценки и соответствующей неопределенности.

  • 00:40:00 В этом разделе Джонатан Шмидт объясняет, как модели в пространстве состояний используются для описания динамических систем и как их можно построить с помощью линейных гауссовских моделей, которые позволяют вычислять интересные величины с помощью линейной алгебры. Он также вводит концепцию сглаживания апостериорных значений, которая обеспечивает наилучшую оценку траектории с учетом всех доступных точек данных и полагается на фильтрацию распределений для их вычисления в обратном рекурсивном алгоритме. В то время как вывод уравнений сглаживания включает теорию вероятностей и марковское свойство, результирующий набор гауссовских случайных величин упрощает вычисление распределения сглаживания на каждом временном шаге.

  • 00:45:00 В этом разделе спикер объясняет процесс вычисления оценок сглаживания в линейных гауссовских моделях пространства состояний. Это включает в себя использование операций матричного векторного произведения и маргинализацию на следующем временном шаге при маргинализации для вычисления апостериорной вероятности из апостериорной фильтрации. Алгоритм сглаживания оценок вычисляется с помощью циклов for, поскольку он работает только при наличии набора данных или фиксированной части временных шагов для рассмотрения. Процесс включает в себя начало с конца временного ряда и движение назад к началу путем вычисления коэффициента сглаживания и использования его для вычисления моментов сглаживания. Докладчик также отмечает, что оценка фильтрации совпадает с оценкой сглаживания в конце временного ряда. Алгоритм сглаживания в конечном итоге обеспечивает апостериорный гауссовский процесс в качестве апостериорного сглаживания.

  • 00:50:00 В этом разделе докладчик объясняет, как вычислять апостериорные значения гауссовского процесса за линейное время, делая предположения, включающие линейный переход, линейные измерения, аддитивный гауссовский шум как для динамики, так и для измерений, а также марковское свойство. Однако не все апостериорные значения гауссовского процесса можно вычислить с помощью гауссовой фильтрации и сглаживания. Докладчик также обсуждает возможность отказа от предположения Гаусса, но для этого потребуется совершенно новый класс алгоритмов. Следующий шаг включает в себя рассмотрение нелинейных моделей с использованием аппроксимации Тейлора в первом порядке для линеаризации функций, а затем использования общей фильтрации.

  • 00:55:00 В этом разделе Джонатан Шмидт обсуждает модели в пространстве состояний и расширенный фильтр Калмана, который является расширением фильтра Калмана для нелинейной динамики и измерений. Линеаризация нелинейной динамики и моделей измерений достигается за счет использования матриц Якоби, позволяющих использовать стандартные уравнения фильтра Калмана с некоторыми модификациями. Прогнозируемое среднее значение оценивается по предыдущему среднему значению фильтрации, что позволяет легко вычислить прогнозируемую ковариационную матрицу. Аналогичным образом линеаризуется модель измерения и выводятся расширенные уравнения фильтра Калмана. Шмидт отмечает, что расширенный фильтр Калмана полезен, когда невозможно или нежелательно различать нелинейные функции.

  • 01:00:00 В этом разделе Джонатан Шмидт обсуждает, что произойдет, если мы не сможем дифференцировать нашу функцию, и как это обойти. Одним из возможных решений является использование конечной разности в схеме, где мы строим разность, как стандартные конечные разности, а затем делаем то же самое. Шмидт также строит сглаживатель с расширенным корнем, просматривая сглаженные уравнения и вставляя в качестве транспонированной переходной матрицы матрицу Якоби нелинейной функции, оцененную в среднем значении фильтрации. Шмидт предоставляет пример кода, использующий нелинейную модель пространства состояний маятника, где размерность состояния равна 2, а измерения являются скалярными. Он настраивает модель динамики, используя нелинейное преобразование, и обсуждает ковариацию шума процесса.

  • 01:05:00 В этом разделе Джонатан Шмидт обсуждает модели в пространстве состояний и способы их реализации с помощью кода. Он объясняет нелинейную динамику системы и простую линейную модель измерения, используемую для измерений. Он также демонстрирует, как реализовать расширенный фильтр Калмана для оценки траектории маятника. Фильтр использует автоматическое дифференцирование для вычисления матрицы Якоби для функции нелинейной динамики и градиента для функции измерения. Результирующая анимация показывает предсказанную траекторию и зашумленные измерения.

  • 01:10:00 В этом разделе Джонатан Шмидт обсуждает оценку фильтрации и расширенное сглаживание в моделях в пространстве состояний. Оценка фильтрации показывает оценку неопределенности в заштрихованной области, в то время как алгоритм сглаживания приводит в порядок оценку фильтрации, используя автоматическое дифференцирование, вычисляя усиление сглаживания, сглаженное среднее значение и сглаженную ковариацию. Более сглаженный метод возвращает апостериорный маргинал гауссовского процесса, который хорошо покрывает истинную траекторию в ее неопределенности. Шмидт также упоминает альтернативные методы байесовской фильтрации, такие как фильтр Калмана без запаха для аппроксимации распределений и фильтр частиц, который аппроксимирует фактические истинные апостериорные значения. Хотя у этих методов есть свои плюсы и минусы, и их может быть сложнее реализовать, они могут быть эффективны для нелинейных или негауссовских моделей. Шмидт рекомендует книгу «Байесовская фильтрация и сглаживание» Симо Сярккя тем, кто интересуется этими методами.

  • 01:15:00 В этом разделе спикер подводит итог тому, что он узнал о моделях в пространстве состояний, их линейной модели Гаусса, а также о фильтрах Калмана и расширенных фильтрах Калмана, используемых для обработки нелинейной динамики и измерений. Рекомендуется следующая лекция, на которой Натаниэль представит мощный язык для описания законов природы и объединит его с лекцией за одну неделю, чтобы узнать, как моделировать эти динамические системы с использованием вероятностных чисел посредством байесовской фильтрации и сглаживания. В заключение спикер просит оставить отзыв и благодарит слушателей за уделенное время.
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
  • 2023.01.24
  • www.youtube.com
The fifth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 6 -- Решение обыкновенных дифференциальных уравнений -- Натанаэль Бош



Numerics of ML 6 -- Решение обыкновенных дифференциальных уравнений -- Натаниэль Бош

Натанаэль Бош раскрывает концепцию ОДУ в машинном обучении, которые описывают производную функции с учетом ее входных данных и модельных систем, которые развиваются с течением времени. Он обсуждает проблемы решения ОДУ и представляет численные методы, такие как прямой Эйлер и обратный Эйлер, а также их свойства устойчивости. Bosch исследует различные численные методы и их компромиссы в отношении точности и сложности, такие как явные методы средней точки и классические методы четвертого порядка. Он подчеркивает важность локальных ошибок, порядка и понимания стабильности, чтобы избежать проблем при использовании библиотек для решения ОДУ.

Во второй части видео обсуждается проблема оценки векторного поля и начального значения обыкновенного дифференциального уравнения (ОДУ) с использованием методов машинного обучения. Докладчик объясняет важность записи генеративной модели и модели наблюдения для состояний ОДУ для решения задачи логического вывода. Функция правдоподобия максимизируется за счет минимизации отрицательного логарифмического правдоподобия, что дает оценку параметра. Докладчик демонстрирует этот подход с использованием модели SIR-D и обсуждает использование нейронных сетей для улучшения оценки частоты контактов. Также подчеркивается важность ОДУ в исследованиях машинного обучения и их роль в решении реальных проблем.

  • 00:00:00 В этом разделе лекции Натанаэль Бош знакомит с концепцией обыкновенных дифференциальных уравнений (ОДУ) и тем, как они используются в машинном обучении. Он определяет ОДУ как способ описания производной функции с учетом ее входных данных и объясняет, что в машинном обучении ОДУ часто используются для моделирования систем, которые развиваются с течением времени. Он приводит примеры того, как ОДУ появляются в машинном обучении, в том числе в моделях распространения и задачах оптимизации. Bosch также обсуждает проблемы решения ОДУ, которые требуют сложных численных решателей из-за непрактичности их идеального решения.

  • 00:05:00 В этом разделе спикер обсуждает, как ОДУ используются для преобразования шума в данные для моделирования сложных распределений, что выполняется посредством нормализации потоков. Он также объясняет концепцию нейронных ОДУ, которая вызвала множество исследований, и переосмысливает остаточные нейронные сети как дискретизацию более непрерывной вещи. Кроме того, спикер связывает ОДУ с оптимизацией, в частности, с градиентным потоком, о котором проще написать теорему, чем о дискретном градиентном спуске. Наконец, спикер обсуждает, как вывод параметров является примером использования ОДУ для изучения чего-то неизвестного, и в следующей лекции будет интерпретировать численные решения ОДУ как алгоритмы машинного обучения. Докладчик заключает, что, хотя мы можем записать решение для ОДУ, оно бесполезно из-за проблемы интеграции и неизвестных переменных.

  • 00:10:00 В этом разделе рассказчик представляет обыкновенные дифференциальные уравнения (ОДУ) и задачи с начальными значениями, которые имеют решающее значение для понимания многих алгоритмов машинного обучения. ОДУ представляют скорость изменения системы с течением времени, и для решения проблемы требуется начальное значение. Решение ОДУ задается функцией, которая зависит от начального значения, а численные решения ОДУ требуют пошаговой экстраполяции. Рассказчик представляет логистическую проблему ОДУ для роста населения, и дается решение. Рассказчик подчеркивает, что цель решения задачи с начальными значениями состоит в том, чтобы найти решение для конкретной отправной точки с учетом векторного поля ОДУ. Сложность решения ОДУ заключается как в решении интеграла, так и в обработке дифференциального члена. Рассказчик предлагает небольшие размеры шагов для численных решений ОДУ, чтобы точно приблизить истинное решение.

  • 00:15:00 В этом разделе Натанаэль Бош объясняет различные численные методы решения обыкновенных дифференциальных уравнений. Первый метод, который он представляет, - это аппроксимация ряда Тейлора нулевого порядка, где для аппроксимации рассматривается только значение функции на текущем временном шаге. Это приводит к прямому методу Эйлера, который представляет собой простую явную формулу для вычисления следующего момента времени. Бош отмечает, что, хотя этот метод является плохим приближением, он по-прежнему широко используется в программном обеспечении и динамическом моделировании.

  • 00:20:00 В этом разделе видео обсуждаются два метода решения обыкновенных дифференциальных уравнений (ОДУ): прямой метод Эйлера и обратный метод Эйлера. В прямом методе Эйлера используется наклон в текущей точке для аппроксимации значения в следующей точке, в то время как в обратном методе Эйлера используется аппроксимация ряда Тейлора вокруг тау, равного t плюс h. В видео представлены примеры кода для обоих методов с использованием логистического ODE, которые дают разумные решения. Однако видео предупреждает, что более сложные дифференциальные уравнения могут потребовать дополнительного рассмотрения при выборе численного решателя. Кроме того, видео затрагивает сложность численных методов и важность знания лежащих в их основе алгоритмов при использовании численных пакетов.

  • 00:25:00 В этом разделе спикер обсуждает разницу между явными и неявными методами решения обыкновенных дифференциальных уравнений (ОДУ) и важность устойчивости при выборе подходящего алгоритма. Докладчик сравнивает прямой и обратный методы Эйлера для простого скалярного ОДУ, x' = λx, где λ меньше нуля. Прямой метод Эйлера устойчив только для размеров шага, где 1 + hλ меньше единицы, в то время как обратный метод Эйлера устойчив для всех размеров шага. Докладчик демонстрирует, что выбор неподходящего размера шага может привести к расхождению, подчеркивая важность стабильности при выборе подходящего метода решения ОДУ.

  • 00:30:00 В этом разделе Натанаэль Бош обсуждает различия между прямым и обратным методами Эйлера для решения обыкновенных дифференциальных уравнений (ОДУ). Хотя оба метода используют одинаковую математику, обратный Эйлер требует небольших требований к сходимости и может обрабатывать жесткие области в ОДУ, которые не может использовать прямой Эйлер. Нужна числовая квадратура, и есть много способов сделать это. Кроме того, построение X шляпы, аппроксимации функции в данный момент времени, является еще одной проблемой, для которой разные методы дают разные ответы. В целом выбор метода зависит от таких факторов, как время вычислений и ожидаемая крутизна ОДУ.

  • 00:35:00 В этом разделе Натанаэль Бош объясняет общую формулировку численных методов решения обыкновенных дифференциальных уравнений (ОДУ), в которых участвуют три переменные: bi, Qi и X шляпы. Он также вводит таблицы мясника как способ сделать разговор о различных методах более компактным и читабельным, и указывает, что разные способы вычисления bi и Qi, а также то, как построить шляпы X, делают каждый метод уникальным. . Бош приводит примеры различных численных методов, в том числе самого простого, прямого метода Эйлера, который удовлетворяет общему уравнению и имеет таблицу мясника, содержащую нули, но все же является достаточно полезным методом. Он также вводит обратный метод Эйлера как неявный метод, в котором отсутствует нуль и который вычисляется немного иначе, чем прямой метод Эйлера.

  • 00:40:00 В этом разделе видео исследует различные стратегии, которые можно использовать для решения обыкновенных дифференциальных уравнений (ОДУ). Одно из предложений слушателя заключалось в том, чтобы разделить интеграл на разные члены и выполнять шаги между каждым членом, но докладчик объясняет, что это приведет к другому алгоритму с другими свойствами. Видео продолжает демонстрировать явное правило средней точки, которое близко к выполнению двух шагов Эйлера, но не совсем то же самое. Ведущий объясняет, что правило средней точки экстраполирует из точки и уменьшает то, что сделал форвард Эйлер, чтобы получить лучшую экстраполяцию. Кроме того, в видео исследуется классический метод четвертого порядка, названный так потому, что это был оригинальный метод, разработанный Байроном и Кота. Наконец, в видео отмечается, что, несмотря на некоторую свободу выбора коэффициентов для решения ОДУ, в Википедии уже есть сотни известных методов.

  • 00:45:00 приводит к двум решениям. В методе Добре-Ферми в конце две линии, потому что он дает два решения на каждом шаге. Этот метод сложен, потому что он удовлетворяет нескольким свойствам и становится более сложным, когда таблица становится больше. Цель должна состоять не в том, чтобы понять, как работает градиент, а в том, чтобы сосредоточиться на свойствах, которым должны удовлетворять коэффициенты. Этот метод был основан на квадратурных правилах, и, хотя прямого преобразования в ОДУ может не быть, они все же очень мотивированы квадратурными правилами.

  • 00:50:00 В этом разделе видео обсуждается, как решение дифференциальных уравнений может быть усложнено из-за методов, которые нацелены на эффективность, предоставляя сразу два метода с разной степенью точности. Один из них более точен, чем другой, и использование более точного может помочь оценить ошибку менее точного, что может быть полезно при настройке размера шага при решении ОДУ при удовлетворении некоторой локальной ошибки. В видео также упоминается, что существуют разные типы методов с разными свойствами, и стабильность также является фактором, который следует учитывать при выборе метода решения проблемы. Наконец, видео кратко затрагивает важность порядка при решении дифференциальных уравнений.

  • 00:55:00 В этом разделе Натанаэль Бош обсуждает различные методы решения обыкновенных дифференциальных уравнений (ОДУ) и компромисс между точностью и сложностью. Он подчеркивает важность локальной ошибки, которая измеряет ошибку на одном шаге оценки, и то, как ее можно уменьшить, уменьшив размер шага. Затем обсуждаются различные методы, такие как метод жесткого Эйлера и явный метод средней точки, каждый со своим порядком и скоростью сходимости ошибок. Bosch также упоминает различные навороты, связанные с использованием библиотек для решения ODE, такие как выбор размера шага и автоматический выбор сервера, но предупреждает, что по-прежнему важно понимать стабильность и порядок, чтобы избежать потенциальных проблем, когда что-то ломается.

  • 01:00:00 В этом разделе видео спикер обсуждает задачу оценки векторного поля и начального значения обыкновенного дифференциального уравнения (ОДУ) по данным с использованием методов машинного обучения. Он приводит пример эпидемиологической модели, целью которой является оценка параметров бета, гамма и лямбда, соответствующих ОДУ наблюдаемым данным. Докладчик объясняет, что запись порождающей модели и модели наблюдения для состояний ОДУ имеет важное значение для решения проблемы вывода. Он отмечает, что оценка параметров позволяет лучше понять процесс, в результате которого были получены данные, а перекрестная проверка предполагаемых параметров по литературным данным может дать дополнительную информацию.

  • 01:05:00 В этом разделе докладчик обсуждает проблему вывода параметров и способы вычисления оценки максимального правдоподобия для решения обыкновенных дифференциальных уравнений (ОДУ). Функция правдоподобия представляет собой произведение гауссовых функций, которое нельзя оценить из-за предположения, что истинное значение X невозможно получить, поэтому требуется приближение. Предполагая, что решатель достаточно хорош, спикер демонстрирует, что подстановка оценочного решения вместо истинного решения дает поддающийся оценке член. Затем функция правдоподобия максимизируется путем минимизации отрицательного логарифмического правдоподобия, и результирующая функция потерь дает оценку параметра. В заключение докладчик приводит пример с использованием модели SIR-D, где количество инфицированных в начале неизвестно и требует оценки.

  • 01:10:00 В этом разделе докладчик обсуждает, как выполнить вывод параметров на модели обыкновенных дифференциальных уравнений (ОДУ). Моделирование модели ОДУ выполняется путем взятия из нее зашумленных выборок, и два параметра используются для формирования функции потерь, которая вычисляется путем сравнения линий на диаграмме рассеяния с фактическими данными. Оптимизатор используется для перебора начального предположения и параметров, а оптимизатор L-BFGS используется для генерации выходных данных. Полученные данные можно использовать для интерпретации модели и ее параметров, которые можно сравнить с литературными данными. Затем модель улучшают, делая скорость контакта изменяющейся во времени, что делает ее немного более сложной, и весь процесс вывода параметров выполняется снова.

  • 01:15:00 В этом разделе Натаниэль Бош обсуждает проблемы оценки бета t, который описывает изменяющуюся во времени оценку частоты контактов в ОДУ и подчеркивает необходимость в более совершенных инструментах для решения проблемы оценки. Чтобы решить эту проблему, он предлагает использовать нейронную сеть для моделирования бета t и минимизировать функцию потерь L2 при выводе параметров. Хотя нейросетевой подход менее интерпретируем и не дает хороших оценок неопределенности, он дает точечную оценку частоты контактов. Кроме того, результаты показывают, что подход нейронной сети все еще нуждается в значительном улучшении, чтобы соответствовать модели GP, и следует принимать во внимание неопределенности в результатах.

  • 01:20:00 В этом разделе докладчик обсуждает подход к использованию нейронных сетей для решения ОДУ и упоминает, что, хотя количественная оценка неопределенности с использованием этого метода недоступна, он по-прежнему является допустимым концептуальным подходом. Обсуждаются оценки максимального правдоподобия и упоминается возможность добавления априорных значений и выборки для обеспечения количественной оценки неопределенности. Докладчик также обсуждает предстоящую тему вероятностных численных решателей ОДУ и подчеркивает важность ОДУ в исследованиях машинного обучения и его роль в решении реальных задач. Нейронные ОДУ также кратко упоминаются как более общий и бесструктурный подход, но с похожими функциями потерь и процедурами обучения.
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The sixth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 7 -- Вероятностные численные решатели обыкновенных дифференциальных уравнений -- Натаниэль Бош



Numerics of ML 7 -- Вероятностные численные решатели ОДУ -- Натаниэль Бош

В этом видео Натаниэль Бош представляет концепцию вероятностных численных решателей ОДУ, которые объединяют оценку состояния и численные решатели ОДУ для получения распределений по состояниям или решений ОДУ. Bosch объясняет, как интегрированный в Q раз Винеровский процесс можно использовать для моделирования истинного решения и как этот процесс позволяет количественно оценивать и распространять неопределенности в системе. Затем он демонстрирует, как использовать расширенные фильтры Калмана для решения ОДУ и как размер шага влияет на оценку ошибки. Видео заканчивается обсуждением калибровки неопределенности и использования расширенного фильтра Калмана для оценки параметров в нелинейных моделях пространства состояний.

Во второй части лекции Натанаэль Бош рассказывает о преимуществах использования вероятностных методов для решения ОДУ, в том числе о получении значимых оценок неопределенности и гибкости включения дополнительных функций модели, таких как начальные значения. Он демонстрирует этот подход на таких примерах, как гармонический осциллятор и дифференциальные алгебраические уравнения. Bosch также показывает, как добавление дополнительной информации и использование вероятностных методов может привести к более значимым результатам, на примере модели эпидемии, которая не смогла точно представить данные с помощью традиционных скалярных методов. Он использует расширенные фильтры Калмана и сглаживатели для решения ОДУ посредством оценки состояния, рассматривая оценку как вероятностную задачу, и подчеркивает важность байесовского подхода при принятии решений.

  • 00:00:00 В этом разделе Натанаэль Бош представляет концепцию вероятностных численных решателей ОДУ. Он начинает с подведения итогов предыдущих лекций, включая модели пространства состояний и общие фильтры/сглаживатели для оценки состояния, а также численные решатели ОДУ. Он объясняет, что задача состоит в том, чтобы оценить состояние решения ОДУ с учетом дифференциального уравнения, и что численные решатели ОДУ обеспечивают только приближение. Затем Bosch предлагает способ объединения этих двух концепций, интерпретируя ОДУ как задачи оценки состояния и решая их как задачи оценки данных. Полученные алгоритмы обеспечивают распределения по состояниям или решения ОДУ, создавая вероятностные числовые серверы, которые предлагают более богатые выходные данные, чем классические серверы.

  • 00:05:00 В этом разделе обсуждается концепция вероятностных численных решателей ОДУ. Эти решатели оценивают истинное решение, предоставляя единственную оценку X через оценку векторного поля для обновления или расширения оценки до момента времени в будущем с ошибкой, которая зависит от размера шага. Затем обсуждение переходит к использованию специального оценивания состояния в качестве инструмента для решения задач численного оценивания ОДУ. Затем объясняются распределение фильтрации, апостериорное сглаживание и шаг прогнозирования, который оценивает будущие состояния с учетом текущей информации, а такие алгоритмы, как расширенный фильтр Калмана и расширенный сглаживатель Калмана, упоминаются как простые методы вычисления этих величин. Раздел завершается идеей о том, что численные решения ОДУ можно сформулировать как задачу вывода, а не пытаться вычислить фактическое истинное решение, и что цель состоит в том, чтобы найти апостериорное значение x от t, которое удовлетворяет начальному условию и ОДУ на дискретном набор точек.

  • 00:10:00 В этом разделе мы углубимся в построение модели пространства состояний для вероятностных численных решателей ОДУ. Состояние, которое мы рассматриваем, представляет собой интегрированный в Q раз винеровский процесс. Это состояние представляет собой стохастический процесс, описывающий динамическую систему и отслеживающий производные вплоть до Q. Отслеживая ограниченное число производных, мы можем получить вероятностную модель состояния, которая позволяет нам количественно определять и распространять неопределенность в системе. Основная цель состоит в том, чтобы определить априор, вероятность и модель данных, которая после решения даст нам оценку выходных данных. Это необходимо для фильтрации и сглаживания по Гауссу, что является быстрым алгоритмом вывода.

  • 00:15:00 В этом разделе Натанаэль Бош объясняет стохастический процесс, который моделирует истинное решение интегрированного в Q раз процесса Winner. Процесс имеет переходы в виде гауссовой модели, в которой используется матрица a для H и ковариационная матрица Q для H, которые имеют формулы в замкнутой форме. Доступ к записи в процессе является линейной операцией, что делает удобным доступ к первой и второй производным. Процесс является марковским и удовлетворяет свойствам гауссовского процесса. Bosch также показывает графики различных образцов процесса, которые иллюстрируют, почему он называется дважды интегрированным линейным процессом.

  • 00:20:00 В этом разделе спикер обсуждает априорную интеграцию Орнштейна-Уленбека, умноженную на Q, и то, как это удобно, поскольку они могут позже записывать плотности перехода, необходимые для гауссовой фильтрации и сглаживания. Часть вероятности и комбинации данных также важна, потому что она информирует до того, как сделать желаемое наверху. Докладчик показывает, как использовать язык ОДУ, и определяет функцию измерения или информационный оператор, который должен быть равен нулю в идеальном мире с бесконечными вычислениями. Они также вводят модель наблюдения и объясняют, почему она помогает удовлетворить желаемое для вывода. Наконец, бесшумная модель правдоподобия представляет собой прямое правдоподобие, что удобно, поскольку учитывает обновления фильтра Калмана.

  • 00:25:00 В этом разделе Натанаэль Бош обсуждает генеративную модель для Z, которая является конкретным примером логистического ОДУ, и как она связана с процессом логического вывода. Генеративная модель позволяет моделировать решения, вычислять производные и генерировать апостериорные значения, которые схлопываются вокруг Z. Эта генеративная модель, в дополнение к модели правдоподобия, которая кодирует дифференциальное уравнение, позволяет решать модель пространства состояний и дает оценки для X, которые относятся к решению. Вывод позволяет установить взаимосвязь между предыдущим и желаемым конечным результатом, а также позволяет решить модель пространства состояний.

  • 00:30:00 В этом разделе Натанаэль Бош обсуждает важность включения начального значения при решении обыкновенного дифференциального уравнения вероятностными численными методами. Он объясняет, что добавление в модель наблюдения другого измерения, зависящего только от начального значения, является более общим способом включения начального значения. Затем он предоставляет псевдокод для расширенного фильтра Калмана и строительных блоков фильтра ОДУ, необходимых для реализации алгоритма, и описывает стандартный цикл фильтрации, участвующий в шагах прогнозирования и обновления. Расширенный алгоритм сначала удовлетворяет начальному значению и использует модель перехода A и Q для вычисления размера шага.

  • 00:35:00 В этом разделе Натанаэль Бош демонстрирует код, необходимый для решения обыкновенного дифференциального уравнения (ОДУ) с использованием вероятностных численных методов в Джулии. Он отмечает, что, хотя формулы могут показаться сложными, 10 строк кода, необходимых для правильной настройки модели, просты. Bosch показывает, как расширенный фильтр Калмана реализуется всего двумя строками кода, а стандартное обозначение для умножения на обратное заменяется численно устойчивым решением, которое решает линейную систему. Он определяет векторное поле, начальный интервал времени и истинное решение для логистического ОДУ и демонстрирует, как определить априорное значение, используя дважды интегрированный винеровский процесс. Реализация Bosch расширенного алгоритма фильтра Калмана точно соответствует псевдокоду со слайдов, а используемое им начальное распределение произвольно установлено на нулевое среднее значение и стандартную ковариацию.

  • 00:40:00 В этом разделе Натаниэль Бош демонстрирует, как использовать расширенные фильтры Калмана для решения ОДУ, и строит оценки фильтра. Затем он экспериментирует с размерами шагов, демонстрируя, как меньшие размеры шагов уменьшают неопределенности, а большие увеличивают их. Он объясняет, что неопределенность не просто растет со временем, а оценки ошибок — это модель ошибки, которая происходит. Наконец, он демонстрирует, что сглаживание обычно улучшает результаты траекторий, что соответствует мотивации из двух лекций назад. Тем не менее, оценки ошибок можно было бы сделать еще лучше, но он спрашивает аудиторию, как это сделать.

  • 00:45:00 В этом разделе мы узнаем, что оценка ошибки для вероятностного численного решателя ОДУ слишком велика и должна быть исправлена посредством калибровки неопределенности. Сигма-квадрат гиперпараметра напрямую влияет на неопределенности, и его необходимо правильно установить, чтобы получить значимые фактические оценки неопределенности. Мотивация для установки гиперпараметров аналогична мотивации в гауссовских процессах, где гиперпараметры оцениваются путем максимизации вероятности данных с заданным параметром. Вероятность данных может быть разложена, что делает ее удобной для выражения и оптимизации.

  • 00:50:00 В этом разделе Натаниэль Бош обсуждает использование расширенного фильтра Калмана для оценки параметров в нелинейной модели пространства состояний. P для z K при заданном Z1 до K минус 1 оценивается с использованием гауссовских оценок, а сигма-шапка вычисляется как argmax оценки квазимаксимального правдоподобия. В фильтрах ОДУ можно вычислить оценку максимального правдоподобия в закрытой форме, используя перемасштабированный способ повторной калибровки оценок параметров. Этот метод дает лучшие оценки и соответствует оценке максимального правдоподобия Sigma. Bosch объясняет, как это можно реализовать с помощью функции обновления с суффиксом калибровки.

  • 00:55:00 В этом разделе Натаниэль Бош обсуждает расширенный фильтр Калмана (EKF) для вероятностных численных решателей обыкновенных дифференциальных уравнений (ОДУ). Он упоминает, что он был изменен, чтобы увеличить штриховку сигма, в результате чего сумма вычисляется бегущим образом и делится на n, которое является величиной, которую они хотят вычислить. EKF ранее пытался аппроксимировать что-то гауссовым, что могло бы и не быть, и цель состоит в том, чтобы получить максимально информативные оценки неопределенности. Таким образом, они получили алгоритм, который обеспечивает полезные оценки ошибок, которые осмысленно описывают числовую ошибку решателя ОДУ. Полученный алгоритм работает быстро и дает несовершенные, но все же полезные оценки неопределенности.

  • 01:00:00 В этом разделе Натанаэль Бош объясняет мотивацию использования вероятностных методов для решения ОДУ. Помимо простой количественной оценки неопределенности и получения значимых оценок неопределенности и графиков, Bosch считает, что формулирование решателей ОДУ в вероятностном виде является гибким и удобным, позволяя включать дополнительные функции модели, такие как начальные значения. Определив модель пространства состояний и запустив расширенный фильтр Калмана, можно решать не только числовые задачи с начальным значением, но и ОДУ более высокого порядка с дополнительной информацией.

  • 01:05:00 В этом разделе Натанаэль Бош объясняет другой подход к начальным значениям для решателей ОДУ. Он определяет новую величину, чтобы убедиться, что X1 равно заданной начальной производной, и это можно использовать для запуска расширенного командного фильтра с некоторыми шагами прогнозирования и обновления. Он показывает пример гармонического осциллятора и то, как нужно было изменить только две строки, чтобы включить обновление первой производной. Калибровка применяется снова для получения значимых результатов, и ошибка в этом случае не стремится к нулю, поскольку нет аттрактора, к которому можно стремиться, а вместо этого корректируется в зависимости от постановки задачи. Бош также обсуждает дифференциальные алгебраические уравнения, которые представляют собой дифференциальные уравнения, которые нельзя перемещать слева направо из-за сингулярной матрицы.

  • 01:10:00 В этом разделе докладчик обсуждает концепцию дифференциально-алгебраических уравнений (ДАУ), которые представляют собой уравнения, не описывающие производную и имеющие постоянное значение в некоторой точке. Докладчик предлагает модификацию алгоритма вероятности ОДУ для создания алгоритма вероятности ДАУ, который может решать ДАУ вероятностным способом. Затем докладчик приводит пример задачи, в которой ОДУ имеет дополнительную информацию, и предлагает модификацию модели в пространстве состояний, чтобы ввести дополнительную модель наблюдения, чтобы алгоритм мог применять обе модели наблюдения для удовлетворения g на дискретной сетке. Докладчик приводит видео пример, который иллюстрирует важность сохранения величин при решении задач с ОДУ и дополнительную информацию.

  • 01:15:00 В этом разделе видео Натанаэль Бош обсуждает использование вероятностных численных решателей ОДУ и преимущества включения дополнительной информации для улучшения результатов моделей ОДУ. Он представляет пример модели эпидемии, где традиционная скалярная модель не смогла точно представить данные, и показывает, как можно использовать гауссовский процесс для улучшения модели. Добавление дополнительной информации и использование вероятностных методов может в конечном итоге привести к более значимому результату.

  • 01:20:00 В этом разделе Bosch обсуждает вероятностные численные решатели ОДУ, в которых используется оператор линейного измерения для измерения определенных размеров решения ОДУ, представленного в виде четырехмерного объекта (sirnd). После создания модели пространства состояний решается решение ОДУ с добавлением бета-состояния и рассматриваются модели правдоподобия решения ОДУ, начального значения и данных. Задача логического вывода включает использование расширенного фильтра Калмана для определения того, что представляют собой белые точки, учитывая черные точки наблюдаемых данных. Также предлагается объединить X и бета для упрощения переформулировки.

  • 01:25:00 В этом разделе спикер объясняет, как работают вероятностные численные решатели ОДУ, которые, по сути, представляют собой способ решения ОДУ посредством оценки состояния, рассматривая оценку как вероятностную задачу. Он определяет метод решения ОДУ с использованием расширенных фильтров Калмана и сглаживателей, которые приводят к ряду решателей, иногда называемых «фильтрами ОДУ». Докладчик подчеркивает важность байесовского подхода при принятии решений и полезность оценок неопределенности, а также удобство использования терпеливых алгоритмов, которые можно применять к целому ряду задач, включая решение ОДУ.

  • 01:30:00 В этом разделе спикер рассказывает об использовании внешних командных фильтров нестандартным способом для решения численных задач и выполнения выводов из данных способом, сочетающим физику и общие внешние наблюдения. По словам спикера, байесовская фильтрация и сглаживание — лучший способ моделирования или формулирования динамических систем, поскольку он позволяет гибко добавлять информацию и факторизовать алгоритм вывода. Зрителям предлагается сканировать QR-коды для получения обратной связи, а вопросы докладчику приветствуются.
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The seventh lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses bot...
 

Лекция 8 -- Уравнения с частными производными -- Марвин Пфертнер



Numerics of ML 8 -- Уравнения с частными производными -- Марвин Пфертнер

Марвин Пфертнер обсуждает дифференциальные уравнения в частных производных (УЧП) и их значение при моделировании различных систем реального мира. Он объясняет, как УЧП представляют механизм системы с неизвестной функцией и линейным дифференциальным оператором, но требуют решения для параметров, которые часто неизвестны. Вывод гауссовского процесса можно использовать для анализа моделей PDE и внедрения механистических знаний в статистические модели. Пфертнер исследует распределение тепла в центральном процессоре компьютера, ограничивая модель двумерным распределением тепла и представляя предположения, сделанные для модели. В лекции также рассматривается использование гауссовских процессов для решения уравнений в частных производных и добавление реалистичных граничных условий для моделирования неопределенности. В целом, подход GP в сочетании с понятием информационного оператора позволяет нам включать предварительные знания о поведении системы, вводить механистические знания в форме линейного УЧП и обрабатывать граничные условия и правые части.

Во второй части этого видео Марвин Пфертнер обсуждает использование гауссовских процессов для решения уравнений в частных производных (УЧП) путем оценки вероятностной меры по функциям, а не точечной оценки. Он объясняет преимущества количественного определения неопределенности и отмечает, что этот подход является более честным, поскольку он признает неопределенность в оценке функции правой части УЧП. Пфертнер также объясняет ядро Матерна, которое полезно на практике и может управлять дифференцируемостью GP, и предоставляет формулу для вычисления параметра P для ядра Матерна. Далее он объясняет, как построить d-мерное ядро для УЧП, взяв произведения одномерных ядер Матерна по измерениям, и важность математической осторожности при построении модели.

  • 00:00:00 В этом разделе лекции Марвин Пфертнер представляет дифференциальные уравнения в частных производных (УЧП) и их важность для описания механистических моделей, которые генерируют данные в реальном мире, включая финансовые рынки, жидкости, такие как климат и погода, и волновую механику. . Несмотря на сложность решения, линейные УЧП продолжают оставаться мощным языком моделирования, поскольку они точно описывают многие физические процессы, такие как теплопроводность, электромагнетизм и скорости частиц в броуновском движении. Лекция посвящена интеграции моделей на основе PDE в вероятностные модели машинного обучения на примере практического моделирования.

  • 00:05:00 В этом разделе Марвин Пфертнер обсуждает использование дифференциальных уравнений в частных производных (УЧП) для моделирования различных систем, включая физические и финансовые модели. Он подчеркивает важность понимания поведения механизма системы и выводов о его поведении с использованием моделей PDE. Однако для УЧП часто требуются неизвестные системные параметры, и цель состоит в том, чтобы использовать байесовскую статистическую оценку, чтобы объединить механистическое знание системы с данными измерений, чтобы найти эти неизвестные параметры и получить уверенность в прогнозах. Марвин также объясняет линейные УЧП и то, как они соотносятся с физическими системами с пространственной протяженностью.

  • 00:10:00 В этом разделе Марвин Пфертнер обсуждает дифференциальные уравнения в частных производных (УЧП), которые обычно используются для описания физических систем, таких как распределение температуры или сила, создаваемая набором электрических зарядов. Неизвестная функция в УЧП представляет моделируемую систему, а механистическое знание задается линейным дифференциальным оператором. Однако проблема с УЧП заключается в том, что они обычно не имеют аналитического решения и требуют численных решателей, которые вносят ошибки дискретизации. Параметры материала и функция правой части — это два параметра, которые не могут быть точно известны, что вызывает трудности при распространении неопределенностей с помощью классических решателей. Кроме того, УЧП обычно не идентифицируют однозначно свое решение, что требует наложения дополнительных условий.

  • 00:15:00 В этом разделе спикер обсуждает уравнения в частных производных (УЧП) и их связь с функциями, которые являются бесконечномерными объектами. Дифференциальный оператор является линейным, что означает, что линейные функции находятся в ядре дифференциального оператора, что позволяет добавлять линейный член к любому решению уравнения Пуассона и при этом получать решение. Граничные условия необходимы для моделирования взаимодействий за пределами области моделирования, которые затем обобщаются до того, как внешнее взаимодействует с моделированием на границе. УЧП - это утверждения о функциях, принадлежащих функциональным пространствам, которые представляют собой наборы функций, которые имеют структуру векторного пространства, аналогичную структуре Rn, что позволяет представлять линейные операторы матрицами. Линейные операторы — это отображения между функциональными пространствами, которые обладают свойством линейности, поскольку дифференциальный оператор отображает функцию в ее производную.

  • 00:20:00 В этом разделе Пфертнер объясняет, что линейные УЧП по существу являются линейными системами в бесконечномерном векторном пространстве, и подчеркивает важность определения норм в векторных пространствах и понимания сходимости. Затем он вводит математическую модель распределения тепла в центральном процессоре компьютера и ограничивает модель двухмерным распределением тепла по линии, проходящей через чип. В лекции обсуждаются предположения, сделанные для этой модели, и то, насколько она хороша для данного конкретного случая.

  • 00:25:00 В этом разделе докладчик обсуждает моделирование источников тепла и радиаторов в чипе и то, как это можно представить с помощью дифференциальных уравнений в частных производных (УЧП). Они объясняют уравнение теплопроводности, которое представляет собой линейное УЧП второго порядка, и то, как его можно применять для моделирования распределения температуры в чипе. Докладчик также объясняет, как механистические знания из дифференциального уравнения могут быть введены в статистические модели, интерпретируя УЧП как наблюдение неизвестной функции и изображения под дифференциальным оператором. PDE сравнивают с фундаментальными законами физики, которые описывают сохранение фундаментальных величин, таких как энергия и масса.

  • 00:30:00 В этом разделе Марвин Пфертнер обсуждает взаимосвязь между температурой и тепловой энергией и то, как они пропорциональны друг другу через параметры материала. Он поясняет, что каждое изменение тепловой энергии можно объяснить либо известной величиной тепла, поступающего в систему, либо теплом, поступающим в определенную точку из окружающей среды посредством теплопроводности. Затем он вводит информационный оператор как математическое понятие, которое можно использовать для выражения любой части информации, включая дифференциальное уравнение. Далее он объясняет, как априорный гауссовский процесс можно использовать для моделирования неизвестной функции U и как можно вычислить апостериорную вероятность, используя замыкания гауссовских процессов при линейных наблюдениях. Однако, поскольку для решения УЧП требуется бесконечный набор наблюдений, в большинстве случаев это вычислительно невозможно, если не известна аналитическая информация о решаемой задаче.

  • 00:35:00 В этом разделе докладчик обсуждает использование гауссовских процессов (ГП) для решения уравнений в частных производных (УЧП), что аналогично подходу, используемому в обыкновенных дифференциальных уравнениях (ОДУ). GP рассматривается как вероятностная мера в функциональных пространствах, а линейный оператор отображает выборочные пути этого GP в RN. Было обнаружено, что априорное предсказание этого процесса представляет собой нормальное распределение со средним значением, заданным изображением средней функции GP через линейный оператор, а ковариационная матрица очень похожа на ковариационную матрицу, найденную в конечномерном случае. Оказывается, что апостериорная часть этого события на самом деле имеет аналогичную структуру. Докладчик отмечает, что здесь задействовано много теоретических деталей, и необходима осторожность из-за бесконечности, связанной с решением PDE с использованием GP.

  • 00:40:00 В этом разделе Марвин Пфертнер объясняет, как вычислить конкретный выбор линейного оператора и трудности, связанные с его выражением в стандартной нотации линейного оператора. Он также обсуждает, как дифференцировать один аргумент, дифференцировать другой аргумент и построить матрицу всех попарных производных между двумя точками. Затем он говорит о том, как использовать ту же теорему, чтобы применить ее к задаче и вычислить апостериорный гауссовский процесс, и как определить множество точек коллокации.

  • 00:45:00 В этом разделе спикер объясняет, как обобщенная форма вывода гауссовского процесса может решить краевую задачу. Они описывают, как наблюдения могут быть представлены с помощью черной функции, которая соответствует правой части дифференциального уравнения в частных производных (PDE), и как информация, полученная из этого, может быть передана обратно в исходный гауссовский процесс. Степень свободы в УЧП, которую не фиксируют граничные условия, может вызвать неопределенность, но при наложении граничных условий Дирихле апостериорная функция становится обычной задачей регрессии гауссовского процесса, которая работает, если соблюдаются два граничных значения. Докладчик подчеркивает важность учета того, что граничные значения при развертывании обычно неизвестны, и было бы полезно добавить неопределенность как к граничным значениям, так и к распределению источника тепла.

  • 00:50:00 В этом разделе спикер обсуждает более реалистичные граничные условия для уравнений в частных производных. Он утверждает, что тепло отводится равномерно по всей поверхности ЦП, и эту информацию можно смоделировать как граничные условия Неймана, где вместо значения граничной точки задается первая производная граничной точки. Таким образом, мы можем добавить неопределенность в модель и использовать распределение Гаусса для моделирования производной. Для описания этого граничного условия используется оператор дополнительной информации. Далее докладчик объясняет, как абсолютный масштаб системы определяется с помощью термометров внутри ЦП, а также как можно получить неопределенные оценки функции путем моделирования априорного убеждения с использованием другого гауссовского процесса.

  • 00:55:00 В этом разделе Марвин Пфертнер обсуждает, как интегрировать в модель предварительные знания о поведении системы с помощью гауссовских процессов и информационных операторов. Он упоминает, что важно выбрать функцию правой части для модели, интегрируемой до нуля, чтобы избежать непрерывного нагрева системы. Затем Пфертнер переходит к обсуждению проблем, связанных с обеспечением того, чтобы GP имел площадь, равную единице, во всех своих образцах, и как их можно решить, добавив дополнительные ограничения, включая граничные эффекты, которые учитывают тепло, выходящее через границу. Наконец, Пфертнер приходит к выводу, что этот подход GP в сочетании с понятием информационного оператора позволяет нам включать предварительные знания о поведении системы, вводить механистические знания в форме линейного УЧП и обрабатывать граничные условия и правые части.

  • 01:00:00 В этом разделе Марвин Пфертнер обсуждает использование гауссовских процессов для решения уравнений в частных производных (УЧП) путем оценки вероятностной меры по функциям вместо точечной оценки, которая может дать доверительные интервалы и выборки, удовлетворяющие условиям УЧП. . Он объясняет, что этот подход является более честным, поскольку он признает неопределенность в оценке функции правой части УЧП и что его можно применять к 2D-симуляциям, а также к симуляциям, в которых время используется как другое пространственное измерение. Пфертнер отмечает, что апостериорное среднее этого метода при отсутствии неопределенности эквивалентно классическому методу, называемому симметричным словосочетанием. Наконец, он объясняет, что другие методы решения УЧП, такие как метод взвешенных невязок, методы конечного объема и спектральные методы, также могут быть реализованы как апостериорные средние гауссовского процесса, только без количественной оценки неопределенности.

  • 01:05:00 В этом разделе спикер объясняет, как гауссовские процессы (ГП) можно использовать для решения линейных дифференциальных уравнений в частных производных (УЧП), а также реализовать регрессию для оценки функции. Они подчеркивают важность выбора правильных функций и до начала работы, а также преимущества количественного определения неопределенности. Докладчик также отмечает случаи отказа, например, когда выборочные пути GP не дифференцируемы, и необходимость проверки важных условий, чтобы сделать все строгим. Раздел завершается тизером предстоящей публикации группы докладчика, в которой будут подробно рассмотрены формальные детали этих теорем.

  • 01:10:00 В этом разделе спикер обсуждает, как гауссовские процессы (ГП) определяются и используются для моделирования неизвестных функций. GP представляют собой наборы действительных случайных величин, по одной для каждой точки в их области. Они используются для представления функций, но мы знаем только конечную комбинацию оценок GP. Чтобы получить пробный путь GP, нам нужно постоянно пробовать функцию, исправляя омегу и преобразовывая ее через все функции. Мы гарантируем, что образцы путей достаточно дифференцируемы, чтобы убедиться, что они определены. Кроме того, чтобы вычислить LF, образ GP при линейном операторе L, мы фиксируем омегу и применяем L к соответствующей функции.

  • 01:15:00 В этом разделе спикер объясняет, как образец пути может быть отображен с помощью линейного оператора для создания бесконечномерного объекта, называемого GP, который позже превращается в случайную величину, которую необходимо измерить. Они отмечают, что выборочные пути GPS превращаются в воспроизводящее ядро гильбертова пространства путем выбора соответствующего ядра, однако воспроизводящее ядро хиббертова пространства фактического ядра GP представляет собой не пространство, из которого поступают выборки, а большее пространство. необходимо выбрать, в котором эти образцы содержатся. Докладчик продолжает обсуждение ядра Матерна, которое полезно на практике и может управлять дифференцируемостью GP, и приводит формулу для вычисления параметра P для ядра Матерна, которая может помочь обобщить процесс.

  • 01:20:00 В этом разделе спикер объясняет, как построить d-мерное ядро для уравнений в частных производных (УЧП), взяв произведения одномерных ядер Матерна по измерениям, особенно если есть смешанные порядки производных. Это помогает адаптироваться к конкретному уравнению, которое пытаются решить пользователи. Кроме того, GPS предоставляет основу для объединения различных источников информации в единую регрессионную модель с использованием аффинных информационных операторов. Докладчик подчеркивает важность математической осторожности при построении модели, особенно при построении априорного уравнения для конкретного уравнения.
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
  • 2023.01.24
  • www.youtube.com
The eigth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 9 -- Монте-Карло -- Филипп Хенниг



Numerics of ML 9 -- Монте-Карло -- Филипп Хенниг

В этом видео на тему Монте-Карло Филипп Хенниг объясняет, почему интеграция является фундаментальной проблемой машинного обучения, когда речь идет о байесовском выводе с использованием теоремы Байеса. Он представляет алгоритм Монте-Карло как особый способ интегрирования и дает краткую историю метода. Он также обсуждает свойства алгоритмов Монте-Карло, такие как несмещенная оценка и уменьшение дисперсии с увеличением количества выборок. Кроме того, Хенниг углубляется в алгоритм Метрополиса-Гастингса, цепь Маркова Монте-Карло и гамильтониан Монте-Карло, предоставляя обзор свойств каждого алгоритма и того, как они работают при выборке из распределения вероятностей. В конечном счете, Хенниг отмечает важность понимания того, почему используются алгоритмы, а не слепого их применения, для достижения оптимальных и эффективных результатов.

Во второй части видео Филипп Хенниг обсуждает методы Монте-Карло для многомерных распределений, в частности алгоритм No U-turn Sampler (NUTS), который преодолевает проблему с идеей U-turn, нарушающей детальный баланс. Хенниг подчеркивает, что хотя эти алгоритмы сложны и сложны в реализации, их понимание имеет решающее значение для их эффективного использования. Он также ставит под сомнение рефлекторный подход к вычислению ожидаемых значений с использованием методов Монте-Карло и предполагает, что могут быть другие способы аппроксимации без случайности. Хенниг обсуждает концепцию и ограничения случайности, отсутствие скорости сходимости для методов Монте-Карло и предлагает рассмотреть другие методы машинного обучения, а не полагаться на детерминированную случайность.

  • 00:00:00 В этом разделе инструктор знакомит с темой интеграции, которая является фундаментальной проблемой машинного обучения при выполнении байесовского вывода для вычисления апостериорных условных распределений с использованием теоремы Байеса. Он объясняет, что этот процесс содержит интеграл, который представляет маргинал, вычисляемый как ожидаемое значение некоторого условного распределения. Преподаватель подчеркивает важность знания того, как правильно выполнять интеграцию, и представляет алгоритм Монте-Карло как один из конкретных способов выполнения интеграции. Он дает краткую историю Монте-Карло и размышляет о том, почему важно понимать, почему используются алгоритмы, а не просто применять их вслепую.

  • 00:05:00 В этом разделе Филипп Хенниг обсуждает историю о том, как моделирование Монте-Карло было разработано для помощи в разработке ядерной бомбы еще в 1940-х годах. Проблема заключалась в оптимизации геометрии для получения взрыва, и решение заключалось в использовании моделирования методом Монте-Карло для аппроксимации интегралов суммами. Для этой цели был изобретен аналоговый компьютер Ферми, который состоит из двух колес и ручки для моделирования траектории нейтрона с использованием случайных чисел, взятых из кубика. Хотя этот процесс кажется простым, этот метод был первым шагом к разработке моделирования методом Монте-Карло для различных месторождений.

  • 00:10:00 В этом разделе объясняется концепция моделирования методом Монте-Карло как способа оценки ожидаемого значения путем замены интеграла суммой оценок функции в точках, взятых из распределения. Это несмещенная оценка с дисперсией, которая уменьшается по мере увеличения количества выборок, что приводит к ошибке, которая падает как единица на квадратный корень из числа выборок. В то время как статистики утверждают, что это оптимальная скорость для несмещенных оценок, математики считают эту скорость довольно низкой, при этом предпочтительными являются полиномиальные скорости. Однако у этого метода есть свои преимущества, такие как отсутствие размерности, поскольку дисперсия не зависит от размерности основного распределения.

  • 00:15:00 В этом разделе Филипп Хенниг обращается к дебатам, связанным с размерностью задачи Монте-Карло. Хотя существует дисперсия f под p, которая может быть связана с размерностью задачи, аргумент состоит в том, что она не зависит от размерности. Однако в некоторых структурированных задачах дисперсия может экспоненциально быстро увеличиваться в зависимости от размерности. Тем не менее, наиболее интересные приложения выборки методом Монте-Карло нечувствительны к размерности задачи, что позволяет решать задачи высокой размерности. Хенниг также обсуждает классический пример вычисления Пи с использованием выборки Монте-Карло, где она сходится к истине со скоростью, определяемой обратным квадратным корнем из числа выборок.

  • 00:20:00 В этом разделе Филипп Хенниг обсуждает методы Монте-Карло для аппроксимации интегралов. Он объясняет, как работает этот метод, беря большое количество выборок из распределения и вычисляя ожидаемое значение при этих симуляциях. Это может быть хорошим решением, когда нужна грубая оценка, но нецелесообразно для очень точных ответов. Хенниг также говорит о способах построения выборок из распределений, с которыми трудно работать, таких как выборка отклонения и важная выборка, но отмечает, что эти методы плохо масштабируются в больших размерностях.

  • 00:25:00 В этом разделе обсуждается идея генерации случайных величин на основе многомерного распределения. Стандартный метод для этого называется цепью Маркова Монте-Карло, который основан на структуре, которая итеративно продвигается вперед с конечной памятью. Одним из методов этого типа является алгоритм Метрополиса Гастингса, который включает в себя построение цепи Маркова и переход в новое место с использованием предлагаемого распределения и соотношения между взятым распределением и предлагаемым распределением. Этот алгоритм был изобретен группой физиков-ядерщиков в 1950-х годах, которые работали над оптимизацией геометрии ядерного оружия, и до сих пор широко используется.

  • 00:30:00 В этом разделе Филипп Хенниг обсуждает алгоритм Метрополиса-Гастингса, который представляет собой разновидность алгоритма Монте-Карло с цепями Маркова, используемого для выборки из распределения вероятностей. Он демонстрирует, как алгоритм генерирует точки, извлекая из распределения предложений и принимая или отклоняя их в зависимости от плотности их вероятности. Хенниг также подчеркивает важность использования правильно адаптированного распределения предложений для эффективного изучения выборочного распределения. Алгоритм Метрополиса-Гастингса обладает двумя важными свойствами: детальным балансом и эргодичностью, которые гарантируют, что процесс работы алгоритма в течение длительного времени дает стационарное распределение, заданное выбранным распределением.

  • 00:35:00 В этом разделе Филипп Хенниг обсуждает свойства алгоритмов, которые имеют по крайней мере одно стационарное распределение, то есть последовательность, которая является апериодической и имеет положительную повторяемость, что означает, что существует ненулевая вероятность вернуться к этой точке в будущая точка. Алгоритм не должен иметь структуру, из-за которой он может застрять в другом стационарном распределении. Например, Metropolis Hastings — это алгоритм, удовлетворяющий этим двум свойствам. Однако он имеет худшую скорость по сравнению с простым Монте-Карло и может иметь локальные случайные рабочие характеристики. Количество эффективных выборок, полученных алгоритмом, как-то связано с длиной свободного шага на автостраде или длиной свободного времени между двумя выборками на совершенно противоположных концах распределения.

  • 00:40:00 В этом разделе спикер обсуждает методы Монте-Карло и способы их оценки. Он объясняет, что для перемещения от одного конца распределения к другому необходимо использовать большое количество шагов, пропорциональных квадрату отношения между большими и малыми масштабами длины, что приводит к скорости сходимости, которая по-прежнему равна o квадратного корня. t, но с огромным множителем впереди. Он заявляет, что проблема Монте-Карло заключается в том, что если вы просто смотрите на статистику этих синих точек, не зная, какова форма распределения и не имея красных точек в качестве ориентиров, не совсем очевидно, как вы заметите, что это в этом дело. Наконец, он говорит о гамильтониане Монте-Карло, который, как он утверждает, является «атомом» цепи Маркова Монте-Карло и представляет собой общий алгоритм, используемый для извлечения из распределения вероятностей P x.

  • 00:45:00 В этом разделе Филипп Хенниг объясняет концепцию гамильтониана Монте-Карло (ГМК), метода, используемого для получения выборок из распределения вероятностей. В HMC количество переменных удваивается, при этом новая переменная представляет импульс существующей переменной. Затем переменная импульса эволюционирует в соответствии с функцией, которая определяет обыкновенное дифференциальное уравнение, где H представляет энергию, а K представляет кинетическую энергию. Производная по времени от X определяется как частная производная от H по P, а производная по времени от P определяется как минус частная производная от H по X. Если алгоритму удается получить выборки из совместного распределения по X и P, он незначительно опирается на распределение по X.

  • 00:50:00 В этом разделе Филипп Хенниг обсуждает реализацию решателя обыкновенных дифференциальных уравнений (ОДУ) для производной вероятности данного состояния с использованием метода Хойна, который имеет скорость сходимости второго порядка. Затем он сравнивает это с использованием программной библиотеки и показывает, как решатель моделирует динамику гамильтоновой системы, которая представляет собой частицу массы 1, движущуюся в потенциале, заданном логарифмом формы, что в конечном итоге дает хорошие выборки. Хотя для имитации требуется несколько постоянное количество шагов, Хенниг отмечает, что схема Метрополиса-Гастингса всегда допускает, и алгоритм делает шаги, которые не перемещаются на расстояние, заданное масштабами большой длины по квадрату шкалы малой длины, но без квадратный корень, что в конечном итоге делает его более эффективным алгоритмом.

  • 00:55:00 В этом разделе Филипп Хенниг объясняет, как работает алгоритм Гамильтона Монте-Карло. Этот алгоритм основан на совместном распределении по X и P на одной линии постоянного потенциала. Потенциальная линия выбирается по начальному импульсу, и на каждом шаге импульс изменяется, чтобы перейти к другой потенциальной линии. Хенниг сравнивает алгоритм с задачей оптимизации и отмечает, что у него есть два параметра, называемые шагами LeapFrog и дельта T, которые должны быть правильно выбраны для эффективной работы алгоритма. Если параметры установлены неправильно, симуляция может тратить вычислительные ресурсы впустую, перемещаясь вперед и назад, фактически никуда не перемещаясь.

  • 01:00:00 В этом разделе Филипп Хенниг обсуждает идею разворота и алгоритма No U-turn Sampler (NUTS) в методах Монте-Карло для многомерных распределений. Проблема с идеей разворота в том, что она нарушает детализированный баланс и заставляет алгоритм двигаться в сторону и не возвращаться. Алгоритм NUTS преодолевает это, запуская две цепи Маркова в противоположных направлениях и ожидая, пока одна из них не начнет вращаться, а затем случайным образом выбирает одну. Это удовлетворяет детальному балансу и является ключевым компонентом многих алгоритмов Монте-Карло с цепями Маркова. Хенниг подчеркивает, что хотя эти алгоритмы сложны и сложны в реализации, их понимание имеет решающее значение для их эффективного использования.

  • 01:05:00 В этом разделе докладчик обсуждает рефлекторный подход к вычислению ожидаемых значений в байесовском выводе с использованием методов Монте-Карло, а также подчеркивает низкую скорость сходимости и необходимость в объективных оценках. Однако выступающий ставит под сомнение в первую очередь необходимость в беспристрастных оценках и случайности и предполагает, что могут быть другие способы аппроксимации интересующей величины без случайности. Докладчик также затрагивает концепцию случайности и ее связь с последовательностями и конечными последовательностями, вычисляемыми на машине Тьюринга.

  • 01:10:00 В этом разделе Филипп Хенниг обсуждает концепцию случайности в различных последовательностях чисел. Он утверждает, что некоторые последовательности, например те, которые выпадают при игре в кости, в культурном отношении считаются случайными, хотя на самом деле они не являются случайными. С другой стороны, иррациональные числа, такие как пи, неслучайны, но также не имеют структуры. Кроме того, Хенниг объясняет, как начальное число может изменить случайность последовательности, создаваемой генератором случайных чисел. Наконец, он обсуждает, как физические машины, которые производили случайные числа, были проверены на случайность, но в конечном итоге не прошли тесты «Крепкий орешек» на случайность.

  • 01:15:00 В этом разделе Филипп Хенниг обсуждает случайность и то, как она связана с машинным обучением, в частности с методами Монте-Карло. Он объясняет, что случайность связана с недостатком информации, поэтому она применима в таких областях, как криптография, где важно, чтобы кто-то что-то знал. Для видов случайных чисел, используемых в современном машинном обучении, говорить об этом недостатке информации ошибочно. При использовании метода Монте-Карло авторы научных статей, которые полагаются на методы Монте-Карло, часто скрывают информацию от своих зрителей. Они используют его, потому что его легко использовать и реализовать, а не потому, что он предвзят.

  • 01:20:00 В этом разделе Филипп Хенниг объясняет, как работает цепь Маркова Монте-Карло (MCMC) и что она относительно хорошо работает для задач высокой размерности, хотя мы не знаем скорости сходимости для нее. MCMC — единственный алгоритм, для которого у нас есть теоретические гарантии, основанные на использовании случайных чисел, но считается, что выборки, полученные с помощью этого подхода, полезны в отсутствие других методов для сравнения. Хенниг также обсуждает, что MCMC в основе своей очень медленный и трудоемкий и что могут быть лучшие способы аппроксимации интегралов. Он предупреждает, что алгоритмы, которые они рассмотрят на следующей неделе, обычно будут работать только для задач низкой размерности, и предлагает рассмотреть другие методы машинного обучения, а не полагаться на детерминированную случайность.
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The ninth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Лекция 10 -- Байесовская квадратура -- Филипп Хенниг



Numerics of ML 10 -- Байесовская квадратура -- Филипп Хенниг

В этом видео Филипп Хенниг обсуждает байесовскую квадратуру как эффективный метод решения вычислительной задачи интеграции в машинном обучении. Он объясняет, как функция с действительным знаком может быть однозначно идентифицирована, но трудно ответить на вопросы напрямую. Байесовская квадратура - это метод вывода, который рассматривает проблему нахождения интеграла как проблему вывода, устанавливая априорную оценку неизвестного объекта и величин, которые можно вычислить, а затем выполняет байесовский вывод. Хенниг также сравнивает этот подход с отклонением Монте-Карло и выборкой по важности, показывая, как байесовская квадратура может превзойти классические квадратурные правила. В лекции рассматривается алгоритм фильтра Калмана для байесовской квадратуры и его связь с классическими алгоритмами интегрирования, а также обсуждение использования оценок неопределенности в численных методах. Наконец, Хенниг исследует, как социальная структура численных вычислений влияет на разработку алгоритмов, обсуждает метод разработки вычислительных методов для конкретных задач и то, как вероятностное машинное обучение может оценивать ошибку в режиме реального времени.

Во второй части видео Филипп Хенниг обсуждает байесовскую квадратуру, которая включает в себя наложение априорных распределений на интересующие нас величины, такие как интегралы и значения алгоритмов, для вычисления чего-либо в байесовском стиле. Метод присваивает как апостериорную оценку, так и оценку неопределенности вокруг оценок, которые можно идентифицировать с помощью классических методов. Хенниг объясняет, как алгоритм адаптируется к наблюдаемой функции и использует процедуру активного обучения, чтобы определить, где оценивать дальше. Этот алгоритм может работать в более высоких измерениях и имеет нетривиально умные скорости сходимости. Он также обсуждает ограничения классических алгоритмов и квадратурных правил и предлагает обходной путь с помощью адаптивного мышления.

  • 00:00:00 В этом разделе Филипп Хенниг обсуждает вычислительную проблему интеграции в машинном обучении, уделяя особое внимание байесовской квадратуре как эффективному методу. Он описывает вещественную функцию f от x, которая является произведением двух функций, X минус квадрат синуса 3x и X минус квадрат x, и может быть однозначно идентифицирована путем записи набора символов. Хенниг объясняет, что, хотя мы знаем об этой функции все, трудно ответить прямо на каждый вопрос о ней, например, на значение определенного интеграла от минус трех до плюс 3 по этой функции, чего нельзя найти в книгах, полных интегралов или новая библиотека Си.

  • 00:05:00 В этом разделе Филипп Хенниг обсуждает байесовскую квадратуру, метод логического вывода, который рассматривает проблему нахождения интеграла как задачу логического вывода, помещая априорные значения неизвестного объекта и величин, которые можно вычислить, а затем выполняет байесовскую квадратуру. вывод. Ставя априор, мы начинаем с конечной неопределенности, что приводит к узкому диапазону возможных результатов вычислений, что делает его типичным для вычислений. Этот подход контрастирует с отклонением Монте-Карло и выборкой по важности, которые менее эффективны. Расчетную функцию можно изобразить как функцию числа, предполагая, что байесовская квадратура является подходящим вариантом для решения интегралов.

  • 00:10:00 В этом разделе выступления Филиппа Хеннига он обсуждает байесовскую квадратуру как способ оценки интеграла функции с помощью вероятностного машинного обучения. Он сравнивает этот подход с методом Монте-Карло и объясняет, что гауссовский процесс используется в качестве априорной функции. Оценивая функцию при определенных значениях x, мы можем оценить скрытую переменную, которая является интегралом функции. Хенниг также показывает, как этот подход может превзойти классические квадратурные правила.

  • 00:15:00 В этом разделе Филипп Хенниг объясняет, как вычислять интегралы по ядру, чтобы аппроксимировать интегралы по любой функции, которую мы пытаемся изучить. Выбрав априорную функцию среднего и априорную ковариационную функцию, мы можем включить задачу вычисления интеграла в гильбертово пространство воспроизводящего ядра. Путем вычислений, включающих оценку функции в различных точках, мы получаем вложение среднего значения ядра, которое включает вычисление интегралов по ядру. Следовательно, мы должны выбирать ядра, для которых мы можем вычислять интегралы в замкнутой форме, и Хенниг выбирает в качестве примера ядро процесса Вайнера.

  • 00:20:00 В этом разделе Филипп Хенниг обсуждает процесс байесовской квадратуры. Этот процесс включает в себя использование априорного процесса Вино, асимметричного и нестационарного гауссовского процесса и обусловливание набора значений функции для получения положительного гауссовского процесса. Используя этот процесс, можно достичь гораздо лучшего результата, чем интегрирование по методу Монте-Карло. Например, для достижения относительной ошибки 10^-7 байесовской квадратуре потребуется менее 200 оценок, а для интеграции методом Монте-Карло потребуется более 10^11 оценок.

  • 00:25:00 В этом разделе спикер обсуждает скорость байесовской квадратуры по сравнению с моделированием методом Монте-Карло. В то время как моделирование Монте-Карло дешево и легко реализовать, байесовская квадратура также относительно быстра и может быть реализована как фильтр Калмана, что делает возможным использование в моделях машинного обучения. Докладчик объясняет линейную карту между двумя состояниями процесса и то, как она может кодировать интегрирование, позволяя дискретизировать стохастическое дифференциальное уравнение и вычислять обновления интеграла. Затем лекция переходит к более подробному обсуждению свойств байесовской квадратуры.

  • 00:30:00 В этом разделе докладчик представляет алгоритм фильтра Калмана для байесовских квадратур для вычисления интегралов функции. Алгоритм включает в себя определение матриц A и Q для представления детерминированной и стохастической частей линейной стационарной системы, а также H и R для представления модели наблюдения. Апостериорное среднее представляет собой взвешенную сумму функций ядра, а фильтр Калмана обновляет оценку интеграла, при этом неопределенность интеграла увеличивается с увеличением длины шага в кубе. Алгоритм выполняется за линейное время, а апостериорное среднее представляет собой кусочно-линейную функцию, которая интерполирует значения функции. Оценка интеграла представляет собой сумму средних значений в каждом блоке.

  • 00:35:00 В этом разделе Хенниг объясняет концепцию байесовской квадратуры и ее связь с правилом трапеций, которое является классическим алгоритмом интегрирования. Он отмечает, что правило трапеций можно рассматривать как апостериорное среднее сложной схемы вывода гауссовского процесса, и что это конкретное понимание является важным и распространенным результатом. Далее Хенниг обсуждает, как различные классические алгоритмы, будь то для численных вычислений, оптимизации, линейной алгебры или решения дифференциальных уравнений, связаны с байесовскими апостериорными оценками. Кроме того, он подчеркивает, что численные вычисления следует рассматривать как вывод Гаусса, поскольку они включают оценки числовых величин с неопределенностью методом наименьших квадратов, и предполагает, что использование оценок неопределенности может быть выгодным при работе с численными методами.

  • 00:40:00 В этом разделе Филипп Хенниг обсуждает аспект принятия решений в численных алгоритмах и то, чем он похож на алгоритм ИИ, поскольку он решает, какие вычисления выполнять. Возникает один вопрос: куда ставить оценочные баллы, и ответ на него можно найти в задачах байесовского вывода. Определив распределение вероятностей так, чтобы оно сходилось к определенности, мы можем найти величину, описывающую определенность или неопределенность, и манипулировать ею. Для дисперсии возможного распределения по интегралу цель состоит в том, чтобы минимизировать ее, что можно сделать, установив все дельта J равными дельте n минус один, что указывает на регулярную сетку узлов интегрирования. Кроме того, обсуждается необходимость наличия узлов интеграции на обоих концах домена интеграции.

  • 00:45:00 В этом разделе спикер объясняет, как можно использовать алгоритм байесовской квадратуры для получения схемы размещения узлов оценки на основе априорного гауссовского процесса. Алгоритм может предоставлять различные конструкции в зависимости от используемого априора, а узлы оценки могут быть выбраны в соответствии с простой политикой максимального прироста информации. Правило трапеций можно рассматривать как байесовскую оценку, где апостериорное среднее является оценкой пациента, которая возникает в результате определенного гауссовского процесса, предшествующего подынтегральной функции. Алгоритм обеспечивает оценку ошибки, но эта оценка неточна, и существует значительный разрыв между фактической и предполагаемой ошибкой. Однако правило трапеций существует уже сотни лет, и алгоритм не обязательно ошибочен. Правило трапеций может иметь некоторые свойства, которые необходимо подвергнуть сомнению.

  • 00:50:00 В этом разделе Филипп Хенниг обсуждает оценки дисперсии и их связь с байесовской квадратурой. Он объясняет, что оценка ошибки — это стандартное отклонение, которое представляет собой квадратный корень из ожидаемой квадратной ошибки. Использование постоянного размера шага упрощает вычисление суммы, поскольку в сумме нет буквы «i». Теорема утверждает, что скорость сходимости для этого правила трапеций составляет O из 1 на N в квадрате. Однако в математике есть скрытые предположения. Примерные пути, взятые из винеровского процесса, имеют чрезвычайно грубое поведение, поскольку они почти везде недифференцируемы, что делает предположение об априорном недействительным.

  • 00:55:00 В этом разделе Филипп Хенниг обсуждает проблему интегрирования грубых недифференцируемых функций с помощью численных алгоритмов. Он объясняет, что алгоритмы, предназначенные для работы со сверхгрубыми функциями, такими как правило трапеций, могут быть не такими эффективными, как могли бы быть, если бы интегрируемая ими функция была намного более гладкой. Хенниг предполагает, что социальная структура численных вычислений, когда алгоритмы предназначены для работы с большим классом задач, может привести к чрезмерно общим методам, которые не особенно хорошо работают ни с одной из них. Однако он отмечает, что можно разработать вычислительный метод для конкретной задачи, если она достаточно важна, как только вы поймете, как работают эти алгоритмы. Он также обсуждает, как можно оценить масштаб ошибки в алгоритме во время его работы, используя идеи вероятностного машинного обучения.

  • 01:00:00 В этом разделе Филипп Хенниг обсуждает, как оценить масштаб неизвестной константы в ковариационной матрице с учетом некоторых данных, и вводит понятие сопряженных априорных значений. Он объясняет, что для экспоненциальных распределений вероятностей семейства всегда существует сопряженный априор, такой как гамма-априор, который можно использовать для оценки дисперсии гауссовского распределения. Хенниг рассказывает историю Уильяма Ли Госсета, который придумал этот метод, работая пивоваром в Гиннессе, и ему пришлось оценивать распределение образцов из пивной бочки. Этот метод включает в себя умножение априорной вероятности и вероятности вместе и нормализацию результатов для получения той же алгебраической формы, что и гамма-распределение, с новыми параметрами, основанными на наблюдениях или значениях функции.

  • 01:05:00 В этом разделе Филипп Хенниг объясняет, как оценить апостериорную концентрацию параметра и распределение Т Стьюдента. Этот метод называется байесовской квадратурой, где шкала начинается широкой и становится более концентрированной по мере сбора большего количества наблюдений. Результаты показаны на графике, где изначально распределение сокращается после увеличения количества наблюдений. Хенниг указывает, что предыдущие предположения об этой гладкой функции слишком консервативны для этой задачи, и есть гораздо более умные алгоритмы интегрирования, такие как квадратура Гаусса с наборами признаков, которые расширяются с помощью полиномов Лежандра, которые работают очень хорошо.

  • 01:10:00 В этом разделе Хенниг обсуждает байесовские квадратуры, которые являются классическим способом вычисления интегралов в ограниченных областях, таких как наша область от -1 до 1. Он объясняет, что существуют соответствующие квадратурные правила, которые сходятся очень быстро, с суперполиномиальный вес сходимости, но это работает только для действительно гладких функций. Зеленая линия на правом графике также может соответствовать некоторой апостериорной средней оценке при определенных видах априорных предположений Гаусса. Хотя результат этой статьи в основном связан с теоретическим интересом к выяснению взаимосвязи между двумя различными подходами к численному интегрированию, существуют классические алгоритмы, которые очень хороши для такого рода задач и имеют множество структур с различными базами для различных видов вычислений. проблемы с интеграцией. Эти квадратурные правила аппроксимируют интеграл, предполагая, что его можно записать в определенной форме с использованием ортогональных многочленов и весовой функции, и существуют определенные варианты для Phi в зависимости от W и области интегрирования.

  • 01:15:00 В этом разделе докладчик обсуждает различные типы многочленов Чебышева и их использование при вычислении числовых интегралов для функций одной переменной. Докладчик также объясняет, почему важно учитывать область интегрирования, форму функции и априор при указании априорного значения для правила вывода пациента. Докладчик отмечает, что классические алгоритмы интегрирования и квадратурные правила можно рассматривать как некоторую форму оценки апостериорного среднего по Гауссу, и выбор, сделанный этими алгоритмами, может быть мотивирован аргументами теории информации. В заключение выступающий заявляет, что, хотя классические квадратурные правила хорошо работают для одномерных интегралов, задачи более высокой размерности требуют более сложных подходов, таких как алгоритмы Монте-Карло.

  • 01:20:00 В этом разделе спикер обсуждает ограничения методов, показанных в предыдущем разделе, когда речь идет о масштабировании размерности. Эти методы имеют тенденцию к экспоненциальному падению производительности, потому что необходимо создать сетку оценок, а это означает, что они должны покрывать область точками. Это проблематично, потому что гауссовы процессы используются в качестве априорных, а их апостериорная неопределенность не зависит от увиденных чисел, а только там, где были сделаны оценки. В результате эти методы интеграции неадаптивны, что ограничивает их масштабируемость в более высоких измерениях. Чтобы преодолеть эту проблему, необходимы новые алгоритмы, которые могут рассуждать о том, что некоторые точки более информативны, чем другие, посредством адаптивных рассуждений.

  • 01:25:00 В этом разделе Филипп Хенниг обсуждает ограничения гауссовых процессов для кодирования неотрицательных значений и предлагает обходной путь, определяя новую функцию, которая возводит фактическую функцию в квадрат. Результирующее распределение не является гауссовым и аппроксимируется стохастическим процессом, который может быть аппроксимирован гауссовским процессом. Полученный алгоритм называется Wasabi, что означает деформационно-последовательную активную байесовскую интеграцию. Это вероятностная формулировка, которая адаптивно добавляет неопределенность там, где ожидаются большие значения функции, что позволяет строить приближенные численные алгоритмы. Функция полезности, выделенная синим цветом, представляет собой апостериорную неопределенность значений функции.

  • 01:30:00 В этом разделе Филипп Хенниг обсуждает концепцию байесовской квадратуры — алгоритма численного интегрирования. Хенниг объясняет, как алгоритм адаптируется к наблюдаемой функции и использует процедуру активного обучения, чтобы определить, где оценивать дальше. Этот алгоритм может работать в более высоких измерениях и имеет нетривиально умные скорости сходимости. Хенниг также сравнивает этот алгоритм с алгоритмами Монте-Карло и утверждает, что предварительное знание может улучшить производительность алгоритма. Более того, он намекает на возможность еще лучшего алгоритма помимо Монте-Карло, который будет обсуждаться после Рождества.

  • 01:35:00 В этом разделе Филипп Хенниг обсуждает байесовскую квадратуру, которая включает в себя априорное распределение по интересующим нас величинам, таким как интегралы и значения алгоритмов, для вычисления чего-либо в байесовском стиле. Метод присваивает как апостериорную оценку, так и оценку неопределенности вокруг оценок, которые можно идентифицировать с помощью классических методов. Если оценки ошибок плохие, это не обязательно означает, что вероятностный взгляд на вычисления неверен, а скорее плохой набор предыдущих предположений. Используя больше предварительных знаний и рассматривая численные алгоритмы как автономные агенты, мы можем извлечь больше информации и сделать алгоритмы быстрее и лучше работать.
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The tenth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...