交易中的机器学习:理论、模型、实践和算法交易 - 页 1980

 
Valeriy Yastremskiy:
记忆是如何组织的?

取决于哪里

如果你能理解,我等待你的解释 :)

http://peterbloem.nl/blog/transformers

Transformers from scratch
  • peterbloem.nl
I will assume a basic understanding of neural networks and backpropagation. If you’d like to brush up, this lecture will give you the basics of neural networks and this one will explain how these principles are applied in modern deep learning systems. Self-attention The fundamental operation of any transformer architecture is the self-attention...
 

大家好,我没有把视频直接发到论坛主题上,而是发到了我的博客上。对那些真正对市场感兴趣的人来说,警告非规范性语言...

https://www.mql5.com/ru/blogs/post/739164

Говорим и показываем о рынке
Говорим и показываем о рынке
  • www.mql5.com
Оказывается пьяным меня смотреть ещё интересней. ВНИМАНИЕ в видео используется не нормативная лексика так что уберите детей от экрана телевизора. Ну и говорим собственно о рынке
 
Mihail Marchukajtes:

大家好,我没有把视频直接发到论坛主题上,而是发到了我的博客上。对那些真正对市场感兴趣的人来说,警告非规范性语言...

https://www.mql5.com/ru/blogs/post/739164

还有一个直接提到你的地方,Maxim!!!!!
 
马克西姆-德米特里耶夫斯基

我以前只在森林里徘徊过,没有用过HH-ki.....

我也没有...因此,我说的是一个框图,这样至少可以在图像的层面上了解它是如何工作的

 
mytarmailS:

是的,我也是...这就是为什么我在谈论框图的原因,这样至少可以在图像的层面上了解事物的工作原理

我花了两天时间试图弄清楚什么是同位素层

而事实证明,这只是一个原始的自动编码器。

弗拉基米尔在文章中提到了他们
 
Maxim Dmitrievsky:

取决于哪里

如果你能理解,我期待着解释 :)

http://peterbloem.nl/blog/transformers

我不能创造的东西我不明白,这就是费曼所说的。

乘法比加法好,符号被考虑到了。一般来说,说参数和结果的作品是东西)一个单一的会计函数。

查询、键和值的组织方式不是很清楚。

主要的区别是伪并行处理和访问训练过的数据以及输入和输出结果向量的标量乘积,称为自知之明。然后将这些标量产品的矩阵用于训练。而且它不是重量级的。

我在文章中找不到任何关于长期记忆的信息。

一般来说,会建立额外的矩阵来校正结果。

我并不假装能正确理解))))。

 
Valeriy Yastremskiy:

我不能创造的东西,我不明白,这就是费曼说的。

乘法比加法好,符号被考虑到了。一般来说,说参数和结果的作品是东西)一个单一的会计函数。

查询、键和值并不十分了解它们是如何组织的。

主要的区别是伪并行处理和访问训练过的数据以及输入和输出结果向量的标量乘积,称为自知之明。然后将这些标量产品的矩阵用于训练。而且它不是重量级的。

我在文章中找不到任何关于长期记忆的信息。

一般来说,会建立额外的矩阵来校正结果。

我并不假装能正确理解它))))

这是另一种算法(就像现在最酷的算法),其中没有像lstm那样的长短记忆的定义。

长话短说,只是想看看LSTM电池是如何工作的。

 
Maxim Dmitrievsky:

我花了两天时间试图弄清楚什么是同位素层(VQ)。

而事实证明,这只是一个原始的自动编码器。

弗拉基米尔在文章中提到了他们

弗拉基米尔专门写了关于VQ的文章 ? 还是仅仅是 ?

记忆力如何? 它是如何工作的?它是固定的还是在窗口中运行的(如指标),它是静态的还是重新训练的?

我想知道是否有可能用脚手架做同样的事情?

我有一百万个问题))))

 
Maxim Dmitrievsky:

这是一个不同的算法(就像现在最酷的算法),没有像lstm那样的长短记忆的定义,我认为

关于长和短,只是想看看LSTM电池是如何工作的。

啊,那就有了自我意识和资源的时代理解。一般来说,扩展网络架构只是将其性能提高到一定限度。在这里,我通过各种逻辑的组合来理解网络的复杂性,然后对其进行扩展))。因此

变换器学习的瓶颈是自我意识的标量产品的矩阵。对于序列长度 t ,它是一个包含 t平方 元素的密集矩阵。在标准的32位精度和 t= 1000 ,一批16个这样的矩阵需要大约250MB的内存。由于我们需要至少四个(softmax之前和之后,加上它们的梯度)来进行单一的自我成像操作,这限制了我们在一个标准的GPU中最多只能有12个层,而BREAKS 12 GB。

 
Maxim Dmitrievsky:

你必须做大量的研究和思考才能理解...

你可能不得不购买脑部维生素,少喝水)

我还没有搞清楚)。但这并不像看起来那么难。

所以我们又回到了通常的流程图,你必须先把它编好,这样你就有了一个图像级别的理解......

像-

首先是分类器(它做这个和那个)

然后我们将分类器 连接到输出(它做这个和那个)

然后计算一些东西(它做这个和那个)。

输出端再次连接到Casterizer

等...


如果你直接阅读复杂的新闻,而你甚至不知道这些术语,你会得到什么?

你必须了解算法的基本原理,特别是在块方案的层面上,正如我所指出的那样。然后你就会明白什么是什么,什么是什么,当你明白了,你就会明白你可以改进什么和如何改进。