트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2812

 
Maxim Dmitrievsky #:

1년 전 제가 RL 알고리즘을 작성할 때 여기서 논의한 적이 있습니다.

저는 아직 돌아가고 싶지 않고, 지금도 돌아가고 싶지 않습니다.
저는 레이블의 입장이 아니라 에이전트 행동에 대한 매우 복잡하고 세부적인 정책의 입장에 서 있습니다.
 
mytarmailS #:
저는 레이블의 입장이 아니라 예를 들어 상담원의 행동에 대한 매우 복잡한 다단계 정책의 입장에서 이야기하고 있습니다.
한 상태에서 다른 상태로 전환하는 방향이 테이블에 최적화되어 있는 표 형식의 RL을 정책이라고 혼동하고 계십니다. 이러한 테이블은 나중에 신경망으로 대체되었습니다. 예를 들어 게임에서처럼 에이전트의 상태가 많은 경우입니다. 매수/매도 상태가 2~3개뿐인 경우 등이 이에 해당합니다. 그런 다음 수익성 조건이 있는 거래를 샘플링하는 등 보상 함수를 통해 이러한 상태로의 전환을 최적화하고, 정책은 NS를 통해 최적화됩니다. 정책은 환경과 전환하려는 상태 사이의 관계입니다. 예를 들어, 지표 값과 거래 방향의 관계입니다.

NS가 이미 모든 것을 근사화하고 작업의 오류를 표시했을 때 테이블을 통해 100500개의 전환을 멀티 패스로 만드는 것은 의미가 없습니다. 먼저 점프한 다음 쏘고, 재장전하고, 전리품을 수집하고, 반대편으로 달려가야 할 때 필요합니다. 즉, 많은 작업을 수행해야하며 2-3 개만 있습니다. 보스가 보스이지만 :)

에이전트도 환경에 영향을 미치고, 환경을 변경하고, 에이전트의 환경에 영향을 미친다는 것을 추가하는 것을 잊었습니다. 그렇기 때문에 모든 조합을 통과하기 위해 수천 번의 반복을 배워야합니다. 우리의 경우에는 그렇지 않고 환경이 변하지 않으므로 한 번에 할 수 있습니다. 이러한 환경에서는 강화 학습이 강화 학습의 의미를 완전히 잃게 됩니다. 목표에 이르는 최단 경로를 한 번에 찾을 수 있습니다.
 
솔루션 체계는 간단하며 데이터 세트의 전처리가 수행됩니다. 표준 분석이 수행됩니다. 나머지는 각 입력을 목표 변수로 삼고, 각 ML의 출력을 fic로 삼습니다. 각 입력의 예측이 평가되고, "예측 가능한" 나쁜 입력은 버려집니다. 필터를 통과한 입력은 ML의 출력 예측을 통해 작업 모델에 포함됩니다. 이런 식으로 예측에 영향을 미치지 않는 칩은 버립니다.
 
Maxim Dmitrievsky #:
게임과 같이 에이전트 상태가 많은 경우에 해당합니다. 구매/판매 상태 등이 2~3개밖에 없습니다.

아니요, 너무 원시적입니다. 그렇지 않으면 이런 방향이 전혀 아닐 것입니다.


상태는 매수/매도가 아니고, 매수/매도는 액션이며, 상태는 대략 현재 환경의 클러스터 번호를 말하며, 각 상태 클러스터에는 자체 액션이 있습니다 ...

그러나액션은 매수/매도와 같은 원시적일 필요는 없으며, 예를 들어 미래에 대한 에이전트의 추론이 될 수 있습니다.... .

예를 들어 지금 [i]에서 매수하고 거래 캔들[i+1]에서 가격이 떨어지지만 일정 가격 이하로 떨어지지 않으면 다음 캔들[i+2]을 기다리지만 가격이 더 낮아지면 반전하고 그렇지 않으면 계속 매수[i...20]할 것입니다.

이것은 미래에 대한 사소하지 않은 추론이며 의식적인 포지야의 발견으로 이어집니다....

그러나 이러한 추론 옵션의 조합은 무수히 많기 때문에 모두 살펴볼 필요가 없도록 Q 함수, 즉 에이전트가 좋은 Q 값을 가진 옵션 만 추론하는 데 걸리는 함수를 훈련합니다,

Q 뉴런이나 매트릭스는 미리 훈련됩니다...

이것이 제가 보는 방식입니다...

 
peregrinus_vik #:
해결책은 간단합니다.

)))) 네, 물론이죠...

"간단하다"고 말하는 사람들이 두렵습니다.

 
mytarmailS #:

아니, 너무 원시적이에요, 그렇지 않았다면 이런 방향이 아니었을 텐데...


상태는 바이\셀이 아니고, 바이\셀은 액션이고, 상태는 대략 현재 환경의 클러스터 번호를 말하며, 각 상태 클러스터에는 자체 액션이 있습니다 ...

하지만액션은 바이트처럼 원시적일 필요는 없으며, 예를 들어 미래에 대한 에이전트의 생각이 될 수 있습니다....

예를 들어 지금 [i]에 매수하고 거래 캔들[i+1]에서 가격이 떨어지지만 일정 가격 이하가 아니라면 다음 캔들[i+2]을 기다리지만 가격이 더 낮아지면 반전하고 그렇지 않으면 계속 매수[i...20]할 것입니다.

이는 미래에 대한 사소하지 않은 추론이며 실현된 포지션의 발견으로 이어집니다....

그러나 이러한 추론 옵션의 조합은 무수히 많기 때문에 모두 살펴볼 필요가 없도록 Q 함수, 즉 에이전트가 좋은 Q 값을 가진 옵션 만 추론하도록 훈련합니다,

Q 뉴런 또는 매트릭스는 미리 훈련됩니다 ...

이것이 제가 보는 방식입니다...

동의합니다, 매매 없음 거래는 상태가 아닙니다. 많은 상태들이 있습니다.))))))

 
Valeriy Yastremskiy #:

동의합니다. 매매가 아닌 매매는 상태가 아닙니다. 많은 주들이 있습니다.)))))

상태는 많지 않습니다(클러스터인 경우).

미래의 행동에 대해 추론할 수 있는 옵션은 무수히 많습니다.

그러나 각 상태에서 가장 올바른 행동을 찾으려면 추론이 필요하며, 또한 각 캔들에서 검토해야합니다.

 
mytarmailS #:

아니, 너무 원시적이에요, 그렇지 않았다면 이런 방향이 아니었을 텐데...


상태는 바이\셀이 아니고, 바이\셀은 액션이고, 상태는 대략 현재 환경의 클러스터 번호를 말하며, 각 상태 클러스터에는 자체 액션이 있습니다 ...

하지만액션은 바이트처럼 원시적일 필요는 없으며, 예를 들어 미래에 대한 에이전트의 생각이 될 수 있습니다....

예를 들어 지금 [i]에 매수하고 거래 캔들[i+1]에서 가격이 떨어지지만 일정 가격 이하가 아니라면 다음 캔들[i+2]을 기다리지만 가격이 더 낮아지면 반전하고 그렇지 않으면 계속 매수[i...20]할 것입니다.

이는 미래에 대한 사소하지 않은 추론이며 실현된 포지션의 발견으로 이어집니다....

그러나 이러한 추론 옵션의 조합은 무수히 많기 때문에 모두 살펴볼 필요가 없도록 Q 함수, 즉 에이전트가 좋은 Q 값을 가진 옵션 만 추론하는 데 걸리는 것을 훈련합니다,

Q 뉴런 또는 매트릭스는 미리 훈련됩니다 ...

이것이 제가 보는 방식입니다...

일단 제대로 보기 시작하면 놀라움은 사라집니다.

에이전트의 정책, 다각적인 접근 방식을 설명하는군요. 저는 그것에 대해 모두 썼습니다. 이해를 돕기 위해 괴짜 같은 언어로 썼는데 잊어버렸어요.

맞아요, 너무 원시적이죠.

금지되기 전에는 에이전트에 대해 입에 거품을 물고 있던 사람도 있었어요.)

 
Valeriy Yastremskiy #:

동의합니다. 매매가 아닌 매매는 상태가 아닙니다. 수많은 상태가 있습니다.))))

에이전트 상태 또는 액션 상태. 나는 당신이 쓴 내용을 이해하기 위해 몇 달 동안 책을 읽고 같은 결론에 도달하는 것이 좋습니다 ) 에이전트의 행동에 대한 환경의 반응 없이는 최적화 할 것이 없으며 한 번에 수행됩니다.

환경 상태, 상담원 상태, 환경의 변화를 고려한 상태 간 상담원의 전환(정책) 매트릭스가 있습니다. 환경은 정적이며 상담원의 행동으로 인해 변경되지 않습니다. 즉, 정적 환경, 즉 타깃에서 에이전트의 작업 행렬만 정의하면 됩니다. 타겟 마킹은 한 번에 이루어집니다.
 
Maxim Dmitrievsky #:
에이전트 상태 또는 작업. 나는 당신이 쓴 내용을 이해하기 위해 몇 달 동안 책을 읽고 같은 결론에 도달하는 것이 좋습니다 ) 에이전트의 행동에 대한 환경의 반응 없이는 최적화 할 것이 없으며 한 번에 수행됩니다.

환경 상태, 상담원 상태, 환경의 변화를 고려한 상태 간 상담원의 전환(정책) 매트릭스가 있습니다. 환경은 정적이며 상담원의 행동으로 인해 변경되지 않습니다. 즉, 정적 환경, 즉 타깃에서 에이전트의 작업 행렬만 정의하면 됩니다. 타깃의 마킹은 한 번에 이루어집니다.
수익성이 없는 거래에 대해 에이전트에게 불이익을 주고 싶으면...
목표는 "원하는 것을 거래하되, 손실이 나는 거래는 하지 말고 시장에 있는 것"입니다.

이를 마크업으로 어떻게 설명할 수 있나요?
사유: