트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1269

 

알파고 제로의 신선한 제작진, 즐겁게 감상하세요 :)


 
막심 드미트리예프스키 :

AlphaGo Zero 제작진의 신선함, 즐겨보세요 :)


오래된 공예품의 모델을 생성/훈련/연결하는 방법에 대한 자세한 지침이 있습니까?

 
막심 드미트리예프스키 :

나는 게임을 하지 않고 경기만 본다

리플레이로 판단하면 AlfaTrader는 이렇게 하면 어떤 뼈대보다 더 잘 거래될 것입니다.

그런 로봇을 하면 MO에서 새로운 기술을 얻을 수 있고 재미있을 것 같습니다. 나는 새로운 챕터가 출시된 후 StarCraft 2를 두 번 플레이했습니다(여기서 줄거리는 여러 부분으로 나뉩니다). AI와 대결할 때 그는 종종 행동의 논리가 아니라 유닛을 제어하여 승리합니다. 사람은 물리적으로 전체 맵과 각 유닛을 한 번에 제어할 수 없습니다.

 
블라디미르 페레르벤코 :

나는 내 것을 모니터링하지 않고 다른 사람들은 모릅니다. 위에 인용된 기사는 코드를 복제하고 지나치게 복잡하게 만들기에 충분한 정보가 없습니다. R6을 사용하지 않고 패키지의 표준 레이어로 모든 것을 구현할 수 있다고 생각합니다.

행운을 빕니다

어떤 행운을 원했는지 전혀 이해하지 못합니다.

데모를 확인하십시오

ML 요소에 대한 전문가의 작업 결과가 허용되면 전체 분기를 처음부터 끝까지 다시 읽을 것입니다.

 
막심 드미트리예프스키 :

이것은 여기의 경우가 아니며 사람이 보는 것과 보는 방법에 가깝습니다. 제한된 시야, 평균 apm은 프로 선수보다 낮습니다. 저것들. 지성의 투쟁, 즉 속도가 아니라 전략(기계가 자연스럽게 항상 이기는 곳)

SC에 내장된 AI는 그저 스크립트에 불과하고 흥미롭지 않은 상대입니다. 이것은 인간처럼 연주합니다. 이 AI, 즉, 프로 선수에게 말할 수 없습니다. 튜링 테스트 통과

전자 뇌의 활성 뉴런 구름조차도 시각화됩니다.


화면에서 명확한 결론을 도출할 수 없습니다. 예, 화면에 맞는 것만 제어하는 것이 가능합니다. 이것은 문제가 되지 않습니다. 이러한 목적을 위해 그들은 유닛/건물 또는 유닛 그룹에서 단축키를 사용하므로 이 순간에 시각적으로 관찰할 필요가 없습니다 , 그러나 화면에서도 항상 볼 수 있는 지도에서 조정할 수 있습니다. 칩은 모두 마이크로 컨트롤에 있으며, 개인적으로 몇 개의 비디오를 보았지만 전략 측면에서 스마트한 것을 보지 못했지만 개별 장치의 잠재력 사용이 완전히 공개되었습니다. 저것들. 잠재적인 위협을 평가하고 이에 대응할 수 있는 옵션이 강조되고 있습니다. 상대방의 개발 부문에 따라 자체 부문이 발전하고 경제에 대한 별도의 모듈이 추가됩니다. 저는 다양한 방법과 통제를 보았고 다음과 같이 생각합니다. 처음 2개의 모듈(개발지와 경제학)이 프로그래밍되거나 퍼지 로직이 사용되어 안정성이 상대적으로 서툴지만 상황에 따라 제어가 이루어지며 여기에서 AI가 최대한 작동합니다. 그건 그렇고, 객체에 대한 정보가 어떻게 전달되는지, 결정을 내리기 위해 객체를 일반화하고 지속적인 움직임, 특징 및 대상을 고려하는 방법이 명확하지 않습니다.

 
그건 그렇고, 가끔 블리자드 네트워크에서 워크래프트 III를 플레이하는데 그곳에서 저를 AI로 비난하는 경우가 많은데, 그곳에서도 사용할 수 있는지 궁금합니다. 그리고 사용하게 된다면 그런 AI로 몇 번을 플레이 했을지 궁금해진다.
 
막심 드미트리예프스키 :

그건 그렇고, 봇의 전체 지도가 처음에 화면에 배치된 다음 플레이어의 것처럼 했고, 그 다음 봇은 바보가 되기 시작했고 사람들이 이겼습니다(비디오 끝부분). 글쎄, 그들은 그러한 상황에 대해 MB에 잘 맞습니다. 글쎄요, 전략은 매우 동일합니다. 사람들은 더 흥미롭게 만들 것입니다. 반면에 효율성을 평가하는 방법 - 특정 계층이 성공으로 이어지기 때문에 봇이 선택했습니다.

통제에 대한 제한이 사람에 비례하여 이루어지면 군중의 행동이 비슷하고 가장 빈번하기 때문에 봇이 일반 사용자보다 성능이 좋을 것이라고 생각합니다. 그건 그렇고, 내가 워크래프트 3 장난감의 봇에 대해 한 클랜을 위해 네트워크를 통해 아들과 함께 플레이하려고 할 때 처음에는 똑같이 어려웠습니다. ), 그러나 그런 다음 봇의 동작에 익숙해지고 비표준 솔루션을 사용하여 점차적으로 재생합니다(예: 나무를 통해 광산으로 가는 통로를 잘라 지상의 공격으로부터 유닛을 보호). 따라서 ML에서 고려되도록 비표준 전략에 얼마나 많은 가중치를 부여할 수 있는지 궁금합니다. 어떻게든 표준 행동과 비표준 행동을 분리하고 접근 방식을 다르게 해야 하며 동시에 서로 간섭하지 않아야 합니다. 그것은 추세와 평면과 같습니다. 한 번에 두 가지 모두에 대해 하나의 모델을 훈련하는 것은 매우 어렵습니다. 어쨌든 방법을 모르겠습니다.

 
막심 드미트리예프스키 :

무게는 없는 것 같아요. 상황이 드문 경우 봇은 이러한 옵션을 무시합니다. 사람이 봇의 전략에 적응하면 봇은 chela의 지층 아래에서 항상 훈련되어야 합니다. 그렇지 않으면 상황이 동일하지 않을 것입니다)

글쎄, 나는 모른다. 그러면 여기에 많은 것이 샘플에 달려 있다는 것이 밝혀졌습니다. 샘플이 다르면 봇이 서로 싸울 때 다르게 행동합니다. 훈련뿐만 아니라 운(누가 무엇을 공부했는지)의 요인도 있습니다.

저것들. 결과를 비교할 유효한 샘플이 없기 때문에 훈련 결과가 항상 표시되는 것은 아닙니다(정확하게 평가할 수 있음).

 
막심 드미트리예프스키 :

네, 학습이 일어나는 방식입니다. 일종의 적대적 네트워크를 통해 말이죠. AI는 AI와 수천 번 대결하여 다양한 전략을 복제합니다. 결과적으로 네트워크는 최적의 전략을 개발합니다. 게임 수가 프로 선수의 게임 수를 초과하는 경우(200년 플레이에 해당) 통계 이점은 봇 측에 있을 것이며 더 많은 조합을 고려했습니다. 그러나 독특한 승리 계층을 선택할 확률은 물론 여전히 남아 있습니다.

주제는 흥미롭지 만 어둠 속에 덮여 있습니다 :) 거래는 우리의 행동으로 시장에 그렇게 많은 영향을 미칠 수 없으며 아마도 위치를 평균화하는 것 외에는 실수를 수정할 기회가 없다는 점에서 다릅니다 ...

 
막심 드미트리예프스키 :

차트를 수천, 수백만 개의 조각으로 나누고 봇이 차트에 대해 그렇게 여러 번 재생하도록 하면 아마도 그는 항상 그를 이기는 법을 배울 것입니다. 다시 한 번 기능에 따라 다릅니다.

나는 그것을 조금 다르게 봅니다. 장난감에는 봇의 수와 잠재력, 재산, 돈, 이러한 방식으로 이 추정된 지표를 줄이기 위한 적의 목표와 같은 많은 요소로 구성된 조건부로 각 측면에 대한 수학적 평가가 있습니다. 예상 지표를 적보다 높게 유지하기 위해 t .e. 결과에 더 적은 에너지를 소비합니다. 따라서 단위를 희생함으로써 상대방 자산의 예상 가치를 단위의 예상 가치보다 더 크게 줄일 것이 분명한 경우, 이것이 올바른 결정이며, 그렇지 않은 경우 상호 영향을 주는 시스템이 얻어집니다. , 그러면 옳지 않습니다. 그리고 거래에서 우리는 보장이 없고 확률만 있으며 장난감에는 계산할 수 있는 수학적 보장이 있습니다.

우리는 상황에 영향을 줄 수 없지만 게임에서 우리 자신에게 유리한 상황을 만드는 것을 포함하여 가능합니다.
사유: