물론 예측 변수와 결과 사이의 상관관계를 찾는다는 목표는 분명한 목표이지만, SSF는 새로운 것을 많이 말하지 않았습니다. 제가 발견한 유일한 새로운 점은 전체 훈련에 대해 약 200개의 유의미한 특징을 발견했지만 특정 데이터에 대해서는 그 중 5%만 사용한다는 것입니다.
이는 최신 데이터에 대해서만 더 중요한 예측자를 선택하기 위해 시리즈의 상태/속성을 빠르게 파악할 수 있는 몇 가지 방법이 있다는 의미로 이해됩니다. 물론 적절한 선택을 위해서는 데이터의 양이나 길이에 대한 문제가 발생합니다. 하지만 전체 대규모 학습에서 200개의 예측자만 찾아서 선택해도 효과가 있는 것으로 보입니다.
저는 이렇게봅니다. 계열은 일부 지표에서 안정적인 속성을 가지고 있지만 이러한 지표와 그 수는 섹션마다 다릅니다. MO는 다양한 모델과 그에 따른 모델 설정, 즉 예측자로 설명할 수 있는 계열의 충분한 안정성 기간에 대한 몇 가지 다른 상태를 찾습니다. 예측자의 총 개수는 여러 모델의 총 설정 개수이며, 따라서 모델을 정의하면 이전에 찾은 설정을 빠르게 찾을 수 있습니다.
한때이 스레드에 표를 게시했지만 지금은 손에 있지 않으므로 내 생각을 말로 명확히하겠습니다.
저는 예측자-교사 상관관계라는 개념에 의존하고 있습니다. "연계성"은 거의 모든 MOE 모델에 맞는 예측 변수의 상관관계 또는 "중요도"가 아닙니다. 후자는 알고리즘에서 예측자가 얼마나 자주 사용되는지를 반영하므로 토성의 고리나 커피 찌꺼기에 큰 '중요도' 값을 부여할 수 있습니다. 예를 들어 정보 이론을 기반으로 예측자와 교사 간의 "연결"을 계산할 수 있는 패키지가 있습니다.
제가 여기에 게시한 표에 대해 말씀드리겠습니다.
이 표에는 각 예측자와 교사 간의 '연결성'에 대한 수치 추정치가 포함되어 있습니다. 창이 움직이면서 수백 개의 '연결성' 값이 얻어졌습니다. 특정 예측 변수에 대한 이러한 값은 다양했습니다. 저는 각 '연결'에 대한 평균과 SD를 계산했고 이를 통해
- "연결" 값이 너무 작은 예측자(노이즈)를 분리합니다;
- '연결' 값이 너무 가변적인 예측자를 분리할 수 있었습니다. '결합' 값이 충분히 크고 SD가 10% 미만인 예측자를 찾을 수 있었습니다.
다시 한 번, MO를 기반으로 TC를 구성하는 문제는 창이 움직일 때 "결합" 값이 크고 sd 값이 작은 예측자를 찾는 것입니다. 제 생각에는 이러한 예측자가 향후 예측 오류의 안정성을 보장할 것이라고 생각합니다.
제가 위와 같은 말을 한 것은 이번이 처음이 아닙니다. 안타깝게도 이 논의는 끊임없이 잡음과 나르시시즘으로 흘러가고 있습니다.
Alexei 님, 슬라이딩 창으로 기능의 중요도를 보는 방법에 대한 예시를 요청하셨습니다.
제가 스크립트를 작성했습니다...
그렇다면 다른 스케일이나 원하는 대로 검색하고 싶은데 과거의 스크립트가 왜 미래의 소원을 충족시킬 수 있어야 하나요?
그래서 저는 여기 얼마나 많은 사람들이 대화의 실마리를 쉽게 잃어 버리는 지 놀랐습니다. 그게 바로 당신입니다.
그래서 저는 스크립트를 만들어 달라고 요청했습니다." 샘플에 대한 계산을 위해 R로 스크립트를 만들 수 있습니까?"실험을 위해 실행하겠습니다. 실험을 통해 최적의 샘플 크기가 밝혀져야 합니다. "라고 말했지만 이것은 이미 완료된 작업에 대한 응답입니다.
앞서 나는 "... 그리고 역학에서 어떻게 시청할 것을 제안하고 실현하는 방법은 무엇입니까? " -여기서는 역학에서 예측자 추정의 구현, 즉 일부 창에 의한 정규 추정에 대해 질문하고 있으며 각 새 샘플의 창인지 또는 각 n 샘플 이후의 창인지 명확하지 않습니다. 이것이 당신이 한 일이라면 나는 그것을 이해하지 못합니다.
게시하신 코드는 훌륭하지만 정확히 무엇을하는지 또는 본질적으로 무엇을 증명하는지 이해하기 어렵 기 때문에 추가 질문을하기 시작했습니다. 그래프가 있는 두 개의 그림은 무엇을 의미하나요?
이 스레드에 표를 올린 적이 있지만 지금은 가지고 있지 않아서 제 생각을 글로 정리해 보겠습니다.
저는 예측자-교사 상관관계라는 개념에 의존하고 있습니다. '연계성'은 거의 모든 MOE 모델을 맞추는 예측 변수의 상관관계나 '중요도'가 아닙니다. 후자는 알고리즘에서 예측자가 얼마나 자주 사용되는지를 반영하므로 토성의 고리나 커피 찌꺼기에 큰 '중요도' 값을 부여할 수 있습니다. 예를 들어 정보 이론을 기반으로 예측자와 교사 간의 "연결"을 계산할 수 있는 패키지가 있습니다.
제가 여기에 올린 표에 대해 한 마디 하겠습니다.
이 표에는 각 예측자와 교사 간의 '연결성'에 대한 수치 추정치가 포함되어 있습니다. 창이 움직이면서 수백 개의 '연결성' 값이 얻어졌습니다. 특정 예측 변수에 대한 이러한 값은 다양했습니다. 저는 각 '연결'에 대한 평균과 SD를 계산했습니다:
- 너무 작은 '연결'(노이즈)이 있는 예측자를 분리할 수 있었습니다;
- '연결' 값이 너무 가변적인 예측자를 분리합니다. '연결' 값이 충분히 크고 sd가 10% 미만인 예측자를 찾을 수 있었습니다.
다시 한 번, MO를 기반으로 TC를 구성하는 문제는 창이 움직일 때 "링크" 값이 크고 sd 값이 작은 예측자를 찾는 것입니다. 제 생각에는 이러한 예측자가 향후 예측 오차의 안정성을 보장할 수 있을 것으로 생각합니다.
제가 위와 같은 말을 한 것은 이번이 처음이 아닙니다. 안타깝게도 이 논의는 끊임없이 잡음과 나르시시즘에 빠져들고 있습니다.
그래서 여러분도 본질적으로 저와 같은 접근 방식을 가지고 계신 건가요? 다만 "연결"을 찾는 방식이 다를 뿐입니다. 창으로 10개의 샘플 플롯을 가져와서 "연결"을 검색하는데, 어떻게 하나요?
알렉세이, 당신이 좋아하는 것처럼 일반 검색 작업인데 뭐가 문제죠?
스크립트가 그렇게 하나요, 안 하나요?
여기서 얼마나 많은 사람들이 대화의 실마리를 쉽게 잃는지 궁금합니다.
많은 예측자가 포함된 샘플을 게시할 수 있으며, 가장 좋은 예측자를 선택할 수 있는 사람은 누구든지 콘테스트를 만들어 보겠습니다.
선택한 예측자에 대해 모델을 학습시킨 후 독립적인 샘플에서 최고의 예측자를 결정할 것입니다.
참여하고 싶은 사람이 있나요, 아니면 모두 입소문으로만 그렇게 유능한가요?
너무 일반적인 주제입니다. 종종 구성 요소로 분해됩니다. 여러 개의 스레드로 분할하기에는 기한이 오래 지났습니다. 예를 들어 1. MO: 데이터 전처리. 2. MO 모델 선택. 3. MO.모델 훈련 및 최적화. 4. MO.모델 구현. 5.MO. IO 자동화.
이 부서는 매우 크고 근사치이지만 지점이 무엇인지 명확 할 것입니다. 그리고 모든 것에 대해 그리고 아무것도 아닙니다.
물론 재현 가능한 코드 예제를 제공 할 필요가 있으며, 그렇지 않으면 실질적인 대화가 없습니다.
모두에게 행운을 빕니다.
그렇다면 스크립트가 이를 수행하나요?
여기 있는 많은 사람들이 대화의 맥을 얼마나 쉽게 놓치는지 놀라울 뿐입니다.
알렉세이, 슬라이딩 창으로 표지판의 중요성을 살펴보는 방법에 대한 예시를 요청하셨습니다.
제가 스크립트를 작성해 드렸어요.
그렇다면 다른 스케일이나 원하는대로 검색하고 싶은데 과거의 스크립트가 왜 미래의 소원을 성취 할 수 있어야합니까?
그래서 저는 여기 얼마나 많은 사람들이 대화의 실마리를 쉽게 잃어버리는지 놀랐어요. 그게 바로 당신입니다.
너무 일반적인 주제입니다. 종종 구성 요소로 분해됩니다. 여러 개의 스레드로 분할하기에는 기한이 오래 지났습니다. 예를 들어 1. MO: 데이터 전처리. 2. MO 모델 선택. 3. MO.모델 훈련 및 최적화. 4. MO.모델 구현. 5.MO. MOE의 자동화.
부서는 매우 크고 대략적인 것이지만 지점이 무엇인지 분명 할 것입니다. 그리고 모든 것에 대해 그리고 아무것도 아닙니다.
물론 재현 가능한 코드 예제를 제공 할 필요가 있습니다. 그렇지 않으면 대화의 실질적인 사용이 없습니다.
모두에게 행운을 빕니다.
물론 예측 변수와 결과 사이의 상관관계를 찾는다는 목표는 분명한 목표이지만, SSF는 새로운 것을 많이 말하지 않았습니다. 제가 발견한 유일한 새로운 점은 전체 훈련에 대해 약 200개의 유의미한 특징을 발견했지만 특정 데이터에 대해서는 그 중 5%만 사용한다는 것입니다.
이는 최신 데이터에 대해서만 더 중요한 예측자를 선택하기 위해 시리즈의 상태/속성을 빠르게 파악할 수 있는 몇 가지 방법이 있다는 의미로 이해됩니다. 물론 적절한 선택을 위해서는 데이터의 양이나 길이에 대한 문제가 발생합니다. 하지만 전체 대규모 학습에서 200개의 예측자만 찾아서 선택해도 효과가 있는 것으로 보입니다.
저는 이렇게봅니다. 계열은 일부 지표에서 안정적인 속성을 가지고 있지만 이러한 지표와 그 수는 섹션마다 다릅니다. MO는 다양한 모델과 그에 따른 모델 설정, 즉 예측자로 설명할 수 있는 계열의 충분한 안정성 기간에 대한 몇 가지 다른 상태를 찾습니다. 예측자의 총 개수는 여러 모델의 총 설정 개수이며, 따라서 모델을 정의하면 이전에 찾은 설정을 빠르게 찾을 수 있습니다.
한때이 스레드에 표를 게시했지만 지금은 손에 있지 않으므로 내 생각을 말로 명확히하겠습니다.
저는 예측자-교사 상관관계라는 개념에 의존하고 있습니다. "연계성"은 거의 모든 MOE 모델에 맞는 예측 변수의 상관관계 또는 "중요도"가 아닙니다. 후자는 알고리즘에서 예측자가 얼마나 자주 사용되는지를 반영하므로 토성의 고리나 커피 찌꺼기에 큰 '중요도' 값을 부여할 수 있습니다. 예를 들어 정보 이론을 기반으로 예측자와 교사 간의 "연결"을 계산할 수 있는 패키지가 있습니다.
제가 여기에 게시한 표에 대해 말씀드리겠습니다.
이 표에는 각 예측자와 교사 간의 '연결성'에 대한 수치 추정치가 포함되어 있습니다. 창이 움직이면서 수백 개의 '연결성' 값이 얻어졌습니다. 특정 예측 변수에 대한 이러한 값은 다양했습니다. 저는 각 '연결'에 대한 평균과 SD를 계산했고 이를 통해
- "연결" 값이 너무 작은 예측자(노이즈)를 분리합니다;
- '연결' 값이 너무 가변적인 예측자를 분리할 수 있었습니다. '결합' 값이 충분히 크고 SD가 10% 미만인 예측자를 찾을 수 있었습니다.
다시 한 번, MO를 기반으로 TC를 구성하는 문제는 창이 움직일 때 "결합" 값이 크고 sd 값이 작은 예측자를 찾는 것입니다. 제 생각에는 이러한 예측자가 향후 예측 오류의 안정성을 보장할 것이라고 생각합니다.
제가 위와 같은 말을 한 것은 이번이 처음이 아닙니다. 안타깝게도 이 논의는 끊임없이 잡음과 나르시시즘으로 흘러가고 있습니다.
Alexei 님, 슬라이딩 창으로 기능의 중요도를 보는 방법에 대한 예시를 요청하셨습니다.
제가 스크립트를 작성했습니다...
그렇다면 다른 스케일이나 원하는 대로 검색하고 싶은데 과거의 스크립트가 왜 미래의 소원을 충족시킬 수 있어야 하나요?
그래서 저는 여기 얼마나 많은 사람들이 대화의 실마리를 쉽게 잃어 버리는 지 놀랐습니다. 그게 바로 당신입니다.
그래서 저는 스크립트를 만들어 달라고 요청했습니다." 샘플에 대한 계산을 위해 R로 스크립트를 만들 수 있습니까?"실험을 위해 실행하겠습니다. 실험을 통해 최적의 샘플 크기가 밝혀져야 합니다. "라고 말했지만 이것은 이미 완료된 작업에 대한 응답입니다.
앞서 나는 "... 그리고 역학에서 어떻게 시청할 것을 제안하고 실현하는 방법은 무엇입니까? " -여기서는 역학에서 예측자 추정의 구현, 즉 일부 창에 의한 정규 추정에 대해 질문하고 있으며 각 새 샘플의 창인지 또는 각 n 샘플 이후의 창인지 명확하지 않습니다. 이것이 당신이 한 일이라면 나는 그것을 이해하지 못합니다.
게시하신 코드는 훌륭하지만 정확히 무엇을하는지 또는 본질적으로 무엇을 증명하는지 이해하기 어렵 기 때문에 추가 질문을하기 시작했습니다. 그래프가 있는 두 개의 그림은 무엇을 의미하나요?
이 스레드에 표를 올린 적이 있지만 지금은 가지고 있지 않아서 제 생각을 글로 정리해 보겠습니다.
저는 예측자-교사 상관관계라는 개념에 의존하고 있습니다. '연계성'은 거의 모든 MOE 모델을 맞추는 예측 변수의 상관관계나 '중요도'가 아닙니다. 후자는 알고리즘에서 예측자가 얼마나 자주 사용되는지를 반영하므로 토성의 고리나 커피 찌꺼기에 큰 '중요도' 값을 부여할 수 있습니다. 예를 들어 정보 이론을 기반으로 예측자와 교사 간의 "연결"을 계산할 수 있는 패키지가 있습니다.
제가 여기에 올린 표에 대해 한 마디 하겠습니다.
이 표에는 각 예측자와 교사 간의 '연결성'에 대한 수치 추정치가 포함되어 있습니다. 창이 움직이면서 수백 개의 '연결성' 값이 얻어졌습니다. 특정 예측 변수에 대한 이러한 값은 다양했습니다. 저는 각 '연결'에 대한 평균과 SD를 계산했습니다:
- 너무 작은 '연결'(노이즈)이 있는 예측자를 분리할 수 있었습니다;
- '연결' 값이 너무 가변적인 예측자를 분리합니다. '연결' 값이 충분히 크고 sd가 10% 미만인 예측자를 찾을 수 있었습니다.
다시 한 번, MO를 기반으로 TC를 구성하는 문제는 창이 움직일 때 "링크" 값이 크고 sd 값이 작은 예측자를 찾는 것입니다. 제 생각에는 이러한 예측자가 향후 예측 오차의 안정성을 보장할 수 있을 것으로 생각합니다.
제가 위와 같은 말을 한 것은 이번이 처음이 아닙니다. 안타깝게도 이 논의는 끊임없이 잡음과 나르시시즘에 빠져들고 있습니다.
그래서 여러분도 본질적으로 저와 같은 접근 방식을 가지고 계신 건가요? 다만 "연결"을 찾는 방식이 다를 뿐입니다. 창으로 10개의 샘플 플롯을 가져와서 "연결"을 검색하는데, 어떻게 하나요?
연결을 찾는 알고리즘은 무엇이며 설명해 주시겠습니까?
제가 위와 같은 말을 한 것은 이번이 처음이 아닙니다. 안타깝게도 이 논의는 끊임없이 잡음과 나르시시즘으로 흘러가고 있습니다.
예, 진짜 원반은 배경에서 가장 다타냥 다타냥의 발표로 이동합니다 (중재 된 단어) :-)
결과의 부족에서 모두. 방법을 개선하고 변경할 수 있지만 결과는 50/50 바위와 같습니다.
본질적으로 저와 같은 접근 방식을 가지고 계신군요, 궁금합니다! 다만 "연결"을 찾는 방식이 다를 뿐입니다. 창문으로 10개의 샘플 플롯을 가져와서 '연결'을 찾는데, 어떻게 하나요?
연결을 찾는 알고리즘은 무엇이며 설명해 주시겠습니까?
저는 저만의 알고리즘을 사용하는데, 수많은 R 라이브러리보다 훨씬 빠르게 작동합니다. 예를 들어
library("엔트로피")
그래프를 사용하면 됩니다:
이 스레드에 모든 것이 게시되어 있습니다. 모든 것이 블라디미르 페레르벤코의 기사에서 코드 수준에서 체계적으로 설명되어 있습니다.