이 작업은 RFBR 프로젝트 05-01-00877, 05-07-90410 및 OMN RAS 프로그램의 프레임워크 내에서 수행되었습니다.
각 실험이 하나의 패키지로 만들어졌을 가능성은 낮습니다.
예, 실험은 인위적입니다. 클래스별로 명확하게 구분된 데이터 세트에 노이즈가 추가되었습니다. 그리고 명확한 분리는 단 하나의 특징, 즉 Y축에 의해서만 이루어집니다. 노이즈 (0.2에서 0.8까지의 모든 데이터)를 제거하면 다른 클래스와의 거리가 0.6 이상인 예제 만 남는 것으로 나타났습니다. 나는 그림에서 가장 어려운 세 번째 옵션에 대해 이야기하고 있습니다:
실제 생활로 이동하여이 단일 작업 피시에 노이즈가 될 5000 개의 예측자를 추가하십시오. 클러스터링에서는 이 5001 차원 공간에서 점 사이의 총 거리를 계산합니다. 이 혼돈 속에서 0.6 작동은 결코 발견되지 않습니다.
나는 어떤 분류기가 더 잘할 것이라고 생각합니다. 동일한 트리가이 단일 기능을 찾아서 먼저 0.5로 나눈 다음 0.2와 0.8의 분할에 도달 한 다음 순도 100%의 잎으로 나뉩니다.
아, 그리고 이 실험은 인위적입니다. 클래스별로 명확하게 구분된 데이터 세트에 노이즈가 추가되었습니다. 그리고 명확한 분리는 오직 하나의 특징, 즉 Y 축에만 해당됩니다. 노이즈(0.2~0.8의 모든 데이터)를 제거하면 다른 클래스와의 거리가 0.6 이상인 예제만 남는다는 것을 알 수 있습니다. 그림에서 가장 복잡한 세 번째 변형을 의미합니다:
실제 생활로 이동하여이 단일 작업 피시에 노이즈가 될 5000 개의 예측자를 추가하십시오. 클러스터링에서는 이 5001 차원 공간에서 점 사이의 총 거리를 계산합니다. 이 혼돈 속에서 0.6 작동은 결코 발견되지 않습니다.
나는 어떤 분류기가 더 잘할 것이라고 생각합니다. 동일한 트리가이 단일 기능을 찾아서 먼저 0.5로 나눈 다음 0.2와 0.8의 분할에 도달 한 다음 순도 100 %의 잎으로 나눌 것입니다.
절대 그럴 수 없습니다. 어떤 MO도 이를 찾지 못합니다. 모델을 훈련하기 전에 쓰레기를 제거해야 합니다. "쓰레기 투입-쓰레기 배출"이 통계의 법칙입니다.
실험이 수행된 구체적인 인공 사례에 대해 말씀드리는 것입니다. 쓰레기가 들어오고 쓰레기가 나가는 것이 아닙니다. 이 예에서 알려진 것은 쉽게 잘라낼 수 있습니다.
제 요점을 명확히 하기 위해.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소는 쓰레기에서 더 효과적입니다. 오류 감소에 "편리한" 값을 가질 가능성이 훨씬 더 높기 때문입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 "중요도"가 더 높을 것이 확실합니다. 그렇기 때문에 모델 피팅 자체보다 훨씬 더 노동 집약적인 전처리가 필요합니다.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소를 위한 "편리한" 값이 쓰레기에서 훨씬 더 일반적이기 때문에 오류 감소는 쓰레기에서 더 효과적입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 '중요도'가 더 높을 것이 확실합니다. 그렇기 때문에 모델 피팅 자체보다 훨씬 더 노동 집약적인 전처리가 필요합니다.
무엇이 쓰레기가 아닌지 알려주세요. 순수한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.
그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가없는 것입니다. 그렇지 않으면 비교할 것이 없습니다.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소를 위한 "편리한" 값이 쓰레기에서 훨씬 더 일반적이기 때문에 오류 감소는 쓰레기에서 더 효과적입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 '중요도'가 더 높을 것이 확실합니다. 이것이 바로 실제 모델 피팅보다 훨씬 더 노동 집약적인 전처리가 있는 이유입니다.
무엇이 쓰레기가 아닌지 알려주실 수 있나요? 깨끗한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.
그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가 없는 것이고, 그렇지 않다면 비교할 것이 없습니다.
무엇이 쓰레기이고 무엇이 아닌지 아무도 모릅니다. 이것은 가상의 개념입니다.
무엇이 무엇인지 정확히 안다면 3K 페이지에 달하는 스레드는 존재하지 않을 것입니다.)))
단순히 이런저런 한계를 넘어서는 것이 "쓰레기"라고 가정하면, 이러한 한계 역시 가설적인 개념입니다. 그렇기 때문에 "쓰레기 인 - 쓰레기 아웃"이라는 표현은 아름다운 문구에 지나지 않으며, 한 연구자에게는 쓰레기 인 것이 다른 연구자에게는 쓰레기가 아닌 것입니다. 마치 엘리엇의 파도와 같습니다.
'컴팩트니스 프로필' 방법을 사용해 본 적이 있나요?
이 방법의 목표는 샘플에서 일관되지 않은 예시를 제거하여 학습을 개선하고 K개의 가장 가까운 이웃 학습 방법을 사용하는 경우 모델 크기를 줄이는 것입니다.
파이썬에서 구현을 찾을 수 없습니다.....
'컴팩트니스 프로필' 방법을 사용해 본 적이 있나요?
이 방법의 목표는 샘플에서 일관되지 않은 예시를 제거하여 학습을 개선하고 K개의 가장 가까운 이웃 학습 방법을 사용하는 경우 모델 크기를 줄이는 것입니다.
파이썬에서 구현을 찾을 수 없습니다.....
이 작업은 실험적입니다. 다음은 http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 에서 인용한 내용입니다.
이 작업은 RFBR 프로젝트 05-01-00877, 05-07-90410 및 OMN RAS 프로그램의 프레임워크 내에서 수행되었습니다.
각 실험이 하나의 패키지로 만들어졌을 가능성은 낮습니다.
예, 실험은 인위적입니다. 클래스별로 명확하게 구분된 데이터 세트에 노이즈가 추가되었습니다. 그리고 명확한 분리는 단 하나의 특징, 즉 Y축에 의해서만 이루어집니다. 노이즈 (0.2에서 0.8까지의 모든 데이터)를 제거하면 다른 클래스와의 거리가 0.6 이상인 예제 만 남는 것으로 나타났습니다. 나는 그림에서 가장 어려운 세 번째 옵션에 대해 이야기하고 있습니다:
실제 생활로 이동하여이 단일 작업 피시에 노이즈가 될 5000 개의 예측자를 추가하십시오. 클러스터링에서는 이 5001 차원 공간에서 점 사이의 총 거리를 계산합니다. 이 혼돈 속에서 0.6 작동은 결코 발견되지 않습니다.
나는 어떤 분류기가 더 잘할 것이라고 생각합니다. 동일한 트리가이 단일 기능을 찾아서 먼저 0.5로 나눈 다음 0.2와 0.8의 분할에 도달 한 다음 순도 100%의 잎으로 나뉩니다.
'컴팩트니스 프로필' 방법을 사용해 본 적이 있나요?
이 방법의 목표는 샘플에서 일관되지 않은 예시를 제거하여 학습을 개선하고 K개의 가장 가까운 이웃 학습 방법을 사용하는 경우 모델 크기를 줄이는 것입니다.
파이썬에서 구현을 찾을 수 없습니다....
이 작업은 실험적입니다. 다음은 http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 에서 인용한 내용입니다.
모든 실험이 패키지로 만들어지지는 않을 것입니다.
아, 그리고 이 실험은 인위적입니다. 클래스별로 명확하게 구분된 데이터 세트에 노이즈가 추가되었습니다. 그리고 명확한 분리는 오직 하나의 특징, 즉 Y 축에만 해당됩니다. 노이즈(0.2~0.8의 모든 데이터)를 제거하면 다른 클래스와의 거리가 0.6 이상인 예제만 남는다는 것을 알 수 있습니다. 그림에서 가장 복잡한 세 번째 변형을 의미합니다:
실제 생활로 이동하여이 단일 작업 피시에 노이즈가 될 5000 개의 예측자를 추가하십시오. 클러스터링에서는 이 5001 차원 공간에서 점 사이의 총 거리를 계산합니다. 이 혼돈 속에서 0.6 작동은 결코 발견되지 않습니다.
나는 어떤 분류기가 더 잘할 것이라고 생각합니다. 동일한 트리가이 단일 기능을 찾아서 먼저 0.5로 나눈 다음 0.2와 0.8의 분할에 도달 한 다음 순도 100 %의 잎으로 나눌 것입니다.
절대 그럴 수 없습니다. 어떤 MO도 이를 찾지 못합니다. 모델을 훈련하기 전에 쓰레기를 제거해야 합니다. "쓰레기 투입-쓰레기 배출"이 통계의 법칙입니다.
절대 안 됩니다. 모델을 학습시키기 전에 쓰레기를 제거해야 합니다. "쓰레기는 들어오고 쓰레기는 나간다"는 것이 통계의 법칙입니다.
저는 실험이 수행 된 특정 인공적인 예에 대해 이야기하고 있습니다. 쓰레기가 들어오고 쓰레기가 나가는 것이 아닙니다. 그 예에서 쓰레기는 쉽게 잘라낼 수 있습니다.
실험이 수행된 구체적인 인공 사례에 대해 말씀드리는 것입니다. 쓰레기가 들어오고 쓰레기가 나가는 것이 아닙니다. 이 예에서 알려진 것은 쉽게 잘라낼 수 있습니다.
제 요점을 명확히 하기 위해.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소는 쓰레기에서 더 효과적입니다. 오류 감소에 "편리한" 값을 가질 가능성이 훨씬 더 높기 때문입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 "중요도"가 더 높을 것이 확실합니다. 그렇기 때문에 모델 피팅 자체보다 훨씬 더 노동 집약적인 전처리가 필요합니다.
제 요점을 명확히 말씀드리겠습니다.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소를 위한 "편리한" 값이 쓰레기에서 훨씬 더 일반적이기 때문에 오류 감소는 쓰레기에서 더 효과적입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 '중요도'가 더 높을 것이 확실합니다. 그렇기 때문에 모델 피팅 자체보다 훨씬 더 노동 집약적인 전처리가 필요합니다.
무엇이 쓰레기가 아닌지 알려주세요. 순수한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.
그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가없는 것입니다. 그렇지 않으면 비교할 것이 없습니다.
제 요점을 명확히 말씀드리겠습니다.
모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소를 위한 "편리한" 값이 쓰레기에서 훨씬 더 일반적이기 때문에 오류 감소는 쓰레기에서 더 효과적입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 '중요도'가 더 높을 것이 확실합니다. 이것이 바로 실제 모델 피팅보다 훨씬 더 노동 집약적인 전처리가 있는 이유입니다.
무엇이 쓰레기가 아닌지 알려주실 수 있나요? 깨끗한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.
그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가 없는 것이고, 그렇지 않다면 비교할 것이 없습니다.
무엇이 쓰레기이고 무엇이 아닌지 아무도 모릅니다. 이것은 가상의 개념입니다.
무엇이 무엇인지 정확히 안다면 3K 페이지에 달하는 스레드는 존재하지 않을 것입니다.)))
단순히 이런저런 한계를 넘어서는 것이 "쓰레기"라고 가정하면, 이러한 한계 역시 가설적인 개념입니다. 그렇기 때문에 "쓰레기 인 - 쓰레기 아웃"이라는 표현은 아름다운 문구에 지나지 않으며, 한 연구자에게는 쓰레기 인 것이 다른 연구자에게는 쓰레기가 아닌 것입니다. 마치 엘리엇의 파도와 같습니다.