본문 바로가기
과학, IT 정보

데이터 속성의 부분집합은 어떻게 선택하는 걸까?

by 넘버원리뷰 2024. 3. 21.

1. 속성 부분 집합 선택이란 무엇일까?

속성 부분 집합 선택(Attribute Subset Selection)은 데이터의 차원을 줄이는 또 다른 방법입니다. 속성 부분 집합 선택은 데이터의 차원을 줄이고 분석을 더 효과적으로 만드는 데 도움을 줄 수 있습니다. 불필요하거나 중복된 속성을 제거함으로써 모델의 복잡성을 줄이고 더 간결하고 효율적인 데이터 표현을 얻을 수 있습니다. 이를 통해 분석 작업의 성능을 향상시킬 수 있으며, 과적합과 같은 문제를 방지할 수 있습니다.

 

중복된 속성

한개 이상의 다른 속성에 이미 포함된 정보를 중복해서 가지고 있는 속성입니다. 예를 들어, 제품의 구매가격과 납부한 세금액은 대부분의 정보를 중복하여 갖고 있습니다.

 

불필요한 속성

해당 데이터 마이닝 작업에 유용한 정보를 담고 있지 않은 속성입니다. 예를 들면 학생 ID는 학생의 학점 평균을 예측하는 작업과는 관련이 없는 속성일 수 있습니다.

 

2. '좋은' 속성 부분 집합은 어떻게 찾는 걸까?

특성 부분 집합을 찾는 것은 데이터를 분석할 때 매우 중요한 단계입니다. 하지만 모든 가능한 특성 부분 집합을 검색하는 것은 비용이 많이 들기 때문에 실용적이지 않습니다. 예를 들어, n개의 특성이 있다면 가능한 부분 집합은 2^n개가 됩니다. 이는 데이터의 크기가 커질수록 더욱 불가능한 작업이 됩니다.

이러한 문제를 해결하기 위해 탐욕적인 휴리스틱 방법이 사용됩니다. 이 방법은 검색 공간을 줄여 솔루션을 찾는데 도움을 줍니다. 탐욕적인 방법은 각 단계에서 현재 시점에서 가장 좋은 선택을 합니다. 이 방법은 실제로 효과적이며 최적의 솔루션에 매우 가까운 결과를 얻을 수 있습니다.

또한, 특성을 평가하고 선택하는 데 사용되는 다양한 지표가 있습니다. 예를 들어, 통계적 유의성 테스트를 사용하여 '최고'와 '최악'의 특성을 결정할 수 있습니다. 이러한 테스트는 일반적으로 특성이 서로 독립적이라고 가정합니다.

또한, 분류 모델을 구축할 때 사용되는 정보 이득과 같은 다른 평가 지표도 있습니다. 이러한 평가 지표는 특성이 분류 모델에 얼마나 중요한지를 측정하는 데 도움을 줍니다. 따라서 특성 부분 집합을 찾는 것은 분석의 성능과 결과에 큰 영향을 미칠 수 있습니다.

탐욕적(휴리스틱) 방법

속성 부분 집합 선택은 데이터의 차원을 줄이는 또 다른 방법입니다. 이를 위해 일반적으로 사용되는 방법 중 하나는 탐욕적인(휴리스틱) 방법입니다. 다양한 탐욕적 방법이 존재하는데, 그 중 대표적인 방법들은 다음과 같습니다.

  • 단계별 전진 선택
    이 방법은 속성 집합을 빈 상태로 시작합니다. 그리고 각 단계에서 남은 원래 속성 중에서 최적의 속성을 선택하여 집합에 추가합니다. 이 과정을 반복하면서 속성의 부분 집합을 구성합니다.
  • 단계별 후진 제거
    이 방법은 모든 속성이 포함된 전체 집합으로 시작합니다. 그리고 각 단계에서 집합에 남아 있는 최악의 속성을 제거하여 속성의 부분 집합을 만듭니다.
  • 전진 선택과 후진 제거의 결합
    이 방법은 각 단계에서 최적의 속성을 선택하고 동시에 남은 속성 중에서 최악의 속성을 제거하여 속성의 부분 집합을 생성합니다.

결론

의사결정 트리 생성 방법도 속성 부분 집합을 선택하는 데 사용됩니다. 이 방법은 각 노드에서 데이터를 개별 클래스로 분할하기 위해 가장 좋은 속성을 선택합니다. 속성 부분 집합 선택에 의사결정 트리 생성을 사용할 때는 주어진 데이터로부터 트리가 구축되며, 트리에 나타나지 않는 모든 속성이 관련이 없다고 가정됩니다. 이렇게 선택된 속성들이 속성의 부분 집합을 형성합니다.