<stratified sampling 방식이란>

랜덤 샘플링의 한가지 종류로 층별 샘플링이라고도 부름

우리나라 여론 조사에도 많이 쓰임

모집단을 몇개의 그룹으로 나누어 각 그룹에서 랜덤으로 샘플을 추출

그룹별 차이는 크고, 그룹안에서의 차이는 작을 때 유용한 샘플링 방법

그룹의 크기에 비례하여 그 그룹에서 추출할 샘플의 수가 결정됨

stratification : 그룹으로 나누는 것 

strata : 각 그룹을 부르는 이름

 

python으로 구형할 때는 sklearn 라이브러리의 train_test_split 함수를 이용할 수 있다

train_test_split 의 마지막 인자인 stratified=y를 해주면 된다. 

 

'COMPUTER > RECOMMENDATION' 카테고리의 다른 글

추천 시스템의 평가  (0) 2022.08.30
cold start problem이란  (0) 2022.06.22

+ Recent posts