<stratified sampling 방식이란>
랜덤 샘플링의 한가지 종류로 층별 샘플링이라고도 부름
우리나라 여론 조사에도 많이 쓰임
모집단을 몇개의 그룹으로 나누어 각 그룹에서 랜덤으로 샘플을 추출
그룹별 차이는 크고, 그룹안에서의 차이는 작을 때 유용한 샘플링 방법
그룹의 크기에 비례하여 그 그룹에서 추출할 샘플의 수가 결정됨
stratification : 그룹으로 나누는 것
strata : 각 그룹을 부르는 이름
python으로 구형할 때는 sklearn 라이브러리의 train_test_split 함수를 이용할 수 있다
train_test_split 의 마지막 인자인 stratified=y를 해주면 된다.
'COMPUTER > RECOMMENDATION' 카테고리의 다른 글
추천 시스템의 평가 (0) | 2022.08.30 |
---|---|
cold start problem이란 (0) | 2022.06.22 |