<stratified sampling 방식이란>

랜덤 샘플링의 한가지 종류로 층별 샘플링이라고도 부름

우리나라 여론 조사에도 많이 쓰임

모집단을 몇개의 그룹으로 나누어 각 그룹에서 랜덤으로 샘플을 추출

그룹별 차이는 크고, 그룹안에서의 차이는 작을 때 유용한 샘플링 방법

그룹의 크기에 비례하여 그 그룹에서 추출할 샘플의 수가 결정됨

stratification : 그룹으로 나누는 것 

strata : 각 그룹을 부르는 이름

 

python으로 구형할 때는 sklearn 라이브러리의 train_test_split 함수를 이용할 수 있다

train_test_split 의 마지막 인자인 stratified=y를 해주면 된다. 

 

'COMPUTER > RECOMMENDATION' 카테고리의 다른 글

추천 시스템의 평가  (0) 2022.08.30
cold start problem이란  (0) 2022.06.22

RMSE(Root Mean Squared Error) : 예측값과 실제값의 차이의 제곱의 평균

RMSE가 작을 수록 정확한 시스템. 따라서 RMSE가 0일떄 최소값이다. 

RMSE의 최대값은 평점(yi) 의 값과 동일하다. 예를 들어 평점이 5까지 있는 경우 예상평점이 0이면 RMSE값은 5가 나오고므로 N의 범위와 상관없이 5이다. 만약 평점이 100까지 있다면  RMSE의 최대값은 100이 되겠다.

따라서 평점이 다른 두개의 추천 시스템을 비교한다면 RMSE 값을 직접 비교하면 안되고 뭔가 Normalize 하는 절차가 필요할 것으로 예상된다. 

NETFLIX PRIZE의 경우에는 같은 데이터에 대해서 다양한 추천 시스템을 비교하므로 RMSE를 척도로 사용할 수 있었겠지만, 만약 평점의 Range가 다른 다양한 데이터에서의 다른 추천시스템의 성능을 비교할때 RMSE 값만으로 단순하게 비교하면 오류가 있을 수 있다. 

'COMPUTER > RECOMMENDATION' 카테고리의 다른 글

stratified sampling (층별 샘플링)  (0) 2022.09.09
cold start problem이란  (0) 2022.06.22

데이터를 분석하여 추천을 하는 추천 시스템에서

새로운 사용자나 데이터가 적은 사용자에게 추천을 할 때 생기는 문제

데이터가 적으면 그 사용자에 대한 충분한 정보를 얻을 수 없기 때문에 양질의 추천을 할 수가 없음..

이것을 극복하기 위한 다양한 연구가 있음

 

 

'COMPUTER > RECOMMENDATION' 카테고리의 다른 글

stratified sampling (층별 샘플링)  (0) 2022.09.09
추천 시스템의 평가  (0) 2022.08.30

+ Recent posts