Encoding

Categorical vs One-hot vs Dummy

e.g) 노랑, 파랑, 초록

Categorical 노랑 = 0
파랑 = 1
초록 = 2
One-hot
노랑 = [1,0,0]
파랑 = [0,1,0]
초록 = [0,0,1]
Dummy
노랑 = [0,0]
파랑 = [1,0]
초록 = [0,1]

Categorical를 갖고 regression등을 fitting하면 각 카테고리마다 위상이 있다는 거니까 One-hot 으로 바꿔서 서로 다르다는 정보만 줘야함.
(nlp에서의 one-hot encoding 그거 맞음).

근데, logsitic등에서 그렇게 하면 문제는 data matrix X의 inverse 가 존재하지 않아서 fitting이 안됨.
이유는 one-hot은 하나의 column을 다른 column들로 만들 수 있고, 따라서 linearly dependent이고 따라서 X is not invertible so that there not exist $(X^tX)^{-1}$.

그래서 첫번째 column 제거한 Dummy를 써야함.

보통 남/여 처럼 binary이면 0,1인데, 이것도 사실은 [1,0], [0,1]에서 온것임.
따라서 0,1은 위상차이가 없는것임.

마찬가지로 보통 logistic분석할때 quantile들의 OR값 보여줄때, Q1은 1(reference)라고 하는데, 그렇게 하는 이유가 첫번째 column은 제거했기 때문임.