데이터의 여러 변수와 결과 관계 이해하기

여러 변수를 동반하는 데이터 분석에 있어서, 상관 관계와 인과 관계의 차이를 유념하여 문제 원인 파악과 개선을 위한 정확한 방향을 잡도록 검토할 수 있습니다.


뷰저블에서는 사용자를 다양한 세그먼트별로 분류하여 사용자의 행동 차이를 비교할 수 있습니다.


1) 각각 다른 유입 경로(Referrer) 별로 사용자의 행동의 차이가 어떻게 발생하는지 비교해볼 수 있습니다.


[beusable.net]에서 유입한 사용자와 [facebook]에서 유입한 사용자의 마우스 이동 패턴의 차이 비교
[beusable.net]에서 유입한 사용자와 [facebook]에서 유입한 사용자의 마우스 이동 패턴의 차이 비교

2) 페이지에서 전환 된 사용자와 이탈한 사용자 각각이 어떤 행동 패턴의 차이를 보였는지 비교해볼 수 있습니다.


[전환]한 사용자와 [이탈]한 사용자 각각이, 스크롤을 움직인 행동 패턴의 차이 비교하기
[전환]한 사용자와 [이탈]한 사용자 각각이, 스크롤을 움직인 행동 패턴의 차이 비교하기

이와 같이 여러 변수별로 행동을 비교하고 결과를 분석할 때, 확인할 수 있는 결과의 차이가 설정한 분류 차이로 인한 것인지, 아니면 분류와 결과의 차이가 원인/결과 관계가 아닌 단지 상관이 있는 요소인지를 구분해야 합니다. 즉 비교해보고자 했던 분류와 결과가 서로 상관 관계에 놓여 있는지, 아니면 인과 관계에 놓여있는지를 파악해야 하는 것입니다.



먼저, 상관 관계와 인과 관계의 사전적 의미는 다음과 같습니다.


[상관 관계]

1 .두 가지 가운데 한쪽이 변화하면 다른 한쪽도 따라서 변화하는 관계.
2 .한쪽이 증가하면 다른 한쪽도 증가하거나 반대로 감소하는 경향을 인정하는 두 변량(變量) 사이의 통계적 관계.

http://krdic.naver.com/detail.nhn?docid=20142700


[인과 관계]

1 .어떤 행위와 그 후에 발생한 사실과의 사이에 원인과 결과의 관계가 있는 일. 민법, 형법에서 행위자에게 책임을 지우는 근거가 된다.
2 .한 현상은 다른 현상의 원인이 되고, 그 다른 현상은 먼저의 현상의 결과가 되는 관계.

http://krdic.naver.com/detail.nhn?docid=30839000


어떤 A라는 항목이 변동할 때, B항목도 함께 변동한다면 A와 B 사이에는 상관 계수가 존재하게 되며, 이때 A와 B는 상관 관계에 놓여있다고 볼 수 있습니다. 만약 B 항목의 변동 원인이 A가 된다는 것을 증명할 수 있다면 A와 B는 인과 관계 (원인A와 결과B)에 놓여있다고 볼 수 있게 되는 것입니다. 

즉, 상관 관계와 인과 관계는 각 항목들이 동시에 변동한다는 현상이 존재하다는 것에서 비슷하나, 변동에 대한 증명된 원인인지 여부에 따라 인과 관계가 될 수 있거나 단지 상관 관계로 남아있을 수 있는데 차이가 있습니다.



상관 관계와 인과 관계의 이해 차이에서 발생할 수 있는 오해로 다음과 같은 사례를 볼 수 있습니다.


한 연구자가 아이스크림 판매량의 연중 증감 추이와 익사 사망자의 증감 추이를 놓고 상관 분석을 시행했을 때, 명백한 상관관계를 확인할 수 있었다. 
아이스크림 판매량이 급증하거나 감소할 때, 익사 사망자 수도 함께 증가하고 감소하고 있었던 것이었다. 연구자는 다음과 같은 결론을 내렸다.
“익사 사망자의 증감은 아이스크림이 원인이다.”
(출처: wiki : https://goo.gl/GchVIT )


여기에서 연구자는 두 가지 항목의 변동의 상관성만 확인했지, 실제 각 항목들의 발생 원인을 제대로 이해하지 못하고 다른 변수들을 검토해보지 않음으로써 위와 같은 잘못된 인과관계 도출을 만들어냈습니다.

만약 각 항목들이 여름 평균 온도에 영향을 받는다는 것을 이해하고 온도라는 변수를 확인할 수 있었다면, 실제 인과 관계가 어떻게 되는지, 그리고 두 항목들이 어떤 원인으로 인해 상관 관계를 갖게 되었는지 정확한 파악을 할 수 있었을 것입니다.



위 사례는 우스운 사례가 될 수 있겠지만, 실제로 현실에서 상관 관계와 인과 관계의 차이를 간과해버리고 쉽게 분석을 하고자 한다면, 엉뚱한 것을 문제로 인지하고 잘못된 방향으로 흘러가게 되어 위와 같은 오류를 범할 수 있게 될 것입니다.

특히, 사용자의 행동은 일 차원적인 한 가지 단순한 원인으로 인해 발생하는 것이 아니라 여러 복합적인 변수(유입 경로, 기기, 브라우저와 같은 환경, 인터넷 상태나 사용자 개인의 목적과 관심도의 차이 등)에 의해 발생합니다. 따라서 사용자의 데이터를 분석할 때 위와 같이 우스운 오류를 범하지 않고, 상관 관계와 인과 관계를 확실하게 구분하기 위해서는 각 항목들의 독립적인 이해와 다른 변수들이 동일한지, 또는 상관관계를 갖고 있는 또 다른 항목들이 있다면 그 항목들도 함께 분석해볼 필요가 있습니다.


예시1) 유입 경로의 변동에 따른 원인을 인과 관계로 설정하기 전

실제 유입 경로 페이지가 영향을 끼친 것이라면 인과 관계로써 원인이 될 수 있겠지만, 유입 경로 페이지에 사용자들이 간 실제 이유와 정황에 대해서, 그리고 마케팅 수단(채널, 콘텐츠, 방식)이나 특정 환경의 차이(기기나 해상도) 등과 같은 다른 변수가 존재하지 않는지 파악할 필요가 있습니다. 


예시2) 클릭율의 차이 결과를 파악하고 인과 관계로 설정하기 전

사용자가 얼마나 클릭 이벤트를 발생시켰는지에 대한 정보로 사용자가 해당 콘텐츠를 목적지로 판단한 정도로 이해할 수 있습니다. 

하지만 클릭율을 확인할 때, 클릭 이벤트의 발생 횟수 외에도 실제 클릭한 사용자의 수, 그 위치까지 도달한 사용자 중 클릭한 사용자의 비율(노출 대비 클릭율) 등을 함께 비교하여 콘텐츠에 대한 사용자의 행동을 다양한 방면에서 분석해보고 정확하게 이해할 수 있습니다.



이 포스팅은 영리적 사용이 불가하며, 비영리적으로 사용 시 출처를 명시해 주시기 바랍니다.

Print Friendly, PDF & Email

Share This Post

Share on facebook
Share on linkedin
Share on twitter
Share on email

Related