본문 바로가기
Etc

#1 Data Scientist? - 통계학 전공자의 역할

by be-favorite 2020. 2. 16.

❗️블로그 옮김:  https://www.taemobang.com

 

방태모

안녕하세요, 제 블로그에 오신 것을 환영합니다. 통계학을 전공으로 학부, 석사를 졸업했습니다. 현재는 가천대 길병원 G-ABC에서 Data Science를 하고있습니다. 통계학, 시계열, 통계적학습과 기계

www.taemobang.com

데이터 분석가(data analyst) 또는 데이터 과학자(data scientist)라고 표현되는 직업을 갖고 싶었습니다. 그래서 이러한 직무는 어떤 역량이 필요하며, 기업에서의 대략적인 역할과 통계학 전공자가 잘할 수 있는 부분은 어떤 것인지 늘 궁금했습니다. 이러한 부분을 어느정도 파악하고 공부 또는 취업 준비를 하는 사람과 아무 생각이 없이 누군가를 따라서 나아가는 사람의 차이는 크다고 생각했기때문입니다. 저부터도 과거 학부생때 아무 생각없이 누군가를 따라 공부를 하다보니, 학부 졸업시점엔 데이터 분석가 또는 데이터 과학자가 될 목적에는 딱히 필요없는 자격증이 손에 쥐어져 있었습니다.😅 또한, 공부하고있는 범위(분야)도 쓸데없이 넓어지다보니, 이렇게 가다간 결국 취업시장에서 특별한 아이덴티티가 없는 사람이 될것만 같았습니다.

 

데이터 과학(data science)이라는 용어 자체가 생긴지 오래된 말이 아닌만큼 저마다의 많은 정의가 있었습니다. 몇몇 글을 찾아보고 내린 개인적인 결론은 한마디로 명확하게 어떤 일을 하는 직업이라고 정의하긴 어렵다는 것입니다. 데이터 과학자 에 대해 정의하는 많은 영상 또는 글중에 가장 공감이 가고, 정확하다고 생각들었던 것은 유튜브의 Joma Tech 라는 채널의 <What REALLY is Data Science? Told by a Data Scientist> 라는 영상이였습니다.

 

on Youtube channer Joma Tech

 

데이터 과학이 무엇인지에 대해 고민했던 사람은 위 영상을 꼭 직접 봤으면 좋겠네요. 이 글은 사실상 위 영상을 기반으로 쓰는 제 생각이라 할 수 있겠습니다. 참고로 해당 채널의 유튜버는 GAFA(Google, Apple, Facebook, Amazon)에서 일하는 데이터 과학자이며, 인터넷 특히 유튜브에서 데이터 과학 또는 데이터 과학자에 대한 오해가 많이 퍼져있어 위 영상을 찍기로 결정했다고 합니다. 저만 혼란스러웠던 것이 아니군요.😊

 

Joma Tech님에 따르면 데이터 과학이란 단순히 복잡한 모형을 만드는 것이 아니며, 훌륭한 시각화를 만들어내는 것 또는 코드를 작성하는것도 아니다. 데이터 과학이란 그저 데이터를 이용하여 당신의 회사(또는 업무)를 위해 가능한한 가장 영향력이 큰 어떤 것을 만들어 내는 것이다. 여기서 말하는 영향력이란 다양한 형태로 존재하고, 예를 들면 기업의 어떤 의사결정을 위한 인사이트를 제공하는 것 또는 어떤 제품이 더 나을 지에 대한 추천(i.e. A/B testing)일 수도 있습니다. 즉 이러한것들을 하기위한 해결책으로 그저 복잡한 모형 또는 시각화, 코드 작성 등을 할수있는 툴(e.g. R, python)이 필요로 된다는 것이죠. 이 말을 듣고 머리를 꽝 맞은 듯한 기분이 들었습니다. 어느 순간 어려운 예측모형들에 대한 동경을 품고 그저 그것들만이 훌륭한 데이터 과학자 또는 데이터 분석가가 되는 길이라고 착각해왔던 제가 부끄러웠습니다. 예측모형, 훌륭한 시각화, 통계적 가설검정 등은 단지 의사결정 또는 제품 버전 추천 등의 일에 필요로 되는 것들일 뿐이라는 점이죠. 반대로, 기업의 의사결정에 도움이 되지 않는 복잡하고 어려운 예측모형은 쓸모 없다는 말이겠죠. 물론 "데이터 과학"이라는 용어에 대하여 다른 견해를 가지는 사람이 있을 수 도 있지만 저는 매우 감명받았습니다. 😂 


DataScience 저널에서는 데이터 과학을 데이터를 가지고 할 수 있는 어떤 모든 것이라고 표현하기도 했습니다. 학술적 발전과 컴퓨팅 기술의 발달로 2010년대에는 Knowledge-driven approach가 아닌 data-driven approach를 이용하여 모형을 훈련(train)시키는 것이 가능해져서, RNN과 SVM 등에 대한 모든 이론적 논문이 실현 가능해진 것이죠. 즉, 오늘날 AI, 기계학습 등과 함께 상당히 자주 거론되는 딥러닝은 더이상 페이퍼에만 존재하는 학술적 개념이 아니죠. 2016년 딥마인드의 알파고가 이세돌과의 바둑 대결에서 압도적으로 승리한 후로, 우리나라에서도 머신러닝과 AI, 딥러닝이라는 키워드에 붐이 있었고 세 키워드가 미디어를 지배해습니다. 그래서 일반 대중들은 데이터 과학라는 용어를 접하면 머신러닝이나 AI, 딥러닝에 집중하는 연구자라고 생각하기 쉬울거라 생각합니다. 통계학 학부생이라 할 수 있는 저 또한 이렇게 생각을 했죠.. 멍청하게. 이렇게 미디어에서 강조되는 키워드들 이외에도 사실 데이터 과학이 갖는 다른 것들은 많습니다. 예를 들면 탐색적 자료분석(exploratory data analysis, EDA)도 데이터 과학의 일부입니다. 그리고, 이 탐색적 자료분석 단계에서도 우리는 자료로부터 상당히 많은 인사이트를 얻을 수 있죠.

 
여전히 업계는 데이터 과학자를 분석가로써 고용한다고 합니다. 즉, 좋은 데이터 과학자가 된다는 것은 "모형을 얼마나 잘 advance할 수 있는가?"가 아니라, "당신이 결정해야하는 문제에 얼마나 많은 영향을 미칠 수 있는가?"라고 할 수 있습니다. 즉, 기업 입장에서 데이터 과학자는 문제 해결자(problem solver)이자 전략가(strategist)라고 할 수 있겠죠. 그래서, 업계의 도메인 지식도 상당히 중요한 부분이라고 할 수 있습니다. 기업은 결정하기 데이터 과학자에게 가장 애매모호하고 어려운 문제를 줄것이며, 이에 대한 가이드라인을 주어진 자료를 기반으로 제공해야합니다. 그럼 이제 마지막으로 Joma Tech님이 알려주는 데이터 과학자 가 맡을 수 있는 실제 업무에 대해서 간략히 알아보겠습니다:

 

출처 - https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

 

다만, 위 유튜버분은 미국 업계에서 종사하고 계신 분이여서, 한국 업계와는 조금 다를 수도 있을것 같습니다. 혹시 이 글을 데이터 과학자 또는 데이터 분석가로서 종사하고 계시는 한국의 현직자분들이 읽고 계신다면 댓글로 한국 업계는 어떤지에 대해 피드백을 남겨주시면 정말 많은 도움이 될 것 같습니다.😊

 

설명의 편의를 위해 피라미드의 맨 하단부부터 상단부까지 1-6번이라고 하겠습니다. 먼저 1번, 2번 파트에서는 데이터를 모으고, 저장하고, 변환하는등의 능력이 필요하며, 이런 업무를 데이터 엔지니어링(data engineering)이라 표현합니다. 빅데이터는 그 크기만큼 관리가 힘들기 때문에 매우 중요한 부분이죠. 이는 빅데이터 관리의 어려움에 대해 대해 얘기하면서 미디어에서도 꽤 몇번 언급되었던 부분입니다. 대중에게 가장 덜 알려졌다고 할 수 있는 부분은 바로 피라미드의 사이에 있는 3, 4, 5번 파트입니다. 이 파트들은 사실 기업에 어떤 조언 또는 인사이트를 직접적으로 제공할때 가장 필요한 부분이므로, 가장 중요한 파트들이라고 할 수 있습니다. 왜 가장 중요한 파트인지 설명하기 위해 먼저 몇몇 용어들에 대한 설명이 필요합니다. 4번 파트에 analytics란 데이터를 사용해 어떤 인사이트를 주는것을 의미하며, metrics는 기업의 제품이 성공적으로 진행되고 있는지를 알려주는 것이라 할 수 있습니다. 마지막으로 5번 파트의 experimentation은 한 제품의 어떤 버전이 best인지를 말해줍니다. 이런 부분들은 매우 중요한데, 미디어에서는 사실 잘 다뤄지지않는 부분입니다. 미디어에서 주로 다루는 것은 피라미드의 최상단에 있는 AI, 딥러닝이죠. 두 용어는 미디어에서 수도없이 접할 수 있습니다. 그러나 업계에서는 사실 이게 가장 높은 우선순위가 아닐 수 있고, 적어도 최소한의 노력으로 가장 큰 결과를 얻어낼 수 있는 파트도 아닙니다. 이게 AI와 딥러닝을 피라미드의 최상단에 배치한 이유입니다. 차라리, 기업 입장에서 가장 큰 우선순위 또는 최소한 노력으로 최대결과를 얻을 수 있는 파트는 5번의 A/B testing analytics일 수도 있습니다.

 

그래서 데이터 과학자들이 실제로 하는건 무엇이냐? 사실 이건 회사에 따라 다르며, 특히 회사의 크기(size)에 달려있다고 합니다.

 

(1) 스타트업(Start-up)

스타트업의 경우 적은 예산으로 많은 직원을 고용할 수 없습니다. 그래서 만약 데이터 과학자를 한 명만 고용할 수 있다면, 그 사람의 업무는 아마 피라미드의 최상단인 AI와 딥러닝을 빼고 모두 다 수행할 줄 아는 사람이어야 할 것입니다. AI 또는 딥러닝을 스타트업에서 하지 않을 수도 있는 이유는 그것이 최고 우선순위가 아닐 수 있어서라고 합니다. 다만, 이는 만약 어떤 스타트업의 주요 업무자체가 딥러닝을 이용해 풀어야만 하는 문제라면 얘기가 달라질 것입니다.

 

(2) Medium-sized
정확히 어느 정도 규모를 말하는지는 잘 모르겠습니다. 아마 중소기업 정도 규모로 추정됩니다. 이제 어느정도 기업에 자본이 생겼고. 이정도 급의 기업은 데이터 엔지니어(data engineer)와 데이터 과학자를 따로 채용할 수 있습니다. 그래서 1번 파트는 소프트 웨어 엔지니어(software engineer), 2번과 3번 파트는 데이터 엔지니어가 담당할 것입니다. 그리고 나머지 파트들을 데이터 과학자(data scientist)가 수행할 것입니다. 즉, 좀 더 기술적인 문제를 다루게 되는 것이죠. 그게 바로 업계에서 이러한 업무를 맡을 데이터 과학자들을 채용하고자 할 때 박사 학위 또는 석사 학위를 소지한 사람들을 원하는 이유라고 합니다. 왜냐하면 이정도 규모의 회사들은 더 복잡한 문제들을 다룰 수 있는 사람들을 원하기 때문이죠.😃

 

(3) Large-sized
아마 중견기업 이상을 말하는 것으로 추정합니다. 이제는 자본이 더 많아져서 더 많은 전문적인 직원들을 고용할 수 있게 됩니다. 즉 이정도 규모의 회사에서는 본인이 가장 잘하는 것에 집중할 수 있습니다. 예를 들어 Joma Tech님 본인이 이정도 규모의 회사에 들어간다면, 피라미드의 4번에 있는 analytics과 metrics 등과 같은 업무를 수행할 것 같다고 합니다. 즉, 만약 본인이 자신없는 업무가 데이터 엔지니어링이나 AI, 딥러닝이라면, 이와 같은 것들에 대해 신경 쓸 필요가 없어진다는 말이죠. 1번 파트는 소프트웨어 엔지니어, 2번과 3번 파트는 데이터 엔지니어, 4번과5번 파트는 데이터 과학자(analytics 업무를 하는 분석가), 마지막 6번 파트는 연구 과학자(researcher scientist) 또는 core data science, ML(machine learning) 엔지니어가 수행할 것입니다.

마지막으로 요약하면 이때까지 설명한 대로 데이터 과학은 위 피라미드 그림의 모든것이 될 수 있고, 어떤 회사, 어떤 환경에 있는지에 따라 달려있습니다. 즉, 데이터 과학자가 맡는 업무에 대한 정의는 상황에 따라 달라진다고 할 수 있죠. 제 개인적 견해로는 학부와 석사로 통계학을 전공한 졸업자가 가장 잘 할 수 있고, 데이터 과학 직무를 준비하는 다른 사람들에 비해 가질 수 있는 아이덴티티는 피라미드의 3, 4, 5번 파트라고 생각합니다.😊

데이터 과학자 또는 데이터 분석가에 대해 최대한 구체적으로 쓰다보니 글이 길어졌습니다. 혹시 질문이나 궁금한 점, 같이 얘기해보고 싶은 점이 있다면 블로그 좌측 하단에 메일 또는 댓글을 달아주세요. 긴 글 읽어주셔서 감사합니다.🙏

댓글