데이터 사이언스 거품 | 미국 Ibm 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실 78 개의 베스트 답변

당신은 주제를 찾고 있습니까 “데이터 사이언스 거품 – 미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실“? 다음 카테고리의 웹사이트 https://ppa.charoenmotorcycles.com 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.charoenmotorcycles.com/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 슬기로운통계생활 이(가) 작성한 기사에는 조회수 13,058회 및 좋아요 264개 개의 좋아요가 있습니다.

데이터 사이언스 거품 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실 – 데이터 사이언스 거품 주제에 대한 세부정보를 참조하세요

#IBM #데이터사이언티스트 로 일하고 계신 록준님과의 인터뷰 영상 1편입니다~! 재미있는 이야기를 많이 나눴는데 뭘 먼저 편집해야 될 지 모르겠네유ㅎㅎㅎ
IBM 데이터사이언티스트 의 이야기가 궁금하다면! RJ Studio를 구독해주세요~~! 🙂
https://www.youtube.com/channel/UCrmJdnPmle514qkK3lLOsVQ
🧑‍💻슬통갱😎🤓 가입하기:
https://www.youtube.com/channel/UC5FvzLMVNrTMW-ycrW-4KyA/join
📘📗슬기로운통계생활 X 클래스101 엑셀을 활용한 기초통계 강의📕📒
https://class101.app/e/issacstatistics_class

데이터 사이언스 거품 주제에 대한 자세한 내용은 여기를 참조하세요.

데이터 사이언스 거품 | 당신에게 필요한 진짜 데이터 … – MAXFIT

데이터사이언스가 거품인 이유 – 프로그래밍 갤러리 · 프로그래밍 못해도 데이터 과학자가 될 수 있을까? · [일반] 인공지능 산업의 거품이 꺼져가는듯 …

+ 여기에 표시

Source: you.maxfit.vn

Date Published: 4/28/2022

View: 2100

데이터사이언스가 거품인 이유 – 프로그래밍 갤러리

데이터사이언스가 거품인 이유. ㅇㅇ(110.70); 2020.02.15 22:19. 조회수 1461; 추천 1; 댓글 3. 통계학자체가 지루하고 재미가없음. 데이터가 가치있을때는 가공된 …

+ 여기를 클릭

Source: m.dcinside.com

Date Published: 10/21/2022

View: 2325

[일반] 인공지능 산업의 거품이 꺼져가는듯 하네요… – Pgr21

몇 년 전에 데이터 사이언스 블로그 하시던 분이 그러시더라고요. 한국은 아직 후발주자라 갈피를 못잡고 buzz word에만 매몰돼서 어중이 떠중이들이 …

+ 여기에 보기

Source: pgr21.com

Date Published: 10/6/2022

View: 9690

프로그래밍 못해도 데이터 과학자가 될 수 있을까?

‘데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 … 두 번째는 데이터 과학의 공급이 과잉되어 고용 시장의 거품이 터진다는 점 …

+ 여기에 자세히 보기

Source: m.hanbit.co.kr

Date Published: 10/25/2021

View: 8740

억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ①

그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. … 위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 …

+ 더 읽기

Source: www.mk.co.kr

Date Published: 12/5/2021

View: 1288

이직·커리어: 데이터 사이언스 관련 질문 – Blind

우선 답변해주시는 분들께 미리 감사합니다.안녕하세요. 현재 회계법인에서 근무중인 4년차 회계사입니다. 최근 커리어 고민을 많이 하고 있는데요, …

+ 여기에 더 보기

Source: www.teamblind.com

Date Published: 12/28/2021

View: 4840

주제와 관련된 이미지 데이터 사이언스 거품

주제와 관련된 더 많은 사진을 참조하십시오 미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실
미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실

주제에 대한 기사 평가 데이터 사이언스 거품

  • Author: 슬기로운통계생활
  • Views: 조회수 13,058회
  • Likes: 좋아요 264개
  • Date Published: 2022. 1. 23.
  • Video Url link: https://www.youtube.com/watch?v=gIXQXLArTrM

프로그래밍 못해도 데이터 과학자가 될 수 있을까?

“데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 데이터를 사용하는 과정이다.”

데이터 과학이라는 게 새로운 내용의 개념은 아니다. 과거에도 판매 수치나 동향은 분석해왔다. 다만, 지난 10년간 과거보다 기하급수적으로 더 많은 데이터에 접근할 수 있게 되었고, 컴퓨터는 모든 데이터의 생성을 돕는 동시에 많은 정보를 처리하는 유일한 방법이 되었다.

데이터 과학자는 컴퓨터 코드로 데이터를 변환하거나 집계 및 통계 분석, 머신러닝 모델을 훈련하는 등의 일을 한다. 코드 결과는 소비와 관련된 보고서 또는 대시보드, 연속적으로 실행하도록 배치된 머신러닝 모델일 수도 있다.

데이터 과학이란 무엇인가?

새로운 매장을 오픈하는 소매업이 좋은 위치를 선정하기 위해 데이터 과학자에게 데이터 분석을 의뢰한다고 가정해보자. 의뢰를 받은 데이터 과학자는 과거의 온라인 주문 배송지 데이터를 참고하여 상권을 분석해 고객 수요가 있을 만한 곳을 찾는다.

그리고 고객 위치 데이터 및 해당 지역의 인구 조사를 통한 인구 통계 및 소득 정보를 결합한다. 이런 데이터셋으로 찾아낸 최적의 장소를 추천하게 된다.

또 다른 예로 어느 기업에서 고객이 쇼핑할 때 상품을 추천하고 구매로 이어지게 하여 온라인 주문량을 늘리고 싶어 할 수 있다.

이때 데이터 과학자는 과거의 웹 주문 데이터를 불러와 현재 장바구니 항목을 토대로 소비자 니즈에 맞는 상품을 예측하는 머신러닝 모델을 만든다. 이후 회사의 기술 팀과 협업해 고객이 쇼핑을 할 때마다 상품을 추천하는 시스템을 개발할 것이다.

“많은 사람이 데이터 과학을 연구하기 시작할 때 앞으로 배우게 될 분량에 압도당한다.”

코딩(무슨 언어를 배워야 하는가), 통계(어떤 방법이 가장 중요하고 어떤 방법이 그나마 학문적인가), 머신러닝(머신러닝이 통계나 AI와 어떻게 다른가), 일하고 싶은 분야의 기본 지식 등… 잠시 숨을 한 번 고르고 이어가자. (후읍, 파)

다른 데이터 과학자부터 최고 경영자에 이르기까지 다양한 청중에게 효과적으로 결과를 전달하기 위한 비즈니스 기술도 필요하다. 박사 학위 취득과 수년간의 데이터 과학 경력, 통계 및 프로그래밍 전문 지식을 요구하는 채용 공고를 보면 은근슬쩍 불안감이 찾아올 수도 있다.

“어떻게 모든 기술을 배울 수 있을까? 어느 것부터 시작해야 할까? 기본은 무엇일까?”

데이터 과학의 다양한 영역을 살펴보다 보면 드루 콘웨이(Drew Conway)의 데이터 과학 벤다이어그램을 접하게된다. 처음 발표할 당시 드루 콘웨이는 ‘데이터 과학은 수학과 통계 영역에서 전문성, 해킹 기술(코딩)의 교차점에 속한다’라고 말했다.

[데이터 과학을 만든 기술 결합]

위 그림은 데이터 과학자를 정의할 때 종종 사용된다. 드루 콘웨이가 제안한 데이터 과학의 구성 요소를 약간 다르게 변형한 것이다. 세 가지 모두 기본 기술이고 각 기술을 어느 정도 알고 있어야 한다. 하지만 이 모든 기술을 알고 있는 전문가가 될 필요는 없다.

다양한 종류의 데이터 과학 전문 분야를 정리했지만, 그것이 항상 직업과 연결되지는 않는다. 설령 연결된다 하더라도 많은 기업에서 해당 분야의 직업을 다르게 부른다. 그렇다면 각 구성 요소는 무엇을 의미하는지부터 살펴봐야 겠다.

수학과 통계학

기본적인 수준에서 수학과 통계학 지식은 데이터 활용 능력과 같다. 전자 상거래 업체에서 일하고 있으며 비즈니스 파트너가 평균 주문 금액이 가장 높은 국가에 관심을 두고 있다고 가정해보자. 데이터를 활용할 수 있다면 이 질문에 쉽게 답할 수 있다. 단순히 정보를 제시하고 결론을 도출하기에 앞서, 좀 더 깊이 들어가 예를 들어보자.

A 국가로부터 100달러에 주문 한 건을 받고 B 국가로부터 평균 75달러에 1,000건의 주문을 받았다면? A 국가가 더 높은 평균 주문 가치를 지니는 게 맞다. 그렇다면 주문 수를 늘리고자 A 국가의 광고에 반드시 투자해야 할까? 그렇지 않다.

A 국가의 주문이 500개라면 통계적 검증으로 평균 주문 금액이 얼마나 다른지 확인할 수 있다. 즉 A, B 국가 간 차이가 정말로 없다면 차이점을 볼 수 없다. 그래서 어떤 접근 방법이 합리적이고 어떤 것을 고려해야 하며 어느 결과가 중요하지 않은지 여러 검증 단계가 필요하다.

프로그래밍과 데이터베이스

여기서 말하는 프로그래밍은 회사 데이터베이스에서 데이터를 가져와서 깔끔하고 효율적이며 유지 보수가 훌륭한 코드로 작성하는 기술을 말한다.

데이터 과학자는 미리 정의된 결과를 생성하기보다 확장 가능한 분석이 이뤄지는 코드를 작성해야 한다. 이를 제외하고는 여러 면에서 소프트웨어 개발자가 알아야 할 부분과 프로그래밍을 하는 부분은 유사하다.

기업마다 데이터 구성이 다르며 데이터 과학자에게 정해진 기술은 없다. 다만 데이터베이스에서 데이터를 가져오는 방법, 데이터 정리, 조작, 요약, 시각화, 공유 방법을 알아야 한다.

대부분 데이터 과학 업무는 R이나 파이썬을 주요 언어로 사용한다. R은 통계학을 기반한 프로그래밍 언어이다. 일반적으로 통계 분석 및 모델링, 시각화, 결과 보고서 생성 등에 적합하다.

파이썬은 범용 소프트웨어 개발 언어로 시작된 프로그래밍 언어로 데이터 과학 분야에서 큰 인기를 끌고 있다. 파이썬은 대용량 데이터셋 작업, 머신러닝 및 실시간 알고리즘(아마존의 추천 엔진)에서 더 훌륭하다고 알려져 있다.

하지만 두 언어는 많은 기여자의 노력으로 비슷한 수준이 됐다. 데이터 과학자는 R을 사용해 일주일에 수백만 번 실행되는 머신러닝 모델을 만드는 동시에 파이썬에서 깔끔하고 보기 좋은 통계 분석을 한다. R과 파이썬은 다양한 이유로 데이터 과학 분야에서 유명한 언어다.

● 둘 다 오픈 소스 언어이고 무료다. 많은 사람과 기업, 조직, 기여자가 코드를 제공한다. 데이터 수집, 조작, 시각화, 통계 분석, 머신러닝을 할 수 있는 다양한 패키지 및 라이브러리(코드 집합)도 많다.

● 사용자가 워낙 많아 코드 실행 중 문제가 발생하면 도움을 받기 쉽다. 아직 많은 기업에서 SAS, SPSS, 스타타(stata), 매트랩(matlab) 등과 같은 상용 프로그램을 사용하기도 하지만 R과 파이썬으로 옮기는 추세이다.

대부분 데이터 과학 분석이 R이나 파이썬으로 이뤄지지만 데이터를 가져올 때는 데이터베이스 작업을 위해 SQL 언어를 사용한다. SQL은 데이터베이스에서 데이터를 조작 및 추출 시 사용하는 프로그래밍 언어다.

일일 주문량이 어떻게 변화할지 예측하기 위해 기업 내 고객 주문 레코드 수억 개를 분석한다고 가정해보자. 먼저 일자별 주문량을 가져오려면 SQL 쿼리를 작성해야 한다. 그다음 일일 주문량을 가져와서 R이나 파이썬으로 통계 예측을 실행한다. 이런 이유로 SQL은 데이터 과학 커뮤니티에서 인기가 높다.

마지막으로 중요한 부분은 이전 코드가 어떻게 변경됐는지 추적하는 버전 관리다. 버전 관리를 통해 파일을 저장하고 이전 시간으로 되돌리며 누가 어떤 파일을 어떻게, 언제 변경했는지 확인할 수 있다. 데이터 과학과 소프트웨어 공학에서 매우 중요하다. 누군가 실수로 잘못된 코드를 저장하면 되돌리거나 어디가 바뀌었는지 확인할 수 있어야 한다.

버전 관리에서 많이 사용되는 시스템인 깃(git)은 웹 기반으로 호스팅한 깃허브(github)와 결합하여 종종 사용된다. 깃은 커밋(commit)을 통해 변경 사항이 저장되고 다시 돌아가거나 각 커밋에 어떤 변경이 있었는지 프로젝트의 전 과정을 보고 되돌릴 수 있다.

두 명이 같은 파일로 각각 작업할 때 한 명이 실수로 삭제하거나 덮어 쓰는 문제를 방지할 수 있다. 엔지니어링 팀이 있는 많은 기업에서 코드를 공유하거나 제품화한다면 깃을 사용해야 한다.

프로그래밍을 못해도 데이터 과학자가 될 수 있을까?

앞서 파이썬, R, SQL 등을 이야기했다고 너무 머리아프게 고민할 필요는 없다.

그래픽 인터페이스인 엑셀, 태블로(tableau), 기타 비즈니스 인텔리전스 도구만 사용해도 데이터 업무가 가능하다. 코드를 작성하지 않지만 R이나 파이썬 같은 언어와 거의 동일한 기능이 있다. 그래서 많은 데이터 과학자가 사용하고 있다.

그렇다면 그것들이 완벽한 데이터 과학 도구킷(toolkit)이 될 수 있을까? 또 그렇지만은 않다. 프로그래밍이 필요 없는 데이터 과학 팀이 있는 회사는 거의 없다. 프로그래밍에는 엑셀, 태블로 등의 도구들에 없는 장점이 있다.

첫 번째는 재생산성이다. 마우스 커서로 클릭만 하는 소프트웨어를 사용하지 않고 사용자가 직접 코드를 작성하면 매일 또는 6개월 후 데이터가 변경될 때마다 코드를 다시 실행할 수 있다. 버전 제어와도 연결된다. 즉 코드가 변경될 때마다 파일 이름을 바꾸지 않고 전체 기록을 볼 수 있는 하나의 파일로 저장할 수 있다.

두 번째는 유연성이다. 태블로는 그래프 기능이 없어서 전혀 그릴 수 없다. 프로그래밍으로는 도구 개발자가 생각지도 못한 방법을 만들어 자신만의 코드로 작성할 수 있다.

마지막으로 R과 파이썬 같은 오픈 소스 언어는 커뮤니티 기여가 크다. 개발자 수천 명이 패키지나 코드를 개발해 깃허브에 공개한다. 다른 사람의 코드로 본인의 문제를 스스로 해결할 수 있어서 기능을 추가해야 할 때 다른 업체에 의지하지 않아도 된다.

그래서 결론을 정리하자면, 프로그래밍을 못해도 데이터 과학자가 될 수는 있다. 다만, 보다 능숙한 데이터 과학자가 되려면, 그리고 업무를 보다 효율적으로 처리하려면 프로그래밍을 할 줄 아는 것이 아주 도움이 된다.

데이터 과학은 사라질까?

이쯤되면 한 가지 궁금한게 생긴다. 데이터 과학에 대한 향후 전망은 어떨까?

기술의 발전에 따라 데이터 과학이 10년이나 20년 후에도 지속될 수 있을 것인가?에 대한 질문에 두 가지를 이유로 우려하는 이들이 있다. 첫 번째로 데이터 과학이 자동화될 것이고, 두 번째는 데이터 과학의 공급이 과잉되어 고용 시장의 거품이 터진다는 점에서다.

데이터 과학의 일부분이 자동화되는 것은 맞다. 자동화된 머신러닝(AutoML)은 여러 모델과 성능을 비교하는 것이 가능해질 뿐만 아니라 데이터 준비(변수 스케일링)와 같은 auto ml 부분에 유용하게 사용할 수 있다. 이는 데이터 과학 과정의 극히 일부분이다.

자체 데이터를 생성해야 할 때 완전히 적합한 데이터를 정리하는 것은 쉽지 않다. 일반적으로 데이터 생성은 사용자 경험 연구원 및 엔지니어와 협업하여 이뤄지며 사용자의 행동을 조사하거나 기록하여 분석에 활용한다.

고용 시장의 거품이 터질 가능성을 1980년대 소프트웨어 엔지니어와 비교해보자. 컴퓨터의 가격이 하락하고 성능이 향상되면서 대중성이 가속화됐다. 컴퓨터가 모든 것을 대체하고 프로그래머가 사라질 것이라고 예상했다. 하지만 정반대의 상황이 되었다.

미국에는 소프트웨어 엔지니어가 12만 명 이상 있다. ‘웹마스터’라는 직업은 사라졌지만 훨씬 더 많은 사람이 웹사이트 개발 및 유지 보수, 성능 향상 등과 관련된 일을 한다.

앞으로 데이터 과학이 더욱 전문화되면 ‘데이터 과학자’라는 일반적인 이름은 사라질 수 있다. 하지만 많은 기업이 여전히 데이터 과학을 활용하는 초기 단계에 있으며 풀어야 할 과제가 아직 많이 남아 있다. 따라서 더 전문화되고 세분화된 직업이 생겨날 것이다.

이 글은 <데이터 과학자 되는 법> 도서 내용 일부를 발췌 편집하여 작성되었습니다. 취업 준비부터 면접, 이직, 경력관리까지 데이터 과학자로 성장하기 위한 보다 자세한 정보는 하기 책에서 만나볼 수 있습니다.

『데이터 과학자 되는 법』

억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ①

데이터 사이언티스트 직군의 연봉 분포 [사진 출처 : 페이스케일]

위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 : 위키피디아] ▶ 여기를 누르시면 크게 보실 수 있습니다

데이터 사이언스 코딩에 많이 활용되는 대표적인 노트북 도구인 주피터 [사진 출처 : dataquest.io] ▶ 여기를 누르시면 크게 보실 수 있습니다

머신러닝의 구분 – 지도학습(Supervised Learning)과 비지도학습 [사진 출처 : 캠브리지스파크] ▶ 여기를 누르시면 크게 보실 수 있습니다

2012년 하버드 비즈니스 리뷰가 21세기 가장 섹시한 직업으로 데이터 사이언티스트(Data Scientist)를 꼽으면서 이 새로운 직업은 전세계 수많은 사람들의 관심을 끌게 됐다. 이 용어가 나온 근원지인 미국 채용 시장을 잘 보여주는 구인구직 서비스 인디드(indeed.com)의 2016년 리포트 ‘미국에서 가장 연봉이 높은 기술 직업은?’을 살펴보면 기술 직업 15개 중에서 IT보안 전문가와 소프트웨어 아키텍트의 뒤를 이어 데이터 사이언티스트가 3위를 차지하고 있다. 직군 별 연봉 및 기타 상세한 정보들을 살펴볼 수 있는 페이스케일(payscale.com)을 살펴봐도 데이터 사이언티스트는 높은 연봉이 보장된 커리어 성장 패턴을 보이고 있음을 확인할 수 있다.한국에는 이러한 정보들을 체계적으로 보여주는 서비스가 아직 없어 수치로 말하기는 어렵지만 거의 모든 크고 작은 기업들이 데이터 사이언티스트를 뽑고 싶은데 마땅한 사람이 없어서 못뽑는다고 하소연을 하고 있다는 얘기를 직간접적으로 전해듣고 있다. 공급대비 수요가 부족하면 당연히 몸값이 올라가기 마련이고 실제로 데이터 사이언티스트의 연봉은 국내 역시 꽤 높게 형성돼 있다.그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. 특히 채용 담당자가 제대로 평가하기 어려운 신종 직업이라는 점을 노려 데이터 사이언티스트라고 하기에는 사실상 부적절한 역량과 업무 경험을 가진 사람들이 스스로를 데이터 사이언티스트라고 주장하면서 채용 담당자들과 기업들을 골탕 먹이는 경우도 점점 많아지고 있다.이처럼 ‘뜨거운 감자’인 데이터 사이언티스트 분야에 종사하려고 마음을 먹었다면 어떻게 해야 시장에서 실질적으로 인정받는 성과를 내는 사람으로 성장할 수 있을지 궁금할 것이다. 뽑는 입장에서도 어떻게 성장해 온 사람이 진짜 일 잘 해서 성과를 내는 데이터 사이언티스트일지 궁금할 수밖에 없다. 이 용어 자체가 2008년에 링크트인(LinkedIn)의 데이터 제품 총괄이었던 DJ 파틸이 ‘우리 같은 일을 하는 사람들이 데이터 사이언티스트다’라고 말한 것에서 나온 것이기 때문에 역사가 채 10년도 안됐으며 산업 현장에서 나왔기 때문에 학술적으로 정교하게 정의가 된 용어도 아니다. 고로 객관식 답안지처럼 용어의 명확한 뜻과 이 커리어를 밟기 위한 정형화된 공식이 존재하지도 않는다.물리 법칙을 연구하는 과학이 물리학이고 생명체의 법칙을 연구하는 과학이 생명과학인 여타 과학들과 달리 데이터 사이언스는 데이터를 연구하는 과학이 아니라 현실 세계의 다양한 문제, 보통은 비즈니스와 밀접한 관계를 갖고 있는 문제를 데이터를 통해 해결하는 절차와 방법을 통칭한다. 따라서 과학과 산업의 융복합, 다양한 학문들간의 융복합이 자연스러운 영역이기 때문에 정형화된 순차적인 커리어보다는 다양한 커리어와 역량의 융복합이 일반적이다. 한국 및 세계의 뛰어난 데이터 사이언티스트들을 살펴봐도 그 배경이 정말 다양하다는 것을 알 수 있다.그러나 공식화된 성장의 지름길은 없지만 현업에서 성과를 제대로 내는 데이터 사이언티스트들이 노력해 쌓은 역량들을 이들이 현업에서 해결해야 하는 일의 성격과 연결해 정리할 수는 있다. 21세기에 가장 섹시하다는 이 새로운 커리어를 관심있게 보는 사람에게는 이번 정리가 도움이 될 것이다. 앞으로 두회에 걸쳐 8가지 특징을 살펴볼 것이며 순번에 따른 우선순위가 없다는 점을 미리 밝힌다.데이터 사이언티스트는 세상의 여러가지 모습들을 숫자와 수식으로 표현하는 모델링을 수시로 하게 된다. 이렇게 해야 세상의 흐름을 읽고 예측해 연관된 비즈니스에 도움을 줄 수 있기 때문이다. 수치화 될 수 있는 수많은 데이터들의 대부분은 어디서 툭 튀어나온 것이 아니라 결국 세상의 한 부분에서 나온 것이기 때문에 데이터들을 보면서 세상을 읽는 작업도 밥 먹듯이 하게 된다. 즉 데이터로 세상을 읽고, 세상에서 모델을 설정해 데이터를 뽑아내는 쌍방향의 작업을 해야 하는데 이 기반이 되는 것이 바로 수학이다. 수학을 대학에서 제대로 공부한 사람, 예를 들어 수학 석사나 박사를 이수했다면 데이터 사이언티스트가 되기에 유리한 점으로 작용할 수도 있다. 그러나 데이터 사이언스에서 요구되는 수학적인 감각은 꼭 수학을 전공으로 아주 깊게 파고들지 않았어도 수학을 세상을 읽는 도구로서 제대로 느끼고 활용할 수 있다면 어느 정도는 이미 갖고 있는 역량이라고 볼 수 있다.통계학의 근간은 결국 확률과 분포다. 데이터 사이언스에서는 수많은 데이터들을 활용해 우리가 해결하고자 하는 문제에 대한, 혹은 해결책에 대한 단서를 지니고 있는 분포와 패턴을 찾아낸다. 이러한 패턴의 분류는 머신러닝 등을 이용해 보완하거나 개량할 수 있지만 탐색적 데이터 분석(EDA)이라고 하는 데이터 사이언스의 앞단계 프로세스의 상당 부분은 사람이 통계학의 여러 방법론과 이론을 바탕으로 직접 수행해야 한다. 또 비즈니스에 도움이 되는 일의 상당수는 결국 앞으로의 기대 수익을 예상하고 그것을 벌 수 있는 조건을 구현하거나 재현하는 데에 초점을 맞추게 돼 확률적인 접근법이 필수다.한편 데이터 사이언스도 여타 과학과 마찬가지로 가설의 수립과 검증을 통해 논리적인 해결책을 도출하게 되는데 이 작업의 기본이 되는 것 역시 통계학의 방법론이다. 통계학은 다른 모든 과학에서도 기본이 되는 중요한 도구이며 데이터 사이언스에서도 마찬가지 역할을 하고 있다.데이터 사이언스를 하는 과정에서 일반적으로 가장 많은 시간을 차지하는 작업을 멍잉(munging) 혹은 랭글링(wrangling)이라고 한다. 수많은 다양한 데이터들에 대해 모양을 바꿔가면서 살펴보거나 정제하거나 조합을 다르게 시도해보거나 하는 작업들을 지칭한다. 사람이 일일이 손으로 할 수 있는 작업이 아니며 엑셀이나 다른 보편적인 생산성 도구로 수행하기에도 데이터의 양이나 복잡도 등에서 큰 무리가 따른다. 따라서 이런 작업을 하기에 최적화된 프로그래밍 언어로 코딩을 해서 해결하거나 가급적 자동화해야 한다.데이터 사이언스의 코딩에서 많이 활용되는 프로그래밍 언어는 파이썬, R, SQL 로 축약될 수 있다. 이 언어들이 데이터 멍잉과 랭글링에 최적화 된 기능들을 많이 보유하고 있기도 하고 데이터를 읽고, 쓰고, 살펴보고, 분석하는 데에 태생적으로 특화된 언어들이기 때문이다. 컴퓨터 과학을 전공으로 하면 프로그래밍과 코딩 역량에 있어서 가산점을 가져갈 수도 있지만 심지어 컴퓨터 과학 전공자 중에서도 코딩은 잘 못하는 경우도 있고, 비전공자라도 데이터 사이언스를 잘 하는 데에는 아무 문제 없는 수준으로 코딩을 배우고 익힐 수도 있다.알파고가 뜨면서 이제는 딥러닝이나 머신러닝이라는 단어가 일반인들도 한 번쯤은 들어 봤을 법한 기술 용어가 됐다. 간단하게 핵심만 이야기하면 딥러닝은 머신러닝의 한 세부 기법이며, 머신러닝은 인간 고유의 본질적 능력으로 오래전부터 여겨져왔던 ‘분류’라는 인지 행동을 기계가 자동으로 하는 기법이라고 볼 수 있다. 분류라는 행동은 정치, 경제, 사회, 문화 곳곳에 알게 모르게 자연스럽게 녹아 있으며 인간이 생존할 수 있는 중요한 본능 역시 적군과 아군의 분류다. 바꿔 말하면 분류는 세상의 수많은 문제들을 푸는 데에 다양한 형태로 활용할 수 있으며 데이터 사이언스에서도 분류로 풀어야 하는 문제가 많을 수밖에 없는데 이것을 인간이 아닌 기계가 머신러닝이라는 이름으로 할 수 있게 되었다는 점은 많은 것을 시사한다.분류는 다시 두 가지로 나눌 수 있는데 보기들 중 어느 하나로 분류하면 되는 객관식처럼 선택지를 미리 알고 분류하는 경우와 선택지 자체를 몰라서 그냥 서로 다른 둘 이상의 집단이라고 경계선을 긋는 분류가 있다. 그러나 이같은 분류 내에 사실은 수많은 파생 형태와 고려 사항이 있기 때문에 머신러닝이라는 방법론을 따로 제대로 공부하고 연습하지 않고서는 그냥 툭 가져다가 쓸 수 없다. 단 머신러닝에 대해 본질적인 깊은 이해를 갖고 있지 않더라도 큰 무리 없이 데이터 사이언스의 목표를 달성할 수 있게끔 갈수록 머신러닝 및 딥러닝의 활용이 빠르게 쉬워지고 대중화되는 흐름에 있다는 점은 눈여겨 볼만하다.편집자 주 : 나머지 4가지 역량과 데이터 사이언티스트 커리어 계발을 위해 명심해야 할 점들은 2부에서 이어집니다.[고영혁 트레저데이터 지사장 / 고넥터 대표][ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Your Anonymous Workplace Community

notification

Oops! Something went wrong.Please try again later.If the problem continues, please contact our team at

키워드에 대한 정보 데이터 사이언스 거품

다음은 Bing에서 데이터 사이언스 거품 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실

  • 데이터사이언스
  • 데이터분석
  • 통계강의
  • 기초통계
  • r프로그래밍
  • 빅데이터

미국 #IBM #본사 #Data #Scientist가 #알려주는 #데싸의 #씁쓸한 #현실


YouTube에서 데이터 사이언스 거품 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실 | 데이터 사이언스 거품, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  List Do Siebie Wzór | Piotr Bukartyk List Do Siebie 인기 답변 업데이트

Leave a Comment