★데이터 사이언스란?
데이터에 대한 이해, 데이터를 다루는 일을 의미한다.
데이터를 다루려면 소프트웨어가 필요하다.
카카오톡, 인스타그램, 페이스북, 네이버, 지하철 카드 찍기 등 모든 것이 데이터로 저장되고 있다.
때문에 모든 업계는 데이터를 기반으로 상품을 판매한다.
심지어 정치권에서도 사용중이다.
2012년 오바마, 2016년 트럼프 대선 성공은 모두 데이터 분석에서 시작되었다.
★Data science의 정의
데이터 사이언스는 다양하게 정의되고 있다.
1) 위키피디아
데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다.
2) 위키피디아 요약!
다양한 데이터로부터 지식과 인사이트를 추출하는 분야다.
3) Journal od Data Science
데이터와 연관된 모든 것을 의미한다.
4) 드류 콘웨이(Drew Conway)
프로그래밍, 수학과 통계, 특정 분야에 대한 전문성
드류 콘웨이의 정의에 따르면
프로그래밍: 데이터를 모으고 분석하는 도구
수학과 통계: 논리적 분석, 머신러닝 등의 심화 기술
특정 분야 전문성이 결합된 것이 데이터 사이언스라고 한다.
★데이터 사이언티스트란?
가치를 더할 수 있는 일을 찾고 데이터를 이용해 문제를 해결하는 일을 하는 사람!
★데이터 사이언스에서 가장 중요한 것은?
데이터 사이언스의 순서가 중요!
데이터 모으기 - 데이터 옮기고 저장하기 - 데이터 정리하기 - 분석 - A/B테스트 등 - 인공지능
데이터 엔지니어링(1,2,3단계)가 매우 중요하다고 할 수 있다.
각 단계별로 세부 내용을 살펴보자!
1) 문제 정의하기
해결하고자 하는 문제를 정의한다.
목표 설정, 기간 설정, 평가 방법 설정, 필요 데이터 설정
2) 데이터 모으기
필요한 데이터를 모을 수 있는 방법을 찾는다.
웹 크롤링, 자료 모으기, 파일 읽고 쓰기
3) 데이터 다듬기
데이터의 퀄리티를 높여서 의미 있는 분석이 가능하게 한다.
데이터 관찰하기, 오류 제거, 정리하기
4) 데이터 분석하기
준비된 데이터로부터 의미를 찾는다.
데이터 파악, 변형, 통계 분석, 인사이트 발견, 의미 도출
* 변형의 뜻: 원천 데이터에서 분석에 용이하게 변형하거나, 기존에 알고 있던 상식을 활용해서 데이터를 변형하거나, 때로는 다른 데이터와 병합해서 새로운 데이터로 만들어내는 등, 분석의 가능성을 넓힐 수 있는 차원에서의 변형
5) 커뮤니케이션
분석 결과를 다른 사람들에게 전달한다.
다양한 시각화, 커뮤니케이션, 리포트
다음으로는 데이터사이언스의 양대 산맥 언어인 R과 파이썬을 살펴보자!
R: 통계, 시각화를 위해 만들어진 언어, 데이터 분석의 도구가 잘 갖추어짐
파이썬: 다양한 용도로 만들어진 언어, 다양한 분야로 넘어가기 좋다. 간단하고 직관적임
두 언어는 목적과 장단점이 다른데, 최근에는 파이썬이 R보다 많이 쓰이는 것을 볼 수 있다.
파이썬의 기초가 어느정도 되어 있다면 파이썬으로 데이터 사이언스를 시작하는 것을 추천한다!
'프로그래밍 > 데이터사이언스' 카테고리의 다른 글
주피터 노트북(Jupyter Notebook) 다운로드 방법 (0) | 2022.09.01 |
---|