해당 게시판은 데이터를 효과적으로 시각화하는 방법을 소개합니다.
데이터 시각화 도구는 'Python 라이브러리'와 '태블로 Tableau'를 사용합니다.
태블로는 최신 BI(Business Intelligence) 툴로 간단하면서도 효과적으로 데이터를 시각화할 수 있습니다. 많은 기업에서 태블로를 사용하고 있으며, 채용 우대사항에 '태블로 작업능력'이 추가되는 추세입니다. 다만 태블로는 유료 프로그램이기 때문에 개인도 라이선스 비용을 지불해야 합니다.
Tableau Public
public.tableau.com
하지만 대학생이면 1년간 무료로 Tableau Desktop버전을 이용할 수 있으며, 일반인도 Public 버전으로 무료로 웹상에서 사용하실 수 있습니다. Desktop의 일부 기능이 제한되긴 하지만, 거의 모든 기능을 사용할 수 있습니다.
Python library를 활용한 데이터 시각화는 Pandas 기반으로 matplotlib, seaborn 등을 이용합니다. 파이썬 라이브러리는 데이터 엔지니어링 과정에서 데이터 입출력 확인, 데이터 분포 및 특성 확인, 중간 및 최종 처리결과를 확인하는 데에 사용됩니다.
데이터 작업은 일반적인 코딩과 달리, 디버깅할 때 변수값을 확인하는 게 아니라 수많은 데이터 값을 확인해야 합니다. 파이썬 시각화 라이브러리를 사용하면 데이터의 분포와 특성을 한 눈에 알아보기에 유용합니다. 또한, 데이터 파이프라인을 구축할 때, 전처리 후 머신러닝과 딥러닝과 같은 분석 프로세스로 바로 넘어갈 수 있어 효율적입니다.
추후에는 Spark-Scala 기반의 시각화도 다룰 예정이며, Python기반 라이브러리와 문법이 비슷하여 쉽게 터득하실 수 있을거라 생각됩니다.
댓글