티스토리 뷰

 

Pandas(판다스) 란

 

데이터 분석이나 머신 러닝을 공부하려고 하면 Pandas 이야기가 나온다.

도대체 Pandas가 뭐지?

Pandas는 python 파이썬 외부 공학용 라이브러리이다.

데이터를 표 형태의 데이터프레임에 넣어서 쉽게 이용할 수 있게 해주는데, 쉽게 말해서 파이썬의 엑셀 같다.

 

https://pandas.pydata.org/pandas-docs/stable/index.html

 

pandas documentation — pandas 1.0.3 documentation

API reference The reference guide contains a detailed description of the pandas API. The reference describes how the methods work and which parameters can be used. It assumes that you have an understanding of the key concepts.

pandas.pydata.org

그럼 엑셀로 데이터 분석하면 안 되나?

엑셀로도 가능하지만 대용량 처리를 할 때 속도가 아주 느리다.

그리고 똑같은 작업을 반복해야 할 때 Pandas로 코딩을 해 놓으면 생산성이 훨씬 높다.

머신러닝을 하기 위해 데이터 전처리 과정이 전체 과정의 70%, 나머지가 머신 러닝에 사용된다. 엑셀에 데이터를 받아서 정제하고 쪼개는 일을 할 때 사람이 일일이 하는 것보다 기계가 하면 인력이나 시간이 적게 들어갈 수 있다.

SQL로는 안 되나?

대부분의 프로젝트에서 보안이나 안전상의 이유로 직접 DBMS에 작업하기 힘들다.

보통 해당 부서에서 원하는 데이터를 엑셀로 넘겨 주는 경우가 대부분이고, 각종 정보공개 사이트에서도 엑셀 데이터가 대부분임

엑셀 임포트하고 처리하는 것 정도는 Java도 가능 한데?

가능하지만 마지막 머신러닝에 텐서플로우를 많이 사용한다.

텐서 플로우는 파이썬으로 만들어졌기 때문에 파이썬만 받아들이기 때문에, 자바로 작업할 경우 이중 공수 발생

자 그럼 어떻게 공부를 시작해야 할까?

먼저 아나콘다를 설치한다.

설치를 하면 4GB나 용량을 차지하지만 초보인 경우 여러 가지 라이브러리를 설치하고 환경을 맞추려면 에러가 많이 나고 에러를 분석하는 것도 어렵다.

그러니 다 깔고 시작하자.

주피터 노트북도 자동으로 깔린다. 코딩은 주피터 노트북으로 할 거니 편리하다.

 

https://funfunfuhaha.tistory.com/19

 

아나콘다 설치 및 주피터 노트북 사용법

1. 아나콘다 설치 https://www.anaconda.com/distribution/ Anaconda Python/R Distribution - Free Download Anaconda Distribution is the world's most popular Python data science platform. Download the fr..

funfunfuhaha.tistory.com

컴퓨터 사양이 되지 않아서 아나콘다를 설치할 수 없다면 구글 Colab을 사용하면 된다.

그런데 파일을 연동하거나, 함수를 만들어서 import를 한다거나 할 때 웹 환경에서 개발을 하는 것이라 삽질을 해야 하기 때문에 결국 나는 주피터로 돌아왔다.

 

https://funfunfuhaha.tistory.com/4

 

[처음하는 파이썬 1]설치없이 파이썬 실행 Colab(Colaboratory)

C나 Java를 배우려면 이것저것 깔고, 환경설정을 해야 했다. Python도 마찬가지로 지니라는 가볍고 단순한 에디터를 깔아도 되고 Jupyter Notebook을 설치해서 사용해도 된다. 그러나 나처럼 첫걸음을 하는 사람이..

funfunfuhaha.tistory.com

그럼 이제 문법 공부를 위해 책을 사야 하나?

요즘이 어떤 시대인가? 특히 오픈소스 진영들 문서작업이 너무 훌륭한다.

판다스 10분 완성(10 minutes to pandas) 이라는 도큐먼트가 잘 되어 있다.

읽는 데 10분 걸리지만 실습은 그것보다 오래 걸린다.

그리고 Pandas Cheat Sheet라는 2장짜리 파일도 있어서 가볍게 시작할 수 있게 되어 있고, 깃허브나 유튜브에 이런 것들을 정리한 것들도 많이 있다.

 

10 minutes to pandas

https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

 

10 minutes to pandas — pandas 1.0.3 documentation

This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Time series pandas has simple, powerful, and efficient functionality for performing resampling operations during frequency conversion (e.

pandas.pydata.org

 

Pandas Cheat Sheet

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday