Pandas란? (Series와 DataFrame)

|

개인공부 후 자료를 남기기 위한 목적임으로 내용 상에 오류가 있을 수 있습니다.


Pandas란?

데이터프레임을 처리하기 위해 이용하는 python의 라이브러리 중 하나.

일반적으로 데이터 처리 시 필요한 데이터 세트는 2차원 데이터로 구성되며, (데이터 정리 분석, 모델링, 분석결과 또는) 표 형식으로 표시하기에 적합한 형식으로 구성된다. 2차원 데이터는 행렬로 이루어져 있기 때문에 이해하기 쉬운 구조이며, 효과적으로 데이터를 담을 수 있기 때문이다.

Series와 DataFrame

우선 Series와 DataFrame 모두 pandas의 데이터 오브젝트이다. 아래 사진을 보면 이해가 더욱 쉬워진다.

우선 Series는 인덱스와 값으로 이루어진 이 하나인 자료형이다. 그렇다면 DataFrame은 어떻게 구성되어있을까? 칼럼 단위의 시리즈 모음인덱스로 구성이 되어있다.

즉, DataFrame은 행과 열의 인덱스가 존재하고 이 인덱스에 맞게 데이터들이 존재하는 데이터구조를 의미한다. 이를 직접 만들수도 있고, 엑셀이나 csv 파일을 읽어와 만들기도 한다.


번외로 데이터프레임을 만드는 형식은 늘 딕셔너리인가? 궁금했었는데..

딕셔너리가 아닌 리스트, 넘파이 등등 다양한 방법으로도 데이터프레임을 만든다고는 한다. 하지만 이는 실무에서 너무 복잡한 형태여서 거의 사용하지는 않는다고..! 대체로 데이터프레임은 딕셔너리로 생성하고 이때의 key값이 컬럼명, value값이 각 데이터 값(열)에 들어가는 것!