Pandas란? (Series와 DataFrame)
11 Jul 2025 | DA개인공부 후 자료를 남기기 위한 목적임으로 내용 상에 오류가 있을 수 있습니다.
Pandas란?
데이터프레임을 처리하기 위해 이용하는 python의 라이브러리 중 하나.
일반적으로 데이터 처리 시 필요한 데이터 세트는 2차원 데이터로 구성되며, (데이터 정리 분석, 모델링, 분석결과 또는) 표 형식으로 표시하기에 적합한 형식으로 구성된다. 2차원 데이터는 행렬로 이루어져 있기 때문에 이해하기 쉬운 구조이며, 효과적으로 데이터를 담을 수 있기 때문이다.
Series와 DataFrame
우선 Series와 DataFrame 모두 pandas의 데이터 오브젝트이다. 아래 사진을 보면 이해가 더욱 쉬워진다.
우선 Series는 인덱스와 값으로 이루어진 열이 하나인 자료형이다. 그렇다면 DataFrame은 어떻게 구성되어있을까? 칼럼 단위의 시리즈 모음과 인덱스로 구성이 되어있다.
즉, DataFrame은 행과 열의 인덱스가 존재하고 이 인덱스에 맞게 데이터들이 존재하는 데이터구조를 의미한다. 이를 직접 만들수도 있고, 엑셀이나 csv 파일을 읽어와 만들기도 한다.
번외로 데이터프레임을 만드는 형식은 늘 딕셔너리인가? 궁금했었는데..
딕셔너리가 아닌 리스트, 넘파이 등등 다양한 방법으로도 데이터프레임을 만든다고는 한다. 하지만 이는 실무에서 너무 복잡한 형태여서 거의 사용하지는 않는다고..! 대체로 데이터프레임은 딕셔너리로 생성하고 이때의 key값이 컬럼명, value값이 각 데이터 값(열)에 들어가는 것!
지혜의 개발공부로그