앞으로 다양한 데이터 파일 형식을 만나게 될 것입니다.
파일 형식이란 파일에 저장하기 위해 정보를 인코딩하는 표준 방법이며 크게는 Binary / ASCII 파일로 나뉩니다.
둘의 구분은 간단하게 말해서 메모장으로 열었을 때 외계어처럼 글자가 깨지면 바이너리 파일, 아니면 아스키 파일입니다.
일반적으로 파일 확장명을 보고 파일 형식을 예상할 수 있습니다. ( .csv , .pdf , .mp3 등등 )

파일은 사용자가 사용하는 응용 프로그램에 따라 다르기에, 다양한 파일 형식에 대한 이해를 위해 이번 글을 작성하게 됐습니다. 그리고 다양한 파일 형식의 다른 구조로 인해 각 파일 형식에 대한 장점과 단점이 나타나는데, 특정 데이터를 저장하기 위한 최적을 파일 형식을 선택하면 데이터 처리를 보다 효율적으로 할 수 있겠습니다.
이제부터 자주 쓰이는 문서 파일 5가지에 대해 간단히 알아보겠습니다.
1. CSV ( Comma Separated Values )

쉼표로 구분된 값으로, 각 행을 레코드라 합니다. 각 레코드는 쉼표로 구분된 하나 이상의 필드를 포함할 수 있습니다. pandas 모듈을 이용해 불러올 수 있는 스프레드 시트 파일 형식입니다. (그래서 엑셀로 편집하는 경우가 多)
장점으로는 직관적이고 간단한 형식이며, 사람/기계가 모두 사용하기 편합니다. 데이터 파일 중 상당히 많은 비율을 차지하며, python을 이용해 데이터 분석을 할 때 자주 접하게 될 파일 형식입니다. 단점으로는 ',' (쉼표) 가 들어간 파일을 처리하기 어렵다는 점이 있지만, 요즘은 이 문제를 처리하는 방법이 많아졌습니다.
2. XLSX

Microsoft Excel Open XML 파일 형식으로, 스프레드 시트 파일 형식으로 제공됩니다. 간단히 말해서 그냥 엑셀 파일입니다.
데이터는 시트의 셀과 열 아래에 구성되며, xlsx 파일에는 하나 이상의 시트가 포함될 수 있습니다.
pandas 모듈을 이용하여 불러올 수 있습니다.
3. JSON (JavaScript Object Notataion)

JSON 형식은 웹을 통해 데이터를 교환하기 위해 설계된 텍스트 기반의 공개 표준으로, 오늘날 웹 상 데이터를 표현하는데 널리 사용됩니다. 서버-클라이언트 기반의 앱/웹 개발에 널리 사용되며, pandas 모듈을 통해 불러올 수 있습니다.
python의 dictionary와 비슷한 (key:value) 타입으로 되어있습니다.
장점으로는 도메인/언어에 독립적인 데이터 형식이라 모든 프로그래밍 언어에서 쉽게 읽을 수 있습니다.
단점으로는 주석을 지원하지 않고, 날짜/시간 데이터를 자체적으로 지원하지 않습니다.
4. XML

eXtensible Markup Language 의 약자이며, 사람/기계 모두 읽을 수 있는 파일 형식입니다.
데이터 구조가 tree 형태를 띄며, 인터넷을 통해 정보를 전송하기 위한 자체 기술 언어로 널리 쓰이고 있습니다.
5. HTML (Hyper Text Markup Language)

웹 개발을 해보신 분이라면 익숙하실 파일입니다. 웹페이지를 만드는 데 사용되는 표준 마크업 언어입니다.
이미 정의되어있는 다양한 태그를 통해 텍스트를 마크업(꾸며줌) 할 수 있습니다.
태그의 예시로는 문서의 제목을 나타내는 <head>, 글자를 두껍게 하여 강조를 주는 <strong> 등이 있겠습니다. html에서는 대소문자를 구별하지 않습니다.
여기까지 자주 쓰이는 문서 파일 형식 5가지에 대해 알아보았는데, 이 외에도 이미지 파일 / 음성 파일 등의 다양한 데이터 저장 형식이 있습니다. 궁금하시다면 밑에 이미지를 첨부할 테니 알아보시는 것도 좋을 것 같습니다.

'데이터사이언스' 카테고리의 다른 글
| [데이터사이언스] 넓고 얉은 데이터사이언스 (2) | 2024.10.22 |
|---|