본문 바로가기
기상학/satellite

왜 NC와 HDF 파일 형식을 사용할까?

by snowyweather 2023. 7. 30.

contents

    기상 데이터를 보다보면 자주 보이는 파일 형식이 있습니다

     

    하나는 nc 파일, 다른 하나는 hdf 파일입니다. 이런 파일들을 이진 파일(Binary file)이라고 합니다.

     

    만약 이러한 파일들을 메모장이나 엑셀에서 열려고 한다면 내용이 제대로 보이지 않을 것입니다!!(그림1. 참조) 

    그 이유는 메모장과 엑셀은 인간 친화적인 텍스트 파일(text file)을 여는데 특화되어 있기 때문입니다.

     

    학창 시절에 기상 데이터를 읽어보려고 하다가 이러한 장벽에 막혀 포기한 슬픈 기억이 있는데

    이번 포스트 시리즈에서 이진 파일들이 무엇인지, 어떻게 열 수 있는지 알려드릴테니 
    여러분들도 잘 따라오신다면 훨씬 더 많은 기상 데이터에 접근할 수 있을 것입니다~

     

    그림 1. 이진 파일을 억지로 연 경우의 모습

     

    왜 이러한 파일 형식을 사용할까요?

     

    간단히 말하자면 효율성 때문입니다.

    이진 파일은 데이터를 저장할 때 0과 1로만 구성된 이진수 데이터 형식으로 저장합니다.

    이진수 데이터는 컴퓨터 입장에서 바로 읽고 저장할 수 있어서 별도의 읽고 저장하는 형식이 필요 없습니다.

     

    텍스트 파일의 경우 인간 입장에선 굉장히 읽기 쉽지만?!(저한텐 쉽진 않습니다만 ㅠ)

    컴퓨터는 하나의 단어를 표현하기 위해 8개의 0과 1의 이진수 데이터가 필요합니다(8byte)

    이해하기 쉽게 예를 들자면 '한글'이라는 단어를 'ㅎㅏㄴ ㄱㅡㄹ' 이렇게 하나씩 분리해서 외우는 것과 비슷합니다

    따라서 같은 데이터를 이진 파일로 저장할 때보다 텍스트 파일로 저장할 때 훨씬 많은 저장용량을 차지하게 됩니다!!!

     

    그림 2. ASCII 변환 표

     

    기상 데이터 혹은 과학 데이터는 기가바이트(GB) 단위의 데이터들이 수두룩 합니다.
    지금 제가 쓰고 있는 위성 데이터만 해도 총 15TB 정도 되며

    파일을 읽어들이는 데에만 시간이 상당히 쇼요됩니다!

    따라서 대용량의 파일들을 빠르게 읽고 효율적으로 저장하기 위해서 대부분 이진 파일 형식을 채택하고 있습니다!

     

    다음 글에서 NC파일을 어떻게 열 수 있는지 알아보겠습니다