반응형

이 글은 다음 출처의 내용을 제가 이해한 대로 요약한 것입니다.
데이터 아키텍처? 쉽게 배워봅시다 | 요즘IT
데이터 아키텍처란?
Data Architecture Diagram: A Complete Tutorial

데이터 아키텍처?

  • 시스템이 어떻게 구성되며 동작하는지 원리를 나타내는 원칙
  • 수집부터 변환, 분배, 소비에 이르기까지 데이터가 관리되는 방식
  • 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계
  • 데이터 아키텍처는 비즈니스 요구 사항에 따라 설계되며, 이러한 요구 사항을 바탕으로 데이터 설계자와 데이터 엔지니어는 해당 데이터 모델과 이러한 데이터 모델을 지원하는 기반 데이터 구조를 정의 한다.

좋은 데이터 아키텍처의 중요성 !

  • 훌륭한 데이터 아키텍처가 있으면 데이터를 관리 가능하고 유용한 상태로 유지하여 데이터 라이프사이클 관리를 지원할 수 있더,
  • 훌륭한 데이터 아키텍처를 통해 중복 데이터 저장을 방지하고 정리 및 중복 제거를 통해 데이터 품질을 향상하고 새로운 애플리케이션을 지원할 수 있습니다. 또한 현대적인 데이터 아키텍처는 부서 또는 지리적 위치 등 여러 도메인 간의 데이터 통합을 위한 메커니즘을 제공하므로 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성 없이 데이터 사일로를 해소할 수 있습니다.
    • 중복성 감소, 데이터 품질 향상, 통합 지원, 데이터 라이프 사이클 관리

데이터의 원천: 원시 데이터는 어디에서 오나요.

OTLP 데이터 베이스 : 온라인 쇼핑이나 은행 업무를 볼 때 생성되는 트랜잭션 데이터 (구매내역, 입출금)
기업 애플리케이션 데이터 : 기업에서 ERP나 CRM같은 시스템을 통해 관리되는 데이터 (고객 정보, 재고, 매출)
서드파티
웹/로그 데이터
IoT 데이터

ETL? : 원시데이터 (Raw Data)를 용도에 맞게 변형

  • 추출(Extraction) : 원천에서 데이터를 가져온다. 핵심 - 필요한 데이터만 정확하게, 빠짐없이 가져오기
  • 변환(Transformation) : 데이터를 필요한 형식으로 변환하고, 불필요한 데이터를 제거한다. 여러 원천에서 가져온 데이터를 합치거나, 데이터의 품질을 향상시킨다.
  • 적재(Load): 저장공간(데이터 웨어하우스, 데이터 레이크, ..)에 변환된 데이터를 적재

데이터 라이프 사이클

  • 1단계 : 데이터 생성
  • 2단계 : 데이터 저장
  • 3단계 : 데이터 공유 및 사용
  • 4단계 : 데이터 보관

데이터 아키텍처 구성요소

  • 데이터 웨어하우스
    • 하나의 일관적인 중앙집중식 저장소
    • 구조화된 데이터(Structured Data, 테이블 형태의 데이터)를 저장 in structured and modeled format
    • 긴 시간 동안 안정적으로 큰 규모의 데이터
    • 필요할 때 빠르게 조회 가능한 설계
  • 데이터 마트
    • 데이터 웨어하우스의 특정 주제나 부서에 특화된 부분집합
    • 특정 부서나 목적에 맞는 일부 데이터만 필요한 경우에 사용
    • 작은 규모로 인한 여러 장점 (유지 관리, 보안, 속도, 사용자 맞춤 .. ) -> 빠르고 농축된 인사이트
  • 데이터 레이크
    • 정형 뿐만 아니라 반정형, 비정형 데이터도 저장 가능 (로그 파일, 소셜 미디어 데이터, 이미지 ...)
    • 큰 규모의 원시 데이터를 저장하고, 필요에 따라 이를 처리하여 사용할 수 있게 함.(데이터 사이언티스트, 데이터 엔지니어, 개발자에게 특히 유용)
    • 데이터 레이크는 데이터 웨어하우스보다 느리지만 데이터 수집 전에 준비 작업이 거의 또는 전혀 필요하지 않으므로 더 저렴하다.
    • 클라우드로의 마이그레이션 되며 계속 진화 중
반응형

+ Recent posts