🎯자격증 공부 (ADsP)

🎯[ADsP 공부 기록] 3일차: 데이터 저장소

미래의 데이터 분석가 2025. 7. 18. 18:25

안녕하세요!
오늘은 데이터베이스(DB) 기본 개념부터 DBMS 종류, 그리고 데이터 레이크·데이터 웨어하우스·데이터 마트까지 한 번에 복습할 수 있도록 디테일하게 정리해볼게요. ✨


데이터베이스(Database)란?

정의
데이터를 체계적으로 저장·관리하기 위해 만들어진 저장소.
단순한 파일 모음이 아니라, 원하는 데이터를 빠르고 정확하게 꺼낼 수 있도록 구조화돼 있습니다.

✔️ 특징

  • 중복을 최소화하고 무결성을 유지
  • 여러 사용자·프로그램이 동시에 접근 가능
  • 검색, 삽입, 수정, 삭제가 빠르고 안정적

✔️ 관리 소프트웨어(DBMS)
DBMS(DataBase Management System)는 데이터베이스를 관리·운영하기 위한 소프트웨어예요.


🔥 DBMS의 두 가지 큰 분류

DBMS는 데이터 구조와 관리 방식에 따라 크게 두 가지로 나뉩니다.

🔹 1) 관계형 DBMS (RDBMS)

항목설명
저장 방식 행(Row)과 열(Column)로 이루어진 테이블(표) 형태
특징 정형 데이터 관리, 테이블 간 관계를 정의
언어 SQL(Structured Query Language)을 사용
장점 데이터 무결성, 중복 최소화, 강력한 질의 기능
단점 비정형 데이터(예: 이미지, 로그) 처리에는 한계
 

📌 대표 제품

  • Oracle
  • SQL Server
  • MySQL
  • MariaDB
  • PostgreSQL

💡 예시
직원 정보를 관리하는 테이블(사번, 이름, 부서)과 부서 정보를 관리하는 테이블(부서번호, 부서명)을 연결해, “마케팅 부서 직원 리스트”를 바로 추출할 수 있어요.

 


🔹 2) 비관계형 DBMS (NoSQL)

항목설명
저장 방식 문서(Document), 키-값, 컬럼, 그래프 등 다양한 형태
특징 비정형 데이터 처리 가능, 스키마(구조)가 유연
장점 대규모 데이터, 빠른 확장성, 유연한 모델링
단점 관계 연산(조인) 같은 기능은 약함
 

📌 대표 제품

  • MongoDB (문서 지향)
  • Apache HBase
  • Amazon DynamoDB
  • Cassandra

💡 예시
로그 데이터, 센서 데이터, SNS 게시물 등 구조가 제각각인 데이터를 그대로 받아서 저장하고, 빠르게 분석할 수 있어요.

 



DBMS의 다양한 유형

RDBMS/NoSQL 외에도, 설계 구조에 따라 아래처럼 나눌 수 있어요.

DBMS 유형설명예시
계층형 DBMS 트리(Tree) 구조로 부모-자식 관계 IBM IMS
네트워크형 DBMS 복잡한 다대다(M:N) 관계 지원 CODASYL DBTG
분산형 DBMS 여러 서버에 분산 저장, 통합 운영 Google Spanner, Apache Cassandra
객체지향 DBMS 객체(Object) 단위로 저장, 메서드 포함 db4o, ObjectDB
 

📖 데이터베이스 기본 용어

용어설명비유
엔터티(Entity) 테이블 개념. 속성을 가진 개체 학생 명단 테이블
인스턴스(Instance) 엔터티의 한 행(Row) 특정 학생 한 명의 정보
속성(Attribute) 엔터티의 컬럼(Column) 이름, 학번, 전공
메타데이터(Metadata) 데이터를 설명하는 데이터 “이 테이블엔 이름(문자형), 나이(숫자형)가 있다”
인덱스(Index) 검색 속도를 높이는 자료 구조 책의 목차
 

📌 SQL 명령어 정리

구분설명주요 명령어
DDL (정의) 테이블 구조 정의·수정 CREATE, ALTER, DROP, RENAME
DML (조작) 데이터 조회·삽입·수정·삭제 SELECT, INSERT, UPDATE, DELETE
DCL (제어) 접근 권한 제어 GRANT, REVOKE
TCL (트랜잭션 제어) 변경 사항 확정·취소 COMMIT, ROLLBACK, SAVEPOINT
 

DML 자주 쓰는 구문

  • SELECT name, age FROM users;
  • SELECT * FROM orders WHERE amount > 100;
  • GROUP BY, HAVING, ORDER BY 등

🌊 데이터 저장소 비교: Data Lake / Data Warehouse / Data Mart

구분저장 데이터특징예시 비유
데이터 레이크 원시 데이터 (정형/비정형/반정형) 가공 없이 그대로 저장, 저비용·대용량 큰 저수지
데이터 웨어하우스 정형 데이터 ETL로 정제 후 저장, 분석·보고용 깨끗한 정수탱크
데이터 마트 웨어하우스 데이터 중 일부 부서별/업무별로 구분해 빠르게 제공 소형 정수통
 

✅ 데이터 레이크 (Data Lake)

  • 비정형·반정형·정형 데이터를 원시 상태 그대로 저장
  • 대용량 데이터를 저비용으로 보관할 수 있도록 설계
  • 다양한 출처에서 수집한 데이터를 한꺼번에 쌓아두는 중앙 저장소

✅ 데이터 웨어하우스 (Data Warehouse)

  • 조직의 의사결정을 돕기 위해 여러 출처의 데이터를 구조화된 형식으로 저장
  • ETL(Extract, Transform, Load) 과정을 거쳐 정리한 후 보관
  • 저장된 데이터는 일반적으로 수정·삭제하지 않고, 시간에 따른 변화 분석에 사용

ETL 과정

  • Extract(추출) : 여러 소스에서 데이터 추출
  • Transform(변환) : 요구에 맞게 데이터 정제, 타입변환, 집계 등
  • Load(적재) : 변환한 데이터를 웨어하우스에 저장

✅ 데이터 마트 (Data Mart)

    • 웨어하우스의 데이터를 특정 주제나 부서 중심으로 분류해서 저장
    • 예: 판매 부서용 마트, 고객 분석용 마트 등
    • 필요한 데이터만 신속하게 제공

데이터 엔지니어링

데이터를 효율적으로 분석할 수 있도록 준비하는 과정

  • 수집: API, 로그, 센서 등 다양한 경로로 데이터 수집
  • 저장: SQL, NoSQL, 데이터 레이크 등
  • 처리: ETL로 정제·변환
  • 배포: 분석 시스템, 머신러닝 모델에 맞게 제공

📏 데이터 크기 단위

단위의미
KB 1,024 Byte
MB 1,024 KB
GB 1,024 MB
TB 1,024 GB
PB 1,024 TB
EB 1,024 PB
ZB 1,024 EB
YB 1,024 ZB
 

👉 순서: KB < MB < GB < TB < PB < EB < ZB < YB


오늘의 한줄 정리

데이터베이스와 DBMS, 그리고 데이터 레이크·웨어하우스·마트까지의 흐름을 이해하면, 데이터 관리와 분석의 큰 그림이 명확해진다!