🎯[ADsP 공부 기록] 3일차: 데이터 저장소
안녕하세요!
오늘은 데이터베이스(DB) 기본 개념부터 DBMS 종류, 그리고 데이터 레이크·데이터 웨어하우스·데이터 마트까지 한 번에 복습할 수 있도록 디테일하게 정리해볼게요. ✨
✅ 데이터베이스(Database)란?
정의
데이터를 체계적으로 저장·관리하기 위해 만들어진 저장소.
단순한 파일 모음이 아니라, 원하는 데이터를 빠르고 정확하게 꺼낼 수 있도록 구조화돼 있습니다.
✔️ 특징
- 중복을 최소화하고 무결성을 유지
- 여러 사용자·프로그램이 동시에 접근 가능
- 검색, 삽입, 수정, 삭제가 빠르고 안정적
✔️ 관리 소프트웨어(DBMS)
DBMS(DataBase Management System)는 데이터베이스를 관리·운영하기 위한 소프트웨어예요.
🔥 DBMS의 두 가지 큰 분류
DBMS는 데이터 구조와 관리 방식에 따라 크게 두 가지로 나뉩니다.
🔹 1) 관계형 DBMS (RDBMS)
| 저장 방식 | 행(Row)과 열(Column)로 이루어진 테이블(표) 형태 |
| 특징 | 정형 데이터 관리, 테이블 간 관계를 정의 |
| 언어 | SQL(Structured Query Language)을 사용 |
| 장점 | 데이터 무결성, 중복 최소화, 강력한 질의 기능 |
| 단점 | 비정형 데이터(예: 이미지, 로그) 처리에는 한계 |
📌 대표 제품
- Oracle
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
💡 예시
직원 정보를 관리하는 테이블(사번, 이름, 부서)과 부서 정보를 관리하는 테이블(부서번호, 부서명)을 연결해, “마케팅 부서 직원 리스트”를 바로 추출할 수 있어요.
🔹 2) 비관계형 DBMS (NoSQL)
| 저장 방식 | 문서(Document), 키-값, 컬럼, 그래프 등 다양한 형태 |
| 특징 | 비정형 데이터 처리 가능, 스키마(구조)가 유연 |
| 장점 | 대규모 데이터, 빠른 확장성, 유연한 모델링 |
| 단점 | 관계 연산(조인) 같은 기능은 약함 |
📌 대표 제품
- MongoDB (문서 지향)
- Apache HBase
- Amazon DynamoDB
- Cassandra
💡 예시
로그 데이터, 센서 데이터, SNS 게시물 등 구조가 제각각인 데이터를 그대로 받아서 저장하고, 빠르게 분석할 수 있어요.
✨ DBMS의 다양한 유형
RDBMS/NoSQL 외에도, 설계 구조에 따라 아래처럼 나눌 수 있어요.
| 계층형 DBMS | 트리(Tree) 구조로 부모-자식 관계 | IBM IMS |
| 네트워크형 DBMS | 복잡한 다대다(M:N) 관계 지원 | CODASYL DBTG |
| 분산형 DBMS | 여러 서버에 분산 저장, 통합 운영 | Google Spanner, Apache Cassandra |
| 객체지향 DBMS | 객체(Object) 단위로 저장, 메서드 포함 | db4o, ObjectDB |
📖 데이터베이스 기본 용어
| 엔터티(Entity) | 테이블 개념. 속성을 가진 개체 | 학생 명단 테이블 |
| 인스턴스(Instance) | 엔터티의 한 행(Row) | 특정 학생 한 명의 정보 |
| 속성(Attribute) | 엔터티의 컬럼(Column) | 이름, 학번, 전공 |
| 메타데이터(Metadata) | 데이터를 설명하는 데이터 | “이 테이블엔 이름(문자형), 나이(숫자형)가 있다” |
| 인덱스(Index) | 검색 속도를 높이는 자료 구조 | 책의 목차 |
📌 SQL 명령어 정리
| DDL (정의) | 테이블 구조 정의·수정 | CREATE, ALTER, DROP, RENAME |
| DML (조작) | 데이터 조회·삽입·수정·삭제 | SELECT, INSERT, UPDATE, DELETE |
| DCL (제어) | 접근 권한 제어 | GRANT, REVOKE |
| TCL (트랜잭션 제어) | 변경 사항 확정·취소 | COMMIT, ROLLBACK, SAVEPOINT |
✅ DML 자주 쓰는 구문
- SELECT name, age FROM users;
- SELECT * FROM orders WHERE amount > 100;
- GROUP BY, HAVING, ORDER BY 등
🌊 데이터 저장소 비교: Data Lake / Data Warehouse / Data Mart

| 데이터 레이크 | 원시 데이터 (정형/비정형/반정형) | 가공 없이 그대로 저장, 저비용·대용량 | 큰 저수지 |
| 데이터 웨어하우스 | 정형 데이터 | ETL로 정제 후 저장, 분석·보고용 | 깨끗한 정수탱크 |
| 데이터 마트 | 웨어하우스 데이터 중 일부 | 부서별/업무별로 구분해 빠르게 제공 | 소형 정수통 |
✅ 데이터 레이크 (Data Lake)
- 비정형·반정형·정형 데이터를 원시 상태 그대로 저장
- 대용량 데이터를 저비용으로 보관할 수 있도록 설계
- 다양한 출처에서 수집한 데이터를 한꺼번에 쌓아두는 중앙 저장소
✅ 데이터 웨어하우스 (Data Warehouse)
- 조직의 의사결정을 돕기 위해 여러 출처의 데이터를 구조화된 형식으로 저장
- ETL(Extract, Transform, Load) 과정을 거쳐 정리한 후 보관
- 저장된 데이터는 일반적으로 수정·삭제하지 않고, 시간에 따른 변화 분석에 사용
ETL 과정
- Extract(추출) : 여러 소스에서 데이터 추출
- Transform(변환) : 요구에 맞게 데이터 정제, 타입변환, 집계 등
- Load(적재) : 변환한 데이터를 웨어하우스에 저장
✅ 데이터 마트 (Data Mart)
-
- 웨어하우스의 데이터를 특정 주제나 부서 중심으로 분류해서 저장
- 예: 판매 부서용 마트, 고객 분석용 마트 등
- 필요한 데이터만 신속하게 제공
✨ 데이터 엔지니어링
데이터를 효율적으로 분석할 수 있도록 준비하는 과정
- 수집: API, 로그, 센서 등 다양한 경로로 데이터 수집
- 저장: SQL, NoSQL, 데이터 레이크 등
- 처리: ETL로 정제·변환
- 배포: 분석 시스템, 머신러닝 모델에 맞게 제공
📏 데이터 크기 단위
| KB | 1,024 Byte |
| MB | 1,024 KB |
| GB | 1,024 MB |
| TB | 1,024 GB |
| PB | 1,024 TB |
| EB | 1,024 PB |
| ZB | 1,024 EB |
| YB | 1,024 ZB |
👉 순서: KB < MB < GB < TB < PB < EB < ZB < YB
✅ 오늘의 한줄 정리
데이터베이스와 DBMS, 그리고 데이터 레이크·웨어하우스·마트까지의 흐름을 이해하면, 데이터 관리와 분석의 큰 그림이 명확해진다!