빅데이터 개요

개론
Author

2026 이기적 빅데이터분석기사 필기 기본서

Published

January 12, 2026

데이터의 정의

데이터 포함 관계 도식 + 예시

데이터 ├─ 정량적 데이터 (숫자로 표현, 통계·연산 가능) │ ├─ 정형 데이터 (테이블, DB) │ │ 예: 매출액, 주가, 센서 온도 기록 │ ├─ 반정형 데이터 (일부 구조, 분석 전 변환 필요) │ │ 예: JSON 형식의 IoT 센서 데이터, 로그 파일 내 시간/수치 필드 │ └─ 비정형 데이터 (정형화되지 않아 전처리 필요) │ 예: CCTV 영상에서 추출한 사람 수, 이미지에서 측정한 객체 크기 └─ 정성적 데이터 (텍스트·범주, 맥락적 의미) ├─ 정형 데이터 (코드화 가능, 범주화 가능) │ 예: 만족도 설문 점수(좋음/보통/나쁨 → 1/2/3), 제품 등급(A/B/C) ├─ 반정형 데이터 (부분 구조 존재, 분석 전 처리 필요) │ 예: XML/JSON 형식의 고객 피드백 텍스트, 소셜 미디어 게시글 메타정보 포함 └─ 비정형 데이터 (텍스트, 이미지, 음성 등 자유 형식) 예: 고객 리뷰 텍스트, 음성 녹음, 이미지/영상, 이메일 내용

정량적(定量的)

  • 定: 정하다, 일정하다
  • 量: 양, 수치 → 수치로 측정·계량 가능한 성질

정성적(定性的)

  • 定: 정하다, 규정하다
  • 性: 성질, 특성 → 수치가 아닌 성질·특성으로 판단하는 성격

정형, 비정형, 반정형의 구분은 품질 무관 → 이는 데이터의 형식·구조 기준이며, 데이터 품질(정확성·완전성 등)과는 별개입니다.

JSON: 데이터를 저장·전송하기 위한 반정형 텍스트 기반 데이터 형식 XML: 데이터 저장·전송용 반정형 마크업 언어 HTML: 웹 페이지 표시용 비정형 마크업 언어 (주로 화면 표현 목적)

XML, JSON → 반정형 데이터 (구조·의미 명확) HTML → 구조는 있으나 표현 중심 (분석 목적 구조 부족) 텍스트 → 비정형 데이터 (자연어 처리 필요) 영상·이미지·음성 → 비정형 데이터 (고차원 특징 추출 필요)

정보의 대표적인 품질 특성 정확성 → 잘못된 정보는 의사결정을 왜곡하므로 핵심 품질 요소입니다. 적시성 → 늦은 정보는 아무리 정확해도 가치가 떨어집니다. 관련성 → 목적과 무관한 정보는 활용할 수 없으므로 정보로서 의미가 약합니다. 적당성 → 정보가 과도하거나 부족하면 해석·활용이 어려워집니다. 적정성 → 법·정책·규범을 위반한 정보는 활용 자체가 제한되거나 위험합니다.

일관성 → 이를 보장하기 위한 관리·운영 측면의 품질 속성으로 분류되는 경우가 많습니다.

데이터베이스

P(D) = I 이는 “데이터(D)에 처리(P)를 적용하면 정보(I)가 된다”는 의미를 비유적으로 나타낸 수식이다.

처리(P): 단순 계산이나 집계뿐만 아니라, 분류·요약·분석·의미 부여 등 다양한 가공 과정을 포괄한다.


빅데이터 개요

빅데이터 가치

데이터 산업의 이해

빅데이터 조직 및 인력