데이터의 정의
데이터 포함 관계 도식 + 예시
데이터 ├─ 정량적 데이터 (숫자로 표현, 통계·연산 가능) │ ├─ 정형 데이터 (테이블, DB) │ │ 예: 매출액, 주가, 센서 온도 기록 │ ├─ 반정형 데이터 (일부 구조, 분석 전 변환 필요) │ │ 예: JSON 형식의 IoT 센서 데이터, 로그 파일 내 시간/수치 필드 │ └─ 비정형 데이터 (정형화되지 않아 전처리 필요) │ 예: CCTV 영상에서 추출한 사람 수, 이미지에서 측정한 객체 크기 └─ 정성적 데이터 (텍스트·범주, 맥락적 의미) ├─ 정형 데이터 (코드화 가능, 범주화 가능) │ 예: 만족도 설문 점수(좋음/보통/나쁨 → 1/2/3), 제품 등급(A/B/C) ├─ 반정형 데이터 (부분 구조 존재, 분석 전 처리 필요) │ 예: XML/JSON 형식의 고객 피드백 텍스트, 소셜 미디어 게시글 메타정보 포함 └─ 비정형 데이터 (텍스트, 이미지, 음성 등 자유 형식) 예: 고객 리뷰 텍스트, 음성 녹음, 이미지/영상, 이메일 내용
정량적(定量的)
- 定: 정하다, 일정하다
- 量: 양, 수치 → 수치로 측정·계량 가능한 성질
정성적(定性的)
- 定: 정하다, 규정하다
- 性: 성질, 특성 → 수치가 아닌 성질·특성으로 판단하는 성격
정형, 비정형, 반정형의 구분은 품질 무관 → 이는 데이터의 형식·구조 기준이며, 데이터 품질(정확성·완전성 등)과는 별개입니다.
JSON: 데이터를 저장·전송하기 위한 반정형 텍스트 기반 데이터 형식 XML: 데이터 저장·전송용 반정형 마크업 언어 HTML: 웹 페이지 표시용 비정형 마크업 언어 (주로 화면 표현 목적)
XML, JSON → 반정형 데이터 (구조·의미 명확) HTML → 구조는 있으나 표현 중심 (분석 목적 구조 부족) 텍스트 → 비정형 데이터 (자연어 처리 필요) 영상·이미지·음성 → 비정형 데이터 (고차원 특징 추출 필요)
정보의 대표적인 품질 특성 정확성 → 잘못된 정보는 의사결정을 왜곡하므로 핵심 품질 요소입니다. 적시성 → 늦은 정보는 아무리 정확해도 가치가 떨어집니다. 관련성 → 목적과 무관한 정보는 활용할 수 없으므로 정보로서 의미가 약합니다. 적당성 → 정보가 과도하거나 부족하면 해석·활용이 어려워집니다. 적정성 → 법·정책·규범을 위반한 정보는 활용 자체가 제한되거나 위험합니다.
일관성 → 이를 보장하기 위한 관리·운영 측면의 품질 속성으로 분류되는 경우가 많습니다.
데이터베이스
P(D) = I 이는 “데이터(D)에 처리(P)를 적용하면 정보(I)가 된다”는 의미를 비유적으로 나타낸 수식이다.
처리(P): 단순 계산이나 집계뿐만 아니라, 분류·요약·분석·의미 부여 등 다양한 가공 과정을 포괄한다.