2 - 1
1. 데이터란 무엇인가?
- 정의: 데이터(Data)는 현실 세계에서 수집된 관찰값의 추상화라고 할 수 있습니다. 즉, 어떤 현상을 측정하거나 기록한 값들이 모여 데이터가 됩니다.
- 의의:
- 시각화의 품질은 데이터의 품질에 좌우됩니다.
- 부정확하거나 잘못된 데이터는 오해를 불러일으킬 수 있습니다.
2. 데이터와 데이터셋
- 비구조화 데이터(Unstructured Data)
- 전체 데이터의 약 95%는 이미지, 비디오, 음성, 로그 파일, 텍스트, 웹페이지 등 비구조화 형태로 존재
- 구조화 데이터(Structured Data)
- 분석·시각화에 적합하도록 정형화된 형태
- 종종 사용자가 직접 가공하여 만들어야 함
3. 기존의 구조화된 데이터 자원
- 공공 데이터 포털
- 미국 연방정부: data.gov
- 캘리포니아대 버클리: UCI ML Data (archive.ics.uci.edu)
- 한국 공공 데이터: data.go.kr
- AI 허브: aihub.or.kr
- 데이터 가공 도구
- Wrangler (Stanford): 비구조화 데이터를 테이블 형태로 정제 및 변환 지원
4. 데이터 모델(Data Models)
- 목적: 데이터를 어떻게 구조화하고 컴퓨터 기반 연산에 적합하게 만들 것인가를 정의
- 주요 개념:
- 엔티티(Entity): 데이터 객체(예: 사람, 상품)
- 속성(Attribute): 엔티티가 가지는 특성(예: 나이, 성별, 색상)
5. 관계형 데이터 모델(Relational Data Model)
- 구조:
- 튜플(tuple): 고정 길이의 레코드(행)
- 속성(attribute): 컬럼, 각 컬럼은 도메인(domain / 타입)을 가짐
- 관계형 데이터베이스: 여러 테이블 간에 키(key)를 통해 연관관계를 표현 가능
6. 관계형 대수(Relational Algebra)
- 기본 연산
- Selection (SELECT): 특정 행 선택
- Projection (WHERE): 특정 열 선택
- Sorting (ORDER BY)
- Aggregation (GROUP BY, SUM, MIN, MAX, …)
- 집합 연산: UNION, INTERSECT, EXCEPT
- 조인(Join): INNER JOIN, LEFT/RIGHT JOIN 등
7. 변수(속성) 유형
- Nominal(명목)
- 순서 없음, 동등비교(=, ≠)만 가능
- 예: 성별, 혈액형, 국가 코드
- Ordinal(순서)
- 순서 의미(=, ≠, <, >)
- 예: 학년(Freshman, Sophomore…), 만족도(매우 불만족…매우 만족)
- Interval(구간)
- 간격 측정 가능(=, ≠, <, >, 뺄셈)
- 예: 날짜(0점은 임의), 위치
- Ratio(비율)
- 절대영점 포함(=, ≠, <, >, 뺄셈, 나눗셈)
- 예: 온도(℃), 무게, 길이, 나이
8. 변수 유형별 허용 연산
타입 | 허용연산 |
Nominal | =, ≠ |
Ordinal | =, ≠, <, > |
Interval | =, ≠, <, >, − |
Ratio | =, ≠, <, >, −, ÷ |
9. 메타데이터(Metadata)
- 정의: “데이터에 대한 데이터”
- 내용:
- 속성의 정의(타입, 단위)
- 구조(테이블 스키마, 컬럼 설명)
- 관리 정보(작성자, 생성일, 버전 등)
- 예시: 사진의 해상도, 텍스트의 언어, 테이블 컬럼별 도메인 정보
10. 데이터 차원(Data Dimensions)
- 1차원(Univariate): 단일 변수 (예: 온도 측정값)
- 2차원(Bivariate): 두 변수 (예: 지도상의 위도·경도)
- 3차원(Trivariate): 세 변수 (예: 3D 좌표)
- 다차원(Multivariate): 4개 이상 변수 → 하이퍼버리에이트(Hypervariate)
11. 예시: US Census 데이터
- 변수:
- 연도(1850–2000, 10년 단위)
- 연령대(0–90+)
- 성별(남·여)
- 결혼상태(미혼·기혼·이혼·사별)
- 인구수
- 데이터 포인트: 약 2,348개
12. OLAP 큐브(OLAP Cube)
- OLAP(Online Analytical Processing): 다차원 데이터를 효율적으로 분석
- 주요 개념:
- Drill-down: 세부 차원으로 내려가며 상세 조회
- Roll-up: 집계 차원으로 올라가며 요약 조회
- 시각적 예시: 연도×연령×결혼상태를 각 축으로 하는 다차원 큐브
13. 테이블 vs 그래프
- 테이블(Table)
- 개별 값을 정확히 조회할 때 유리
- 정밀한 수치 비교가 필요할 때
- 그래프(Graph)
- 값들 간의 관계나 추세를 파악할 때
- 패턴·경향·분포를 시각적으로 인식할 때
14. 사례와 팁
- 작은 규모의 데이터셋에는 단순 테이블이 더 효과적일 수 있습니다 (Tufte)
- 시각화 방식은 **해결하려는 과제(task)**에 따라 달라집니다 (Norman, 1993)
요약 및 다음 단계
- 데이터의 본질과 구조화 과정을 이해했습니다.
- 관계형 모델과 관계형 대수의 기본 연산을 익혔습니다.
- 변수 유형별로 허용되는 연산과 활용 방식을 구분했습니다.
- 메타데이터, 다차원 데이터, OLAP 큐브 개념을 살펴보았습니다.
- 표와 그래프 중 언제 어떤 표현이 적절한지 판단 기준을 마련했습니다.
2 - 2
1. 데이터 모델(Data Models)
- 관계형 모델(Relational Data Models): 고정 길이 레코드를 가지며, 스키마 상에 테이블 간 관계를 정의해 대규모 데이터베이스를 구성합니다
- 통계적 모델(Statistical Data Models): 변수(variable)와 관측치(observation)로 구성되며, 인구조사 같은 대규모 조사 데이터를 예로 들 수 있습니다
2. 데이터 유형(Data Types)
- 명목(Nominal): 순서 개념 없이 동등(=), 비동등(≠) 비교만 가능
- 서열(Ordinal): 순서(≺, ≻)는 있으나 간격 측정 불가
- 구간(Interval): 간격 측정 가능(뺄셈), 영점은 임의
- 비율(Ratio): 절대 영점 포함, 비율(÷)까지 활용 가능
3. 데이터 매핑 & 심미적 속성(Mapping & Aesthetic Attributes)
- 데이터의 정량적 차원을 위치·크기·색상·질감 등 심미적 속성에 대응시킵니다
- 심미적 속성은 연속/범주형 변수 모두 표현 가능해야 하며, 단일 심리물리 차원으로 변형해야 합니다
4. Bertin의 8가지 시각 변수(Visual Variables)
- 위치(Position)
- 크기(Size)
- 값(Value)
- 색상(Color)
- 질감(Texture)
- 방향(Orientation)
- 모양(Shape)
5. 시각 변수별 원칙
- 위치(Position):
- 다차원 공간 내 좌표로 연속 변수는 밀집, 범주형은 격자에 배치
- 공통 축 상 위치 비교가 가장 정확하며, 축에서 멀어질수록 판단 오차 증가
- 크기(Size):
- 길이·면적·부피 등 차원별 크기 인코딩, 면적·부피 표현은 왜곡 위험
- 선의 두께는 왜곡이 적어 바 차트 등에서 효과적
- 모양(Shape):
- 기호나 경계 형태로, 크기·회전 등 다른 속성과 독립적으로 변화해야 함
- 회전(Rotation):
- 프리미티브 도형의 회전 각도, 위치 제약 없는 요소에만 적용 가능
- 색상(Color):
- 심리적 현상으로, 무지개·순차·발산·범주형 색상 맵 선택 시 데이터 유형 고려 필요
- 질감(Texture):
- 패턴·입자(granularity)·방향 구성, 동일 명도라도 질감 차이로 구분 가능
- 패턴 무작위성으로 데이터 인코딩, 방향성은 착시 유발 주의
6. 표현 그룹(Groups of Representation)
- 다이어그램(Diagrams), 네트워크(Networks), 지도(Maps), 기호(Symbols) 등 네 가지 그룹으로 분류됩니다
7. Shneiderman의 데이터 유형별 분류(Taxonomy by Data Type)
- 1D(집합·순서), 시간(Temporal), 2D(지도), 3D(형태), nD(관계형), 트리(계층), 네트워크, 문서 등으로 구분
8. 시각적 계층(Cleveland’s Hierarchy)
- 정량 비교 정확도 순:
- 공통 축 위치
- 비정렬 축 위치
- 길이
- 각도/기울기
- 면적
- 부피
- 색상
9. 인코딩 결합 & 심리적 고려
- 결합 인코딩: 여러 속성을 동시에 사용할 때 지각적 분해 가능성 검토
- 통합 vs 분리 차원(Integral vs. Separable):
- 통합 차원(예: 색상 내 명도·채도) 분해 어려움
- 분리 차원(크기·질감 등)은 독립적 처리 용이
- 인코딩 조합 원리:
- 데이터 속성과 일치(일관성), 중요도 순서대로 인코딩(중요도 순서)
10. 표현력 & 효과성(Expressiveness & Effectiveness)
- 표현력(Expressiveness): 시각 언어는 데이터의 모든 사실만을 표현해야 함
- 효과성(Effectiveness): 정보가 더 즉각·명확히 지각될수록 우수
- 상호작용 확장: 인터랙티브 환경에서 잠재적 표현·효과성 개념을 도입
3 - 1
1. Perception의 역할
- 시각화의 핵심 목표는 데이터를 시각 이미지로 표현하여 **시각적 분석(visual analysis)**을 돕는 것입니다.
- 인간의 지각(perception)에 대한 이해는 이미지의 효율성과 효과성에 직접적인 영향을 미칩니다 .
2. Psychophysics
- Psychophysics는 물리적 자극(stimulus)과 그에 대한 감각(sensation) 간의 관계를 과학적으로 연구하는 분야입니다.
- 자극의 속성을 체계적으로 변화시키며 실험 대상자의 경험이나 행동 변화를 분석하는 방법론을 포괄합니다 .
3. Just Noticeable Difference (JND) & Weber’s Law
- JND는 “어떤 감각 자극의 초기 수준과 약간 강화된 수준 사이에서 사람이 감지할 수 있는 최소 차이”를 의미합니다.
- 중간 범위에서는 JND가 자극 강도의 비율 ΔI/I = k로 일정하게 나타나는 경향이 있는데, 이를 Weber’s Law라고 합니다 .
- JND는 통계적 값으로, 실험을 여러 번 반복하여 ‘50%의 확률로 감지되는 차이’를 기준으로 측정합니다 .
4. Stevens’ Power Law
- Stevens의 거듭제곱 법칙은 물리적 자극 강도 I와 주관적 감각 크기 S의 관계를 S=kI^a로 모델링합니다.
- k: 자극 종류에 따른 비례 상수
- a: 감각 종류에 따른 지수(exponent)
- 이 법칙은 Weber’s Law보다 더 넓은 범위의 감각을 설명할 수 있다고 여겨집니다 .
5. Visual Processing
- 상세한 시각 정보(detailed vision)는 시야 가운데 약 사람 엄지손톱 크기 정도의 중심와(fovea) 영역에서만 가능합니다.
- 여러 영역의 세부 정보를 얻기 위해 눈은 **fixation(응시)**과 **saccade(급속안구운동)**를 3–4회/초 정도 반복하면서 이동합니다 .
6. Visual Attention
- **시각적 주의(attention)**는 이미지 내에서 어떤 영역에 집중할지를 결정하는 메커니즘입니다.
- 주요 형태:
- Selective attention: 한 가지 대상에 집중
- Divided attention: 여러 대상에 분산 집중
- Automaticity: 무의식적·자동적 처리 .
7. 이론적 해석: 선택적 주의
- 병목(filter/bottleneck) 모델
- Early selection: 하나의 정보만 완전 처리
- Attenuation: 주 대상은 완전 처리, 나머지는 일부 처리
- Late selection: 모든 입력이 들어오지만, 최종 처리 단계에서 하나만 선택 .
8. Pre-attentive Processing
- Pre-attentive 단계는 주의 집중 전에 저수준 시각 피처(feature)를 병렬로 빠르게 인식하는 과정입니다.
- 대량의 시각 요소에서 200–250ms 이내에 완료할 수 있는 작업이 여기에 해당합니다 .
9. 주요 Pre-attentive Visual Features
- 주요 실험 작업(task)
- Target detection: 고유 피처를 가진 요소 유무 감지
- Boundary detection: 서로 다른 그룹 간 경계 인식
- Region tracking: 움직이는 대상 추적
- Counting/estimation: 특정 피처 요소 개수 집계 .
- Partial List of Features (예시)
- Blob orientation, length/width, curvature, size, 색상(hue), 명암(intensity/luminance), 3D depth cues 등 .
10. Boundary Detection 실험
- 단일 피처(예: 색상)로 정의된 경계는 직관적으로 분류 가능하나, 두 개 이상의 피처 결합(conjunction) 경계는 사전 주의 없이는 분류하기 어렵습니다
11. Feature Integration Theory
- Treisman의 이론에 따르면 시각 처리 단계는 두 단계로 나뉩니다:
- Pre-attentive: 기본 피처별로 분산 처리
- Focused attention: 개별 피처를 통합하여 객체 인식
12. Similarity Theory
- Duncan & Humphreys의 관점은 병렬/직렬 구분에 반대하며, 시각 탐색 시간은
- T–N similarity(대상 vs. 비대상 유사도)
- N–N similarity(비대상끼리 유사도)
두 요소에 따라 달라진다고 봅니다
13. Guided Search Theory
- Wolfe의 모델은 **하향식(top-down)**과 상향식(bottom-up) 처리를 결합하여, 각 아이템에 주의 우선순위를 매깁니다 3-1 Perception3-1 Perception.
14. Boolean Map Theory
- Huang & Pashler는 시각 탐색을 선택(selection) 단계와 접근(access) 단계로 나누고, 전체 장면을 ‘선택된 요소’ vs. ‘제외된 요소’ 두 맵으로 분리해 처리한다고 제안합니다
15. Ensemble Encoding
- 저수준 시각 프로세스는 많은 피처 분포를 빠르게 요약(extract mean size, mean orientation, mean color 등)하여 인식할 수 있습니다
16. Feature Hierarchy & Cleveland’s Hierarchy
- 중요한 데이터를 가장 감각적으로 튼튼한 비주얼 피처에 매핑해야 합니다.
- Cleveland는 비교 정확도가 높은 순서대로
- 공통 축 위치
- 비정렬 축 위치
- 길이
- 각도
- 면적
- 부피
- 색상
으로 제안했습니다
17. Change Blindness & Inattentional Blindness
- Change Blindness: 깜빡임이나 화면 전환 시 변화가 있더라도 놓칠 수 있음
- Inattentional Blindness: 시각적으로 두드러진 객체라도 주의가 다른 곳에 있으면 전혀 인지하지 못함
18. Attentional Blink
- 두 개의 목표 자극을 빠르게 연속 제시할 때, 100–500ms 이내 두번째 목표를 놓치는 현상입니다. 즉, 첫 자극 직후엔 정확히 인식되나, 짧은 간격에선 무시됩니다
19. 시각화 설계에의 시사점
- 중요 데이터에 적절한 피처를 선택·강조하여 주의를 유도
- 애니메이션이나 다중 뷰를 사용할 때는 Attentional Blink나 Change Blindness를 고려하여 사용 타이밍을 조절
3 - 2
1. 색상의 중요성 및 선택 기준
- 색상은 시각적 주의(attention) 연구 결과를 기반으로 데이터를 인코딩하는 핵심 요소이며, 적절한 색상 스케일 선택이 시각화의 해석 효율성을 좌우합니다.
- “최고의” 색상 스케일은 없으며, 데이터 유형, 문제 도메인, 시각적 표현 방식, 그리고 분석가가 묻는 질문에 따라 달라져야 합니다 .
2. 컬러 스킴 설계 원칙
- 순서(Order)
- 단일 연속형(univariate) 데이터를 표현할 때 색상은 자연스럽고 직관적인 순서를 보여야 합니다 .
- 구분(Separation)
- 데이터의 중요한 구간 차이는 지각적으로 분명히 구분되는 색상으로 표현되어야 합니다. 단순히 다르게 보이는 정도를 넘어 ‘같음’ 역시 인지 가능해야 합니다 .
- 심미성(Aesthetics)
- 색상 맵은 미적으로도 즐거워야 하며, 가능한 최대 지각 분해능(perceptual resolution)을 가지면서 직관적인 순서를 유지해야 합니다 .
3. 1변량(Univariate) 컬러 스킴
- Qualitative(범주형)
- 무순서형 명목(Nominal) 데이터에 사용. 무지개 스케일(rainbow)은 흔히 쓰이지만, 색상 간 순서성이 없고 비직관적이어서 다양한 영역에서 권장되지 않습니다 .
- Sequential(순차형)
- 순서형 데이터에 적합. 그레이스케일이 가장 단순하며 직관적이지만, 구분 가능한 색상 수가 제한적입니다 .
- Diverging(발산형)
- 영(zero) 기준점이 의미 있는 비율(ratio) 데이터에 적합. 차가운 색(blue)과 따뜻한 색(red/yellow)을 양쪽 끝으로 배치해 중심값 대비 편차를 강조합니다 .
- Multivariate(다변량)
- 여러 변수의 조합을 색상으로 표현해야 할 때, ColorBrewer 등의 도구를 활용해 최적화된 컬러 스킴을 선택합니다
4. 색상의 물리·심리적 정의
- Dominant Wavelength: 우리가 보는 빛의 주 파장
- Excitation Purity: 주 파장 빛과 백색광의 혼합 비율
- Luminance(휘도): 빛의 밝기·강도
- Hue(색상): 우리가 일반적으로 ‘색깔’이라 부르는 속성
- Saturation(채도): 색에 섞인 백색광 비율, 채도가 0일 때는 흰색
- Intensity(명도/밝기): 반사체·발광체별 밝기 개념
5. RGB 보간의 문제와 HSV 대안
- RGB 공간에서 색을 선형 보간하면 지각적 왜곡이 발생하여 실제 데이터 강도와 맞지 않습니다.
- 보간 시 Hue–Saturation–Value(HSV) 공간을 사용하면 지각일치(perceptual match)가 개선됩니다
6. 실용적 색상 활용 가이드
- 큰 영역: 파란색(blue) 사용, 얇은 선(line)에는 피할 것
- 시선 중앙: 빨강(red)·초록(green) 사용(망막 주변부는 이들에 둔감)
- 주변 시야: 검정(black)·흰색(white)·노랑(yellow) 사용
- 인접 색상: 채도는 서로 달라도 색상(hue)이 인접하도록
- 대규모 영역: 채도가 낮은 파스텔 톤 추천
- 주의: 인접 영역 간 ‘청색량만’ 차이나는 색상 배치는 피하고, 그룹핑(grouping)·검색(search)에 색을 활용하되, 인접된 색상끼리 혼동되지 않도록 주의
7. 주변 시야(Peripheral) 시각화 및 착시
- Visualization in the Periphery: 시야 주변부의 색상 민감도가 떨어지므로, 설계 시 중심 vs 주변에 다른 색상 전략을 적용해야 합니다 3-2 Color3-2 Color.
- Another Illusion / Count the Black Dots: 짧은 시간·주변 시야에서의 착시는 중요 변화를 놓칠 수 있음을 보여주는 실험 예시로, 애니메이션·인터랙션 설계 시 고려해야 합니다
4 - 1
1. 단일변수 시각화 (Univariate Data Visualization)
- 히스토그램(Histogram), 박스플롯(Box-and-Whisker Plot), 라인 그래프(Line Graph) 등 단일 변수의 분포나 추세를 표현하는 기본 차트 .
2. 표현 방법의 선택 (Representation)
- 다변량 데이터를 표시하는 두 가지 주요 방식:
- 테이블(Tables): 정밀한 값 조회가 필요할 때 사용
- 그래프(Graphs): 관계·패턴·추세를 빠르게 파악할 때 사용 .
3. 테이블 vs 그래프
- 테이블 사용 시점: 개별 값의 정확한 비교, 여러 단위(예: 시간, 금액 등)를 동시에 볼 때 .
- 그래프 사용 시점: 데이터 간 관계·패턴이 메시지 핵심일 때, 과제(task)에 맞춰 디자인 .
4. 단일변수 사례 (Univariate Case)
- 하나의 축에는 데이터 포인트(case), 다른 축에는 측정값(value)을 배치하여 분포나 빈도를 시각화 .
5. 이변량 사례 (Bivariate Case)
- 누적 막대그래프(Stacked Bar Graph)
- 첫 번째 범주별로 가로 길이를, 내부에서 두 번째 범주 확률에 따라 세로로 분할 .
- 산점도(Scatterplot)
- 두 변수 값을 각각 x, y축에 점으로 표시하여 이상치(outlier), 군집(cluster), 분포(distribution)를 빠르게 파악
- 추세선을 그릴 수 있으나 과도한 가정 주의 .
6. Scagnostics (산점도 진단)
- Scagnostics는 그래프 이론(graph-theoretic) 기반으로 산점도의 구조적 이상(anomaly)을 수치화하는 기법
- Convex Hull, Alpha Hull, Minimum Spanning Tree 등을 이용해 클러스터링, 분포, 모양 등의 특성 지표를 계산 .
7. 다변량 밀도 추정 (Multivariate Density Estimation)
- **Kernel Density Estimation(KDE)**와 Continuous Scatterplots를 통해 이변량 이상의 연속형 분포를 부드럽게 시각화 .
8. 모자이크 플롯 (Mosaic Plot)
- 두 개 이상의 범주형 변수 간 조건부 확률을 직사각형 영역으로 인코딩
- 넓이가 아닌 변수별 길이 비교에 초점을 맞추어 지각 왜곡 최소화 .
9. 작은 다중 차트 (Small Multiples)
- Edward Tufte의 Trellis Chart 개념: 동일한 차트를 변수별로 배열하여 비교
- 동일한 축, 스케일, 크기·형태를 유지하고, 논리적 순서(order)로 배치하여 대량 차트를 한눈에 파악 .
10. 산점도 행렬 (Scatterplot Matrix, SPLOM)
- 모든 변수 쌍마다 2D 산점도 생성
- Elmqvist 등의 ScatterDice 기법은 매트릭스를 네비게이션 공간으로 활용하여 순차적 탐색 강조
11. 평행좌표 플롯 (Parallel Coordinates)
- 고차원 데이터를 각 축에 평행하게 배치하고, 데이터 포인트를 선으로 연결
- 범위 정규화, 축 순서(ordering), 라인 클러터(clutter) 등의 이슈 존재
12. 앵귤러 브러싱 & 속성 비율 (Attribute Ratios)
- Angular Brushing: 두 축 사이 각도를 지정해 상관 높은 부분 집합 선택
- 속성 비율을 통해 상관관계 가시화
13. 평행 세트(Parallel Sets)
- 평행좌표 레이아웃을 카테고리형 데이터에 적용
- 연속 축 대신 박스로 대체하여 빈도 기반 시각화
14. 스타 플롯(Star Plot)
- 각 축을 방사형으로 배치하고, 값에 따라 선 길이 변경 후 다각형으로 연결하여 한눈에 다변량 패턴 인식
15. Chernoff Faces
- 얼굴의 형태 변화를 이용해 다변량 값을 시각화
- 인간의 얼굴 인식 능력을 활용하되 해석 어려움 주의
16. 픽셀 기반 디스플레이 (Pixel-Based Displays)
- 각 데이터 포인트를 작은 픽셀로 표현해 고밀도 데이터 시각화
- 강조(halo, 색상, 왜곡, 해칭) 기법으로 시각적 개선 가능
17. 집합 연산 시각화 (Set Operations)
- Venn Diagram, Euler Diagram: 집합 관계를 부분 겹침 형태로 표현
- Bubble Sets, UpSet: 겹치는 집합을 선, 곡선, 매트릭스 등으로 확장
18. 조정 다중 뷰 (Coordinated Multiple Views) & 브러싱(Brushing)
- 여러 뷰를 연동(linked brushing)하여 한 뷰에서 선택한 데이터가 다른 뷰에서도 강조
- 인터랙션을 통해 다양한 변수 조합 탐색 가능
4 - 2
1. 개요 및 디스클레이머
- Multidimensional Visualization II: 2차원 이상의 다변량 데이터를 시각화하는 다양한 기법 소개 (슬라이드 0)
- 디스클레이머: 수업 외부로 배포·게시 금지 (슬라이드 1)
2. 데이터 차원 (Data Dimensions)
- 1차원(Univariate): 단일 변수 → 히스토그램, 박스플롯 등
- 2차원(Bivariate): 두 변수 → 산점도, 등고선 등
- 3차원(Trivariate): 세 변수 → 3D 산점도, 표면 플롯 등
- 하이퍼버리에이트(Hypervariate): 변수 수 > 3 → 2D로 투영 후 시각화 필요 (슬라이드 2)
3. 저차원 데이터 표현 (Low-Dimension Representations)
- 1D–3D는 직접적인 차원 매핑이 가능
- 3D 그래픽 → 2D 화면 투영하듯, 고차원도 일종의 투영(Projection)으로 처리 (슬라이드 3–4)
4. 스프레드시트 뷰 (Table View)
- 구조: 변수 → 열(column), 관측치(사례) → 행(row)
- 장점: 정밀 값 비교에 강점
- 단점: 관계·패턴 파악에는 비효율적 (슬라이드 4)
5. 다중 뷰 (Multiple Views)
- 각 변수별로 독립적 뷰를 나란히 배열
- John Stasko의 “Multiple Views” 개념
- Jacques Bertin의 시각 변수 원칙과 결합 가능 (슬라이드 5–6)
6. 비주얼 변수 (Visual Variables)
- Bertin(1967): 위치, 크기, 색상, 질감, 방향, 모양, 명도 등 (슬라이드 6/9)
- Mackinlay(1986): 어떤 인코딩이 더 효과적인지 비교 실험 (슬라이드 10–11)
- Cleveland & McGill(1984): 지각 정확도 순위
- 공통 축 위치
- 비정렬 축 위치
- 길이
- 각도/기울기
- 면적
- 부피
- 질감
- 색상
- 방향·모양 (슬라이드 12–15)
7. Small Multiples
- Edward Tufte의 Trellis 차트
- 동일한 차트를 변수별 “작은 다중”으로 배열
- 동일 축·스케일 유지, 논리적 순서로 배치해야 효율적 (슬라이드 19–20)
8. Chernoff Faces
- 얼굴 형태의 glyph를 이용해 n-차원 데이터를 시각화
- 인간의 얼굴 인식 능력 활용, 해석의 직관성 강조 (슬라이드 21–22)
9. Scatterplot Matrices (SPLOM)
- 모든 변수 쌍에 대해 2D 산점도 생성
- ScatterDice (Elmqvist 2008): 매트릭스를 탐색 공간으로 활용해 순차적 탐색 지원 (슬라이드 23)
10. Pixel-based Matrix Views
- 고밀도 데이터 시각화 기법
- 각 관측치를 픽셀 단위로 그리며 색상·명도로 값 인코딩 (슬라이드 26–29)
11. Petals & Threads Visualization
- Petals (Ko 2014): 각 변수별로 꽃잎 모양 glyph
- Threads (Ko 2014): 시계열 다변량 데이터 선 스타일로 표현 (슬라이드 30–31)
12. Dynamic Queries
- Ben Shneiderman(1990s): SQL → 슬라이더 기반 인터랙션
- Film Finder (CHI 1994) 등으로 확대 적용 (슬라이드 32–33)
13. Home Finder
- 1992년 MS-DOS 기반 주택 검색 애플리케이션
- 슬라이더와 맵 연동 인터페이스, 이후 Web/GUI로 재구현(“Home Finder Revisited!”) (슬라이드 34–35)
14. Parallel Coordinates
- Alfred Inselberg(1985) 제안
- 각 변수 축을 평행선으로 배치
- 데이터 한 점 → 축 교차점 연결하는 다각선(polyline)
- 변수 순서, 축 정규화, 클러터(clutter) 관리가 핵심 과제 (슬라이드 37–40)
핵심 정리
- 하이퍼버리에이트 데이터는 투영을 통해 2D에 맵핑
- 시각 변수의 지각적 우선순위를 고려해 인코딩
- Small Multiples, Glyph, SPLOM, 픽셀 매트릭스 등 다양한 기법 활용
- **인터랙션(Dynamic Queries, Brushing)**으로 탐색 효율성 극대화
- Parallel Coordinates는 다차원 구조 유지에 강점, 하지만 축 관리가 중요