카테고리 없음

정보 시각화 기술 간단 개념 정리

Isaac Kenastan 2025. 5. 9. 01:41

2 - 1


1. 데이터란 무엇인가?

  • 정의: 데이터(Data)는 현실 세계에서 수집된 관찰값의 추상화라고 할 수 있습니다. 즉, 어떤 현상을 측정하거나 기록한 값들이 모여 데이터가 됩니다.
  • 의의:
    • 시각화의 품질은 데이터의 품질에 좌우됩니다.
    • 부정확하거나 잘못된 데이터는 오해를 불러일으킬 수 있습니다.

2. 데이터와 데이터셋

  • 비구조화 데이터(Unstructured Data)
    • 전체 데이터의 약 95%는 이미지, 비디오, 음성, 로그 파일, 텍스트, 웹페이지 등 비구조화 형태로 존재
  • 구조화 데이터(Structured Data)
    • 분석·시각화에 적합하도록 정형화된 형태
    • 종종 사용자가 직접 가공하여 만들어야 함

3. 기존의 구조화된 데이터 자원

  • 공공 데이터 포털
    • 미국 연방정부: data.gov
    • 캘리포니아대 버클리: UCI ML Data (archive.ics.uci.edu)
    • 한국 공공 데이터: data.go.kr
    • AI 허브: aihub.or.kr
  • 데이터 가공 도구
    • Wrangler (Stanford): 비구조화 데이터를 테이블 형태로 정제 및 변환 지원

4. 데이터 모델(Data Models)

  • 목적: 데이터를 어떻게 구조화하고 컴퓨터 기반 연산에 적합하게 만들 것인가를 정의
  • 주요 개념:
    1. 엔티티(Entity): 데이터 객체(예: 사람, 상품)
    2. 속성(Attribute): 엔티티가 가지는 특성(예: 나이, 성별, 색상)

5. 관계형 데이터 모델(Relational Data Model)

  • 구조:
    • 튜플(tuple): 고정 길이의 레코드(행)
    • 속성(attribute): 컬럼, 각 컬럼은 도메인(domain / 타입)을 가짐
  • 관계형 데이터베이스: 여러 테이블 간에 키(key)를 통해 연관관계를 표현 가능

6. 관계형 대수(Relational Algebra)

  • 기본 연산
    • Selection (SELECT): 특정 행 선택
    • Projection (WHERE): 특정 열 선택
    • Sorting (ORDER BY)
    • Aggregation (GROUP BY, SUM, MIN, MAX, …)
  • 집합 연산: UNION, INTERSECT, EXCEPT
  • 조인(Join): INNER JOIN, LEFT/RIGHT JOIN 등

7. 변수(속성) 유형

  1. Nominal(명목)
    • 순서 없음, 동등비교(=, ≠)만 가능
    • 예: 성별, 혈액형, 국가 코드
  2. Ordinal(순서)
    • 순서 의미(=, ≠, <, >)
    • 예: 학년(Freshman, Sophomore…), 만족도(매우 불만족…매우 만족)
  3. Interval(구간)
    • 간격 측정 가능(=, ≠, <, >, 뺄셈)
    • 예: 날짜(0점은 임의), 위치
  4. Ratio(비율)
    • 절대영점 포함(=, ≠, <, >, 뺄셈, 나눗셈)
    • 예: 온도(℃), 무게, 길이, 나이

8. 변수 유형별 허용 연산

타입 허용연산
Nominal =, ≠
Ordinal =, ≠, <, >
Interval =, ≠, <, >, −
Ratio =, ≠, <, >, −, ÷
 

9. 메타데이터(Metadata)

  • 정의: “데이터에 대한 데이터”
  • 내용:
    • 속성의 정의(타입, 단위)
    • 구조(테이블 스키마, 컬럼 설명)
    • 관리 정보(작성자, 생성일, 버전 등)
  • 예시: 사진의 해상도, 텍스트의 언어, 테이블 컬럼별 도메인 정보

10. 데이터 차원(Data Dimensions)

  • 1차원(Univariate): 단일 변수 (예: 온도 측정값)
  • 2차원(Bivariate): 두 변수 (예: 지도상의 위도·경도)
  • 3차원(Trivariate): 세 변수 (예: 3D 좌표)
  • 다차원(Multivariate): 4개 이상 변수 → 하이퍼버리에이트(Hypervariate)

11. 예시: US Census 데이터

  • 변수:
    • 연도(1850–2000, 10년 단위)
    • 연령대(0–90+)
    • 성별(남·여)
    • 결혼상태(미혼·기혼·이혼·사별)
    • 인구수
  • 데이터 포인트: 약 2,348개

12. OLAP 큐브(OLAP Cube)

  • OLAP(Online Analytical Processing): 다차원 데이터를 효율적으로 분석
  • 주요 개념:
    • Drill-down: 세부 차원으로 내려가며 상세 조회
    • Roll-up: 집계 차원으로 올라가며 요약 조회
  • 시각적 예시: 연도×연령×결혼상태를 각 축으로 하는 다차원 큐브

13. 테이블 vs 그래프

  • 테이블(Table)
    • 개별 값을 정확히 조회할 때 유리
    • 정밀한 수치 비교가 필요할 때
  • 그래프(Graph)
    • 값들 간의 관계나 추세를 파악할 때
    • 패턴·경향·분포를 시각적으로 인식할 때

14. 사례와 팁

  • 작은 규모의 데이터셋에는 단순 테이블이 더 효과적일 수 있습니다 (Tufte)
  • 시각화 방식은 **해결하려는 과제(task)**에 따라 달라집니다 (Norman, 1993)

요약 및 다음 단계

  1. 데이터의 본질구조화 과정을 이해했습니다.
  2. 관계형 모델관계형 대수의 기본 연산을 익혔습니다.
  3. 변수 유형별로 허용되는 연산과 활용 방식을 구분했습니다.
  4. 메타데이터, 다차원 데이터, OLAP 큐브 개념을 살펴보았습니다.
  5. 표와 그래프 중 언제 어떤 표현이 적절한지 판단 기준을 마련했습니다.

 

2 - 2


1. 데이터 모델(Data Models)

  • 관계형 모델(Relational Data Models): 고정 길이 레코드를 가지며, 스키마 상에 테이블 간 관계를 정의해 대규모 데이터베이스를 구성합니다
  • 통계적 모델(Statistical Data Models): 변수(variable)와 관측치(observation)로 구성되며, 인구조사 같은 대규모 조사 데이터를 예로 들 수 있습니다

2. 데이터 유형(Data Types)

  • 명목(Nominal): 순서 개념 없이 동등(=), 비동등(≠) 비교만 가능
  • 서열(Ordinal): 순서(≺, ≻)는 있으나 간격 측정 불가
  • 구간(Interval): 간격 측정 가능(뺄셈), 영점은 임의
  • 비율(Ratio): 절대 영점 포함, 비율(÷)까지 활용 가능

3. 데이터 매핑 & 심미적 속성(Mapping & Aesthetic Attributes)

  • 데이터의 정량적 차원을 위치·크기·색상·질감 등 심미적 속성에 대응시킵니다
  • 심미적 속성은 연속/범주형 변수 모두 표현 가능해야 하며, 단일 심리물리 차원으로 변형해야 합니다

4. Bertin의 8가지 시각 변수(Visual Variables)

  1. 위치(Position)
  2. 크기(Size)
  3. 값(Value)
  4. 색상(Color)
  5. 질감(Texture)
  6. 방향(Orientation)
  7. 모양(Shape)

5. 시각 변수별 원칙

  • 위치(Position):
    • 다차원 공간 내 좌표로 연속 변수는 밀집, 범주형은 격자에 배치
    • 공통 축 상 위치 비교가 가장 정확하며, 축에서 멀어질수록 판단 오차 증가
  • 크기(Size):
    • 길이·면적·부피 등 차원별 크기 인코딩, 면적·부피 표현은 왜곡 위험
    • 선의 두께는 왜곡이 적어 바 차트 등에서 효과적
  • 모양(Shape):
    • 기호나 경계 형태로, 크기·회전 등 다른 속성과 독립적으로 변화해야 함
  • 회전(Rotation):
    • 프리미티브 도형의 회전 각도, 위치 제약 없는 요소에만 적용 가능
  • 색상(Color):
    • 심리적 현상으로, 무지개·순차·발산·범주형 색상 맵 선택 시 데이터 유형 고려 필요
  • 질감(Texture):
    • 패턴·입자(granularity)·방향 구성, 동일 명도라도 질감 차이로 구분 가능 
    • 패턴 무작위성으로 데이터 인코딩, 방향성은 착시 유발 주의

6. 표현 그룹(Groups of Representation)

  • 다이어그램(Diagrams), 네트워크(Networks), 지도(Maps), 기호(Symbols) 등 네 가지 그룹으로 분류됩니다

7. Shneiderman의 데이터 유형별 분류(Taxonomy by Data Type)

  • 1D(집합·순서), 시간(Temporal), 2D(지도), 3D(형태), nD(관계형), 트리(계층), 네트워크, 문서 등으로 구분

8. 시각적 계층(Cleveland’s Hierarchy)

  • 정량 비교 정확도 순:
    1. 공통 축 위치
    2. 비정렬 축 위치
    3. 길이
    4. 각도/기울기
    5. 면적
    6. 부피
    7. 색상

9. 인코딩 결합 & 심리적 고려

  • 결합 인코딩: 여러 속성을 동시에 사용할 때 지각적 분해 가능성 검토
  • 통합 vs 분리 차원(Integral vs. Separable):
    • 통합 차원(예: 색상 내 명도·채도) 분해 어려움
    • 분리 차원(크기·질감 등)은 독립적 처리 용이
  • 인코딩 조합 원리:
    • 데이터 속성과 일치(일관성), 중요도 순서대로 인코딩(중요도 순서)

10. 표현력 & 효과성(Expressiveness & Effectiveness)

  • 표현력(Expressiveness): 시각 언어는 데이터의 모든 사실만을 표현해야 함
  • 효과성(Effectiveness): 정보가 더 즉각·명확히 지각될수록 우수
  • 상호작용 확장: 인터랙티브 환경에서 잠재적 표현·효과성 개념을 도입

 

3 - 1


1. Perception의 역할

  • 시각화의 핵심 목표는 데이터를 시각 이미지로 표현하여 **시각적 분석(visual analysis)**을 돕는 것입니다.
  • 인간의 지각(perception)에 대한 이해는 이미지의 효율성과 효과성에 직접적인 영향을 미칩니다 .

2. Psychophysics

  • Psychophysics는 물리적 자극(stimulus)과 그에 대한 감각(sensation) 간의 관계를 과학적으로 연구하는 분야입니다.
  • 자극의 속성을 체계적으로 변화시키며 실험 대상자의 경험이나 행동 변화를 분석하는 방법론을 포괄합니다 .

3. Just Noticeable Difference (JND) & Weber’s Law

  • JND는 “어떤 감각 자극의 초기 수준과 약간 강화된 수준 사이에서 사람이 감지할 수 있는 최소 차이”를 의미합니다.
  • 중간 범위에서는 JND가 자극 강도의 비율 ΔI/I = k로 일정하게 나타나는 경향이 있는데, 이를 Weber’s Law라고 합니다 .
  • JND는 통계적 값으로, 실험을 여러 번 반복하여 ‘50%의 확률로 감지되는 차이’를 기준으로 측정합니다 .

4. Stevens’ Power Law

  • Stevens의 거듭제곱 법칙은 물리적 자극 강도 I와 주관적 감각 크기 S의 관계를 S=kI^a로 모델링합니다.
    • k: 자극 종류에 따른 비례 상수
    • a: 감각 종류에 따른 지수(exponent)
  • 이 법칙은 Weber’s Law보다 더 넓은 범위의 감각을 설명할 수 있다고 여겨집니다 .

5. Visual Processing

  • 상세한 시각 정보(detailed vision)는 시야 가운데 약 사람 엄지손톱 크기 정도의 중심와(fovea) 영역에서만 가능합니다.
  • 여러 영역의 세부 정보를 얻기 위해 눈은 **fixation(응시)**과 **saccade(급속안구운동)**를 3–4회/초 정도 반복하면서 이동합니다 .

6. Visual Attention

  • **시각적 주의(attention)**는 이미지 내에서 어떤 영역에 집중할지를 결정하는 메커니즘입니다.
  • 주요 형태:
    1. Selective attention: 한 가지 대상에 집중
    2. Divided attention: 여러 대상에 분산 집중
    3. Automaticity: 무의식적·자동적 처리 .

7. 이론적 해석: 선택적 주의

  • 병목(filter/bottleneck) 모델
    • Early selection: 하나의 정보만 완전 처리
    • Attenuation: 주 대상은 완전 처리, 나머지는 일부 처리
    • Late selection: 모든 입력이 들어오지만, 최종 처리 단계에서 하나만 선택 .

8. Pre-attentive Processing

  • Pre-attentive 단계는 주의 집중 전에 저수준 시각 피처(feature)를 병렬로 빠르게 인식하는 과정입니다.
  • 대량의 시각 요소에서 200–250ms 이내에 완료할 수 있는 작업이 여기에 해당합니다 .

9. 주요 Pre-attentive Visual Features

  • 주요 실험 작업(task)
    • Target detection: 고유 피처를 가진 요소 유무 감지
    • Boundary detection: 서로 다른 그룹 간 경계 인식
    • Region tracking: 움직이는 대상 추적
    • Counting/estimation: 특정 피처 요소 개수 집계 .
  • Partial List of Features (예시)
    • Blob orientation, length/width, curvature, size, 색상(hue), 명암(intensity/luminance), 3D depth cues 등 .

10. Boundary Detection 실험

  • 단일 피처(예: 색상)로 정의된 경계는 직관적으로 분류 가능하나, 두 개 이상의 피처 결합(conjunction) 경계는 사전 주의 없이는 분류하기 어렵습니다

11. Feature Integration Theory

  • Treisman의 이론에 따르면 시각 처리 단계는 두 단계로 나뉩니다:
    1. Pre-attentive: 기본 피처별로 분산 처리
    2. Focused attention: 개별 피처를 통합하여 객체 인식

12. Similarity Theory

  • Duncan & Humphreys의 관점은 병렬/직렬 구분에 반대하며, 시각 탐색 시간은
    • T–N similarity(대상 vs. 비대상 유사도)
    • N–N similarity(비대상끼리 유사도)
      두 요소에 따라 달라진다고 봅니다

13. Guided Search Theory

  • Wolfe의 모델은 **하향식(top-down)**과 상향식(bottom-up) 처리를 결합하여, 각 아이템에 주의 우선순위를 매깁니다 3-1 Perception3-1 Perception.

14. Boolean Map Theory

  • Huang & Pashler는 시각 탐색을 선택(selection) 단계와 접근(access) 단계로 나누고, 전체 장면을 ‘선택된 요소’ vs. ‘제외된 요소’ 두 맵으로 분리해 처리한다고 제안합니다

15. Ensemble Encoding

  • 저수준 시각 프로세스는 많은 피처 분포를 빠르게 요약(extract mean size, mean orientation, mean color 등)하여 인식할 수 있습니다

16. Feature Hierarchy & Cleveland’s Hierarchy

  • 중요한 데이터를 가장 감각적으로 튼튼한 비주얼 피처에 매핑해야 합니다.
  • Cleveland는 비교 정확도가 높은 순서대로
    1. 공통 축 위치
    2. 비정렬 축 위치
    3. 길이
    4. 각도
    5. 면적
    6. 부피
    7. 색상
      으로 제안했습니다

17. Change Blindness & Inattentional Blindness

  • Change Blindness: 깜빡임이나 화면 전환 시 변화가 있더라도 놓칠 수 있음
  • Inattentional Blindness: 시각적으로 두드러진 객체라도 주의가 다른 곳에 있으면 전혀 인지하지 못함

18. Attentional Blink

  • 두 개의 목표 자극을 빠르게 연속 제시할 때, 100–500ms 이내 두번째 목표를 놓치는 현상입니다. 즉, 첫 자극 직후엔 정확히 인식되나, 짧은 간격에선 무시됩니다

19. 시각화 설계에의 시사점

  • 중요 데이터에 적절한 피처를 선택·강조하여 주의를 유도
  • 애니메이션이나 다중 뷰를 사용할 때는 Attentional BlinkChange Blindness를 고려하여 사용 타이밍을 조절

 

3 - 2


1. 색상의 중요성 및 선택 기준

  • 색상은 시각적 주의(attention) 연구 결과를 기반으로 데이터를 인코딩하는 핵심 요소이며, 적절한 색상 스케일 선택이 시각화의 해석 효율성을 좌우합니다.
  • “최고의” 색상 스케일은 없으며, 데이터 유형, 문제 도메인, 시각적 표현 방식, 그리고 분석가가 묻는 질문에 따라 달라져야 합니다 .

2. 컬러 스킴 설계 원칙

  1. 순서(Order)
    • 단일 연속형(univariate) 데이터를 표현할 때 색상은 자연스럽고 직관적인 순서를 보여야 합니다 .
  2. 구분(Separation)
    • 데이터의 중요한 구간 차이는 지각적으로 분명히 구분되는 색상으로 표현되어야 합니다. 단순히 다르게 보이는 정도를 넘어 ‘같음’ 역시 인지 가능해야 합니다 .
  3. 심미성(Aesthetics)
    • 색상 맵은 미적으로도 즐거워야 하며, 가능한 최대 지각 분해능(perceptual resolution)을 가지면서 직관적인 순서를 유지해야 합니다 .

3. 1변량(Univariate) 컬러 스킴

  • Qualitative(범주형)
    • 무순서형 명목(Nominal) 데이터에 사용. 무지개 스케일(rainbow)은 흔히 쓰이지만, 색상 간 순서성이 없고 비직관적이어서 다양한 영역에서 권장되지 않습니다 .
  • Sequential(순차형)
    • 순서형 데이터에 적합. 그레이스케일이 가장 단순하며 직관적이지만, 구분 가능한 색상 수가 제한적입니다 .
  • Diverging(발산형)
    • 영(zero) 기준점이 의미 있는 비율(ratio) 데이터에 적합. 차가운 색(blue)과 따뜻한 색(red/yellow)을 양쪽 끝으로 배치해 중심값 대비 편차를 강조합니다 .
  • Multivariate(다변량)
    • 여러 변수의 조합을 색상으로 표현해야 할 때, ColorBrewer 등의 도구를 활용해 최적화된 컬러 스킴을 선택합니다

4. 색상의 물리·심리적 정의

  • Dominant Wavelength: 우리가 보는 빛의 주 파장
  • Excitation Purity: 주 파장 빛과 백색광의 혼합 비율
  • Luminance(휘도): 빛의 밝기·강도
  • Hue(색상): 우리가 일반적으로 ‘색깔’이라 부르는 속성
  • Saturation(채도): 색에 섞인 백색광 비율, 채도가 0일 때는 흰색
  • Intensity(명도/밝기): 반사체·발광체별 밝기 개념

5. RGB 보간의 문제와 HSV 대안

  • RGB 공간에서 색을 선형 보간하면 지각적 왜곡이 발생하여 실제 데이터 강도와 맞지 않습니다.
  • 보간 시 Hue–Saturation–Value(HSV) 공간을 사용하면 지각일치(perceptual match)가 개선됩니다

6. 실용적 색상 활용 가이드

  • 큰 영역: 파란색(blue) 사용, 얇은 선(line)에는 피할 것
  • 시선 중앙: 빨강(red)·초록(green) 사용(망막 주변부는 이들에 둔감)
  • 주변 시야: 검정(black)·흰색(white)·노랑(yellow) 사용
  • 인접 색상: 채도는 서로 달라도 색상(hue)이 인접하도록
  • 대규모 영역: 채도가 낮은 파스텔 톤 추천
  • 주의: 인접 영역 간 ‘청색량만’ 차이나는 색상 배치는 피하고, 그룹핑(grouping)·검색(search)에 색을 활용하되, 인접된 색상끼리 혼동되지 않도록 주의

7. 주변 시야(Peripheral) 시각화 및 착시

  • Visualization in the Periphery: 시야 주변부의 색상 민감도가 떨어지므로, 설계 시 중심 vs 주변에 다른 색상 전략을 적용해야 합니다 3-2 Color3-2 Color.
  • Another Illusion / Count the Black Dots: 짧은 시간·주변 시야에서의 착시는 중요 변화를 놓칠 수 있음을 보여주는 실험 예시로, 애니메이션·인터랙션 설계 시 고려해야 합니다

 

4 - 1


1. 단일변수 시각화 (Univariate Data Visualization)

  • 히스토그램(Histogram), 박스플롯(Box-and-Whisker Plot), 라인 그래프(Line Graph) 등 단일 변수의 분포나 추세를 표현하는 기본 차트 .

2. 표현 방법의 선택 (Representation)

  • 다변량 데이터를 표시하는 두 가지 주요 방식:
    1. 테이블(Tables): 정밀한 값 조회가 필요할 때 사용
    2. 그래프(Graphs): 관계·패턴·추세를 빠르게 파악할 때 사용 .

3. 테이블 vs 그래프

  • 테이블 사용 시점: 개별 값의 정확한 비교, 여러 단위(예: 시간, 금액 등)를 동시에 볼 때 .
  • 그래프 사용 시점: 데이터 간 관계·패턴이 메시지 핵심일 때, 과제(task)에 맞춰 디자인 .

4. 단일변수 사례 (Univariate Case)

  • 하나의 축에는 데이터 포인트(case), 다른 축에는 측정값(value)을 배치하여 분포나 빈도를 시각화 .

5. 이변량 사례 (Bivariate Case)

  1. 누적 막대그래프(Stacked Bar Graph)
    • 첫 번째 범주별로 가로 길이를, 내부에서 두 번째 범주 확률에 따라 세로로 분할 .
  2. 산점도(Scatterplot)
    • 두 변수 값을 각각 x, y축에 점으로 표시하여 이상치(outlier), 군집(cluster), 분포(distribution)를 빠르게 파악
    • 추세선을 그릴 수 있으나 과도한 가정 주의 .

6. Scagnostics (산점도 진단)

  • Scagnostics는 그래프 이론(graph-theoretic) 기반으로 산점도의 구조적 이상(anomaly)을 수치화하는 기법
  • Convex Hull, Alpha Hull, Minimum Spanning Tree 등을 이용해 클러스터링, 분포, 모양 등의 특성 지표를 계산 .

7. 다변량 밀도 추정 (Multivariate Density Estimation)

  • **Kernel Density Estimation(KDE)**와 Continuous Scatterplots를 통해 이변량 이상의 연속형 분포를 부드럽게 시각화 .

8. 모자이크 플롯 (Mosaic Plot)

  • 두 개 이상의 범주형 변수 간 조건부 확률을 직사각형 영역으로 인코딩
  • 넓이가 아닌 변수별 길이 비교에 초점을 맞추어 지각 왜곡 최소화 .

9. 작은 다중 차트 (Small Multiples)

  • Edward Tufte의 Trellis Chart 개념: 동일한 차트를 변수별로 배열하여 비교
  • 동일한 축, 스케일, 크기·형태를 유지하고, 논리적 순서(order)로 배치하여 대량 차트를 한눈에 파악 .

10. 산점도 행렬 (Scatterplot Matrix, SPLOM)

  • 모든 변수 쌍마다 2D 산점도 생성
  • Elmqvist 등의 ScatterDice 기법은 매트릭스를 네비게이션 공간으로 활용하여 순차적 탐색 강조

11. 평행좌표 플롯 (Parallel Coordinates)

  • 고차원 데이터를 각 축에 평행하게 배치하고, 데이터 포인트를 선으로 연결
  • 범위 정규화, 축 순서(ordering), 라인 클러터(clutter) 등의 이슈 존재

12. 앵귤러 브러싱 & 속성 비율 (Attribute Ratios)

  • Angular Brushing: 두 축 사이 각도를 지정해 상관 높은 부분 집합 선택
  • 속성 비율을 통해 상관관계 가시화

13. 평행 세트(Parallel Sets)

  • 평행좌표 레이아웃을 카테고리형 데이터에 적용
  • 연속 축 대신 박스로 대체하여 빈도 기반 시각화

14. 스타 플롯(Star Plot)

  • 각 축을 방사형으로 배치하고, 값에 따라 선 길이 변경 후 다각형으로 연결하여 한눈에 다변량 패턴 인식

15. Chernoff Faces

  • 얼굴의 형태 변화를 이용해 다변량 값을 시각화
  • 인간의 얼굴 인식 능력을 활용하되 해석 어려움 주의

16. 픽셀 기반 디스플레이 (Pixel-Based Displays)

  • 각 데이터 포인트를 작은 픽셀로 표현해 고밀도 데이터 시각화
  • 강조(halo, 색상, 왜곡, 해칭) 기법으로 시각적 개선 가능

17. 집합 연산 시각화 (Set Operations)

  • Venn Diagram, Euler Diagram: 집합 관계를 부분 겹침 형태로 표현
  • Bubble Sets, UpSet: 겹치는 집합을 선, 곡선, 매트릭스 등으로 확장

18. 조정 다중 뷰 (Coordinated Multiple Views) & 브러싱(Brushing)

  • 여러 뷰를 연동(linked brushing)하여 한 뷰에서 선택한 데이터가 다른 뷰에서도 강조
  • 인터랙션을 통해 다양한 변수 조합 탐색 가능

 

4 - 2


 

1. 개요 및 디스클레이머

  • Multidimensional Visualization II: 2차원 이상의 다변량 데이터를 시각화하는 다양한 기법 소개 (슬라이드 0)
  • 디스클레이머: 수업 외부로 배포·게시 금지 (슬라이드 1)

2. 데이터 차원 (Data Dimensions)

  • 1차원(Univariate): 단일 변수 → 히스토그램, 박스플롯 등
  • 2차원(Bivariate): 두 변수 → 산점도, 등고선 등
  • 3차원(Trivariate): 세 변수 → 3D 산점도, 표면 플롯 등
  • 하이퍼버리에이트(Hypervariate): 변수 수 > 3 → 2D로 투영 후 시각화 필요 (슬라이드 2)

3. 저차원 데이터 표현 (Low-Dimension Representations)

  • 1D–3D는 직접적인 차원 매핑이 가능
  • 3D 그래픽 → 2D 화면 투영하듯, 고차원도 일종의 투영(Projection)으로 처리 (슬라이드 3–4)

4. 스프레드시트 뷰 (Table View)

  • 구조: 변수 → 열(column), 관측치(사례) → 행(row)
  • 장점: 정밀 값 비교에 강점
  • 단점: 관계·패턴 파악에는 비효율적 (슬라이드 4)

5. 다중 뷰 (Multiple Views)

  • 각 변수별로 독립적 뷰를 나란히 배열
  • John Stasko의 “Multiple Views” 개념
  • Jacques Bertin의 시각 변수 원칙과 결합 가능 (슬라이드 5–6)

6. 비주얼 변수 (Visual Variables)

  • Bertin(1967): 위치, 크기, 색상, 질감, 방향, 모양, 명도 등 (슬라이드 6/9)
  • Mackinlay(1986): 어떤 인코딩이 더 효과적인지 비교 실험 (슬라이드 10–11)
  • Cleveland & McGill(1984): 지각 정확도 순위
    1. 공통 축 위치
    2. 비정렬 축 위치
    3. 길이
    4. 각도/기울기
    5. 면적
    6. 부피
    7. 질감
    8. 색상
    9. 방향·모양 (슬라이드 12–15)

7. Small Multiples

  • Edward Tufte의 Trellis 차트
  • 동일한 차트를 변수별 “작은 다중”으로 배열
  • 동일 축·스케일 유지, 논리적 순서로 배치해야 효율적 (슬라이드 19–20)

8. Chernoff Faces

  • 얼굴 형태의 glyph를 이용해 n-차원 데이터를 시각화
  • 인간의 얼굴 인식 능력 활용, 해석의 직관성 강조 (슬라이드 21–22)

9. Scatterplot Matrices (SPLOM)

  • 모든 변수 쌍에 대해 2D 산점도 생성
  • ScatterDice (Elmqvist 2008): 매트릭스를 탐색 공간으로 활용해 순차적 탐색 지원 (슬라이드 23)

10. Pixel-based Matrix Views

  • 고밀도 데이터 시각화 기법
  • 각 관측치를 픽셀 단위로 그리며 색상·명도로 값 인코딩 (슬라이드 26–29)

11. Petals & Threads Visualization

  • Petals (Ko 2014): 각 변수별로 꽃잎 모양 glyph
  • Threads (Ko 2014): 시계열 다변량 데이터 선 스타일로 표현 (슬라이드 30–31)

12. Dynamic Queries

  • Ben Shneiderman(1990s): SQL → 슬라이더 기반 인터랙션
  • Film Finder (CHI 1994) 등으로 확대 적용 (슬라이드 32–33)

13. Home Finder

  • 1992년 MS-DOS 기반 주택 검색 애플리케이션
  • 슬라이더와 맵 연동 인터페이스, 이후 Web/GUI로 재구현(“Home Finder Revisited!”) (슬라이드 34–35)

14. Parallel Coordinates

  • Alfred Inselberg(1985) 제안
  • 각 변수 축을 평행선으로 배치
  • 데이터 한 점 → 축 교차점 연결하는 다각선(polyline)
  • 변수 순서, 축 정규화, 클러터(clutter) 관리가 핵심 과제 (슬라이드 37–40)

핵심 정리

  1. 하이퍼버리에이트 데이터는 투영을 통해 2D에 맵핑
  2. 시각 변수의 지각적 우선순위를 고려해 인코딩
  3. Small Multiples, Glyph, SPLOM, 픽셀 매트릭스 등 다양한 기법 활용
  4. **인터랙션(Dynamic Queries, Brushing)**으로 탐색 효율성 극대화
  5. Parallel Coordinates는 다차원 구조 유지에 강점, 하지만 축 관리가 중요