콘텐츠로 이동

DTAM: 이중 임계값 적응형 마스킹

물리적 정확성 기반의 HDR 파노라마 생성을 위한 학습 전략


1. 서론

1.1 생성형 AI와 조명 시뮬레이션의 물리적 정합성 문제

최근 컴퓨터 비전 및 그래픽스 분야에서 딥러닝 기반의 이미지 생성 기술은 비약적인 발전을 이루었다. 특히 제한된 시야(Narrow Field of View, NFoV)를 가진 이미지로부터 360도 파노라마를 복원하거나 확장하는 기술은 가상 현실(VR), 증강 현실(AR), 그리고 건축 시각화 분야에서 핵심적인 역할을 수행하고 있다.

그러나 이러한 시각적 그럴듯함(Visual Plausibility)을 넘어, 생성된 이미지가 실제 물리적 세계의 조명 환경을 정확하게 모사해야 하는 '조명 공학적 시뮬레이션'의 영역으로 진입할 때, 기존의 생성 모델들은 심각한 한계에 직면한다.

특히 건축물의 실내 환경 성능 평가의 핵심 지표인 주광 눈부심 확률(Daylight Glare Probability, DGP)을 계산하기 위해서는 단순한 픽셀 값의 배열이 아닌, 물리적 휘도(Luminance, \(cd/m^2\)) 정보가 정확하게 보존된 High Dynamic Range(HDR) 이미지가 필수적이다.

1.2 절대 임계값 마스크(ATM)의 문제점

본 보고서는 기존의 HDR 파노라마 생성 연구에서 통상적으로 사용되거나 제안되었던 '절대 임계값 마스크(Absolute Threshold Mask, ATM)' 전략, 특히 1,000 \(cd/m^2\)를 기준으로 눈부심 광원을 식별하고 학습 가중치를 부여하는 방식이 가진 치명적인 논리적 결함을 비판적으로 검토한다.

ATM의 핵심 문제:

  • 1,000 \(cd/m^2\)라는 기준은 인간의 시각 시스템이 느끼는 '불쾌 눈부심(Discomfort Glare)'의 발생 가능성을 판단하는 결과론적 수치일 뿐
  • 이를 기계 학습 모델의 학습 과정에 그대로 적용할 경우 DGP 계산의 분모인 수직 조도(\(E_v\))에 기여하는 '눈부시지 않은 밝은 빛(300~1,000 \(cd/m^2\))'에 대한 학습 누락을 초래
  • 결과적으로 생성된 파노라마의 조명 환경을 실제보다 어둡게 평가하게 만들며, DGP 값을 비정상적으로 부풀리는 '거짓 양성(False Positive)' 오류 발생

1.3 해결책: DTAM 전략

본 연구에서는 이러한 문제를 해결하기 위해 이중 임계값 적응형 마스킹(Dual-Threshold Adaptive Masking, DTAM) 전략을 제안한다.

DTAM의 핵심 특징: - HDR 데이터의 물리적 특성을 고려 - 학습 시작점(Onset)과 포화점(Peak)을 분리 - 전이 구간(Transition Zone)에 대해 연속적인 가중치 부여


2. DGP 메커니즘과 ATM의 위험성 분석

2.1 주광 눈부심 확률(DGP)의 해부학적 이해

DGP는 실내 재실자가 느끼는 눈부심의 정도를 확률로 나타낸 지표로, 조명 환경의 물리적 측정값과 인간의 주관적 반응 사이의 상관관계를 수식화한 것이다.

DGP 기본 수식:

\[DGP = 5.87 \cdot 10^{-5} \cdot E_v + 9.18 \cdot 10^{-2} \cdot \log_{10} \left( 1 + \sum_{i} \frac{L_{s,i}^2 \cdot \omega_{s,i}}{E_v^{a_1} \cdot P_i^{a_2}} \right) + 0.16\]

변수 설명:

변수 의미 역할
\(E_v\) 수직 조도 (lux) 시야 전체에 들어오는 빛의 총량, 눈의 순응 수준 결정
\(L_{s,i}\) \(i\)번째 광원의 휘도 (\(cd/m^2\)) 눈부심의 강도
\(\omega_{s,i}\) 광원의 입체각 광원이 차지하는 시야 영역
\(P_i\) 위치 지수 시선 중심에서 광원이 벗어난 정도

2.2 분모로서의 수직 조도(\(E_v\))의 결정적 역할

위 수식에서 가장 주목해야 할 점은 로그 항 내부의 합산 식 \(\sum (\dots)\)분모에 위치한 \(E_v\)이다.

\(E_v\)의 역할:

  • 수직 조도 \(E_v\)눈부심을 완화하는 역할
  • 주변이 밝을수록(\(E_v\)가 높을수록) 동일한 밝기의 광원을 보더라도 눈부심을 덜 느낌
  • 반대로 주변이 어두우면(\(E_v\)가 낮으면) 작은 불빛도 강한 눈부심으로 다가옴
  • 이는 인간 시각 시스템의 베버-페히너 법칙(Weber-Fechner Law)에 기인한 명순응(Photopic Adaptation) 현상

핵심 포인트

정확한 DGP를 계산하기 위해서는 눈을 찌르는 듯한 강력한 광원(\(L_{s,i}\))뿐만 아니라, 공간 전체의 밝기를 형성하여 눈을 순응시키는 배경 조명(\(E_v\))을 정확하게 예측하는 것이 필수적이다.

2.3 1,000 \(cd/m^2\) ATM의 논리적 오류

2.3.1 '눈부시지 않은 밝은 빛' (Luminance Transition Zone)의 누락

실내 공간에서 300 ~ 1,000 \(cd/m^2\) 사이의 휘도를 가지는 영역:

  • 직사광이 닿아 밝게 빛나는 흰색 벽면
  • 확산형 블라인드를 통과한 부드러운 주광
  • 천장의 넓은 면적을 차지하는 간접 조명 반사면
  • 구름 낀 하늘이 보이는 창문

이러한 요소들은 정의상 '눈부심 광원(Glare Source)'으로 분류되지 않는다. 그러나 이들은 공간 내에서 차지하는 면적(입체각, \(\omega\))이 매우 넓다.

조도(\(E_v\))는 휘도(\(L\))와 입체각(\(\omega\))의 적분값이므로:

\[E_v = \int L \cdot d\omega\]

300~1,000 \(cd/m^2\) 구간의 넓은 면적들이 수직 조도 \(E_v\)의 대부분을 구성한다.

2.3.2 DGP 계산 결과의 왜곡: 거짓 양성(False Positive)

1,000 \(cd/m^2\) 기준 마스킹의 영향:

단계 현상 결과
1 배경 휘도 저평가 300~1,000 → 100~200 \(cd/m^2\)로 생성
2 \(E_v\) 급격한 감소 넓은 면적의 배경 휘도 감소로 적분값 대폭 감소
3 DGP 분모 축소 \(E_v\) 감소로 눈부심 기여도 기하급수적 증가
4 최종 결과 쾌적한 공간이 "참을 수 없는 눈부심"으로 잘못 예측

3. 해결 방안: DTAM 전략 수립

3.1 이중 임계값의 정의

DTAM 전략의 핵심은 '학습이 시작되어야 하는 지점(Onset)''최대 중요도로 다뤄야 하는 지점(Peak)'을 분리하는 것이다.

학습 시작 임계값 (\(T_{onset}\))

항목 내용
\(\approx 250 \sim 300 \; cd/m^2\)
물리적 의미 외부 주광 유입이나 강한 간접 조명에 의해 '밝음'이 인지되기 시작하는 지점
목적 모델이 단순한 텍스처 생성을 넘어 정확한 픽셀 강도를 복원하도록 유도, \(E_v\) 총량 확보

눈부심 임계값 (\(T_{peak}\))

항목 내용
\(\approx 1,000 \sim 1,500 \; cd/m^2\)
물리적 의미 직접적인 눈부심을 유발할 가능성이 매우 높은 고휘도 영역의 시작점
목적 DGP 수식의 분자(\(L_s\))에 해당하는 광원의 위치, 크기, 강도를 정밀하게 복원

3.2 적응형 가중치 함수 \(W(L)\) 설계

픽셀의 휘도 \(L\)에 따라 연속적으로 변하는 가중치 함수:

\[W(L) = \begin{cases} 1.0 & \text{if } L < T_{onset} \\ 1.0 + \alpha \cdot \left( \frac{L - T_{onset}}{T_{peak} - T_{onset}} \right)^\gamma & \text{if } T_{onset} \le L < T_{peak} \\ 1.0 + \alpha & \text{if } L \ge T_{peak} \end{cases}\]

파라미터 설명:

파라미터 의미 예시 값
\(\alpha\) 가중치 증폭 계수 9 (눈부심 영역이 배경보다 10배 중요)
\(\gamma\) 곡률 2 (이차 함수, 부드러운 전이)

3.3 DTAM의 작동 원리

휘도 구간 가중치 학습 목표
0 ~ 300 \(cd/m^2\) 1.0 기본적인 실내 구조, 색상, 텍스처 학습
300 ~ 1,000 \(cd/m^2\) 1.0 → 10.0 (점진적 상승) 픽셀을 "특정 광량을 가진 에너지"로 인식, \(E_v\) 정합성 보장
1,000+ \(cd/m^2\) 10.0 (최대) 광원의 피크 값을 정확히 복원, DGP 분자 값 보장

4. 계산 인프라: Full FP32 파이프라인

4.1 혼합 정밀도(FP16) 훈련의 한계

HDR 데이터는 \(10^{-3}\) (어두운 그림자)부터 \(10^5\) (태양)까지 8 log unit 이상의 다이내믹 레인지를 가진다.

문제 설명
Overflow FP16 최대값 65,504. 태양 휘도(수백만 \(cd/m^2\))가 클리핑됨
Underflow 미세한 반사광의 변화율이 FP16 최소 범위보다 작아져 0으로 소멸

4.2 Full FP32 파이프라인 설계

단계 설정
입력 OpenEXR 포맷의 선형 휘도 데이터를 float32로 로드. 톤매핑/감마 보정 없음
모델 Generator와 Discriminator의 모든 가중치 및 활성화 입출력을 FP32 유지
손실 함수 휘도의 제곱(\(L^2\)) 등 큰 값도 FP32의 넓은 지수부가 수용

5. 요약

항목 ATM (기존) DTAM (제안)
기준 1,000 \(cd/m^2\) 고정 300 ~ 1,000 \(cd/m^2\) 전이 구간
가중치 이진 (0 또는 1) 연속적 (1.0 ~ 10.0)
\(E_v\) 학습 누락 보장
DGP 오류 거짓 양성 발생 최소화