콘텐츠로 이동

프로젝트 마일스톤

물리적 정합성 기반 HDR 뷰 확장 및 DGP 시뮬레이션


1. 프로젝트 정의 및 목표

본 프로젝트는 제한된 시야(NFoV, 약 63°)를 가진 단일 HDR 이미지(23mm 렌즈 등)를 입력받아, 물리적으로 정확한 180° 반구형(Hemispherical) HDR 파노라마를 생성하는 것을 목표로 한다.

1.1 핵심 목표

단순한 시각적 확장(Outpainting)을 넘어, 주광 눈부심 확률(DGP) 계산의 정확성을 담보할 수 있는 수직 조도(\(E_v\)) 정합성을 확보한다.

1.2 해결 과제

기존 모델들이 간과했던 전이 구간(300 ~ 1,000 \(cd/m^2\))의 휘도 정보를 정밀하게 복원하여, 시뮬레이션 시 발생하는 '거짓 양성(False Positive)' 눈부심 오류를 제거한다.


2. 핵심 R&D 전략

2.1 모델 아키텍처: HDR-Native StyleGAN2

항목 내용
기반 모델 StyleLight (GAN) 기반 - LDM의 VAE 정보 손실(Blurring)을 피하기 위해 선택
활성화 함수 Tanh → Softplus로 교체 (물리적 휘도의 비음수성 및 무한 동적 범위 지원)
해상도 \(512 \times 1024\) (Equirectangular) Native 출력

2.2 학습 전략: 2-Stage & S2R-Adapter

단계 데이터 목표 DTAM
Stage 1 S2R-HDR (합성) 기하학적 구조 확장 능력 배양 OFF
Stage 2 Laval Photometric (실측) 물리적 도메인 적응 ON

S2R-Adapter 구조: - 2-브랜치 도메인 적응 구조 (공유 브랜치 + 전송 브랜치) - 전송 브랜치: Transfer1(r1=1) + Transfer2(r2=128)

2.3 핵심 기술: S2R-Adapter, DTAM 및 Full FP32

기술 설명
S2R-Adapter 2-브랜치 도메인 적응 구조로 Stage 1 지식 보존하면서 물리 보정 (r1=1, r2=128)
DTAM 휘도에 따라 가중치를 차등 부여. \(T_{onset}=300\), \(T_{peak}=1,000\) \(cd/m^2\)
Full FP32 RTX 5090 (32GB+ VRAM) 환경에서 모든 연산을 float32로 강제

3. 단계별 세부 마일스톤

Milestone 1: 인프라 구축 및 데이터 파이프라인

목표: 물리적 정합성을 지원하는 하드웨어 및 소프트웨어 환경 구축

세부 활동:

  1. 하드웨어 확정
  2. NVIDIA RTX 5090 확보 및 CUDA 환경 설정
  3. Full FP32 메모리 할당 테스트

  4. 데이터셋 준비

  5. Stage 1용: S2R-HDR (24k장, 합성)
  6. Stage 2용: Laval Photometric Indoor HDR (1.7k장, \(cd/m^2\) 보정)

  7. 데이터 로더 개발

  8. pytorch360convert 커스터마이징
  9. 톤매핑/감마 보정 없이 선형 Float32 텐서 직접 로드

Milestone 2: 모델 아키텍처 수정 및 초기화

목표: HDR 데이터를 손실 없이 처리할 수 있는 모델 구조 변경

세부 활동:

  1. 출력층 교체
  2. StyleGAN2 Generator의 ToRGB 레이어 활성화 함수를 Softplus로 변경

  3. FP32 강제화

  4. amp (Automatic Mixed Precision) 관련 코드 전면 제거
  5. torch.set_default_dtype(torch.float32) 적용

  6. 판별자 수정

  7. 180° HDR 이미지를 입력받아 리얼리티를 판별하는 \(D_{180\_HDR}\) 구현

Milestone 3: Stage 1 파인튜닝 (구조 학습)

목표: S2R-HDR 데이터셋을 활용하여 '잘린 이미지를 자연스럽게 확장'하는 능력 확보

주요 전략:

항목 설정
데이터 S2R-HDR
마스킹 DTAM 비활성화 (OFF) - 합성 데이터의 광원 물리량이 실제와 다를 수 있음
손실 함수 기본 GAN 손실 + 지각적 손실 (LPIPS)
결과물 Checkpoint-Stage1 (구조적 이해도가 높은 기본 모델)

Milestone 4: Stage 2 파인튜닝 (물리적 정합성)

목표: Laval 실측 데이터를 통해 실제 빛의 세기와 분포(\(E_v\))를 학습

주요 전략:

항목 설정
데이터 Laval Photometric Indoor HDR
S2R-Adapter Stage 1의 \(G\) 가중치 동결, 어댑터만 학습
DTAM 활성화 (ON) - \(T_{onset}=300\), \(T_{peak}=1000\)

손실 함수:

\[\mathcal{L}_{Total} = \mathcal{L}_{Phys}(DTAM) + \lambda \mathcal{L}_{Consist} + \mathcal{L}_{GAN}\]
손실 역할
\(\mathcal{L}_{Phys}\) DTAM 가중치가 적용된 물리적 L1 손실
\(\mathcal{L}_{Consist}\) Stage 1 모델과의 구조적 차이를 제한하는 일관성 손실
\(\mathcal{L}_{GAN}\) 기본 적대적 손실

결과물: Checkpoint-Final (물리적으로 보정된 최종 모델)


Milestone 5: 검증 파이프라인 및 추론

목표: 해상도 손실 없이 evalglare 분석이 가능한 고품질 결과물 생성

실행 프로세스 (6-Step Workflow):

단계 작업 설명
1 생성 \(512 \times 1024\) Equirectangular HDR 생성 (FP32)
2 크롭 전방 180° 영역 추출 (\(512 \times 512\))
3 초해상도 \(1024 \times 1024\)로 업스케일링 (SwinIR 등)
4 변환 Angular Fisheye (-vta) 포맷으로 투영 변환
5 헤더 주입 Radiance 헤더 (VIEW= -vta -vv 180 -vh 180) 삽입
6 DGP 산출 evalglare 실행

Milestone 6: 최종 평가

목표: 정량적/정성적 평가를 통한 모델 성능 검증

정량적 평가

지표 설명 목표
\(\Delta E_v\) 수직 조도 오차율 < 10% (가장 중요)
\(RMSE_{trans}\) 전이 구간 (300~1,000 \(cd/m^2\)) 복원 정확도 최소화
DGP Class Accuracy 눈부심 등급 (Imperceptible ~ Intolerable) 분류 정확도 최대화
PU21-PSNR 지각적 품질 지표 기존 대비 향상
HDR-VDP-3 Q-Score HDR 품질 점수 기존 대비 향상

정성적 평가

  • Blender를 이용한 IBL (Image-Based Lighting) 렌더링 테스트
  • 반사/그림자 품질 비교

4. 요약 타임라인

M1: 인프라 구축     →  M2: 모델 수정     →  M3: Stage 1 학습
        ↓                    ↓                    ↓
   데이터 준비          Softplus 적용         구조 학습
   FP32 환경 설정       FP32 강제화          DTAM OFF
        ↓                    ↓                    ↓
                         M4: Stage 2 학습
                    S2R-Adapter + DTAM ON
                         물리 보정
                    M5: 검증 파이프라인
                    M6: 최종 평가 및 검증