시리즈

MediaPipe Face Landmarker — 학부생을 위한 학습 교재

평범한 RGB 카메라 한 대로 얼굴을 찾아 478개의 점을 찍고, 표정을 52개 숫자로, 머리 자세를 4×4 행렬로 내주는 도구 MediaPipe Face Landmarker를 처음 배우는 학부생이 순서대로 읽도록 구성한 학습서다. CV·ML 사전지식은 최소만 가정한다.

이 README는 진입 안내다. 결론과 결정표는 마지막 장 07. Walkthrough와 결론에만 모여 있고, 여기서는 그곳으로 링크만 건다.

읽는 순서

00부터 07까지 순서대로 읽으면 동기 → 전체 그림 → 부분 상세 → 비교 → 실무 → 통합의 흐름으로 이어진다. 각 장은 앞 장에서 정의한 용어를 다시 풀지 않고 그대로 부른다. 그러니 건너뛰지 말고 순서대로 읽기를 권한다. 막히는 용어는 GLOSSARY.md에서 한 줄 정의와 해당 절 링크로 빠르게 찾을 수 있다.

00 foundations

01 history

02 pipeline

03 landmarks 478

04 blendshapes

05 mesh vs landmarker

06 performance

07 walkthrough + conclusion

챕터 한 줄 요약

# 챕터 한 줄 요약
00 기초 — 공통 어휘 RGB·픽셀, 검출·ROI, 랜드마크·메시, 정규화 좌표, canonical model, 회귀·온디바이스, 블렌드셰이프, 변환 행렬을 깊게 정의한다. 뒤 장은 이 용어를 그대로 부른다.
01 기술 히스토리·계보 BlazeFace → Face Mesh → Attention Mesh → Iris → Tasks/Landmarker → Blendshapes로, 각 단계가 앞 단계의 한계를 풀며 쌓인 흐름. Solutions → Tasks 프레임워크 재편도 함께 본다.
02 전체 동작 파이프라인 RGB 한 장이 478점·52계수·4×4 행렬이 되기까지 (a)전처리 → (b)검출 → (c)ROI 정렬 → (d)회귀 → (e)(f)옵션 → (g)역정규화. 영상은 detect-once-then-track으로 검출기를 대부분 생략한다.
03 478개 랜드마크 478 = 표면 메시 468 + 홍채 10. 영역별 분포, 홍채 인덱스, 좌표 해석, 그리고 "왜 이렇게 조밀해야 하는가"에 답한다.
04 블렌드셰이프와 4×4 행렬 표정을 52계수로 내는 별도 2차 모델, ARKit 52와 "두 개의 52", 회귀 메커니즘(146점 입력), 머리 자세 행렬, 아바타 응용.
05 기존 Face Mesh와의 차이 레거시 Face Mesh와 현행 Face Landmarker 비교: 출력(52·4×4 신규), 모델 제공, 실행 모드, 옵션, 마이그레이션 점검표.
06 성능·요구사항·플랫폼·실행 모드 번들 ≈3.58 MiB, 세 실행 모드, CPU/GPU delegate, 벤치마크(두 정확도 지표 분리), 입력 한계 — 돌리려면 무엇이 필요한가.
07 Walkthrough와 결론 한 웹캠 VTuber 시나리오에 전 챕터를 순차로 꿰고, 단일 결론·수치 결정표·실무 체크리스트로 마무리한다.

부록

  • GLOSSARY.md — 생소 용어의 1~3줄 색인과 해당 장 §링크.

빠른 길잡이 (목적별)

  • "왜 478개인지만 빨리 알고 싶다" → 03장 §3.1 (용어가 막히면 00장).
  • "블렌드셰이프가 뭔지 알고 싶다" → 04장.
  • "레거시 코드를 옮기는 중" → 05장 §5.7 마이그레이션.
  • "성능 수치·옵션 기본값" → 06장.
  • "전체를 한 흐름으로 보고 싶다" → 02장 또는 07장(시나리오).
노드를 눌러 해당 챕터로 이동할 수 있습니다. 읽은 챕터는 표시됩니다.
광고 · Advertisements

챕터 한눈표