MediaPipe Face Landmarker — 학부생을 위한 학습 교재
평범한 RGB 카메라 한 대로 얼굴을 찾아 478개의 점을 찍고, 표정을 52개 숫자로, 머리 자세를 4×4 행렬로 내주는 도구 MediaPipe Face Landmarker를 처음 배우는 학부생이 순서대로 읽도록 구성한 학습서다. CV·ML 사전지식은 최소만 가정한다.
이 README는 진입 안내다. 결론과 결정표는 마지막 장 07. Walkthrough와 결론에만 모여 있고, 여기서는 그곳으로 링크만 건다.
읽는 순서
00부터 07까지 순서대로 읽으면 동기 → 전체 그림 → 부분 상세 → 비교 → 실무 → 통합의 흐름으로 이어진다. 각 장은 앞 장에서 정의한 용어를 다시 풀지 않고 그대로 부른다. 그러니 건너뛰지 말고 순서대로 읽기를 권한다. 막히는 용어는 GLOSSARY.md에서 한 줄 정의와 해당 절 링크로 빠르게 찾을 수 있다.
챕터 한 줄 요약
| # | 챕터 | 한 줄 요약 |
|---|---|---|
| 00 | 기초 — 공통 어휘 | RGB·픽셀, 검출·ROI, 랜드마크·메시, 정규화 좌표, canonical model, 회귀·온디바이스, 블렌드셰이프, 변환 행렬을 깊게 정의한다. 뒤 장은 이 용어를 그대로 부른다. |
| 01 | 기술 히스토리·계보 | BlazeFace → Face Mesh → Attention Mesh → Iris → Tasks/Landmarker → Blendshapes로, 각 단계가 앞 단계의 한계를 풀며 쌓인 흐름. Solutions → Tasks 프레임워크 재편도 함께 본다. |
| 02 | 전체 동작 파이프라인 | RGB 한 장이 478점·52계수·4×4 행렬이 되기까지 (a)전처리 → (b)검출 → (c)ROI 정렬 → (d)회귀 → (e)(f)옵션 → (g)역정규화. 영상은 detect-once-then-track으로 검출기를 대부분 생략한다. |
| 03 | 478개 랜드마크 | 478 = 표면 메시 468 + 홍채 10. 영역별 분포, 홍채 인덱스, 좌표 해석, 그리고 "왜 이렇게 조밀해야 하는가"에 답한다. |
| 04 | 블렌드셰이프와 4×4 행렬 | 표정을 52계수로 내는 별도 2차 모델, ARKit 52와 "두 개의 52", 회귀 메커니즘(146점 입력), 머리 자세 행렬, 아바타 응용. |
| 05 | 기존 Face Mesh와의 차이 | 레거시 Face Mesh와 현행 Face Landmarker 비교: 출력(52·4×4 신규), 모델 제공, 실행 모드, 옵션, 마이그레이션 점검표. |
| 06 | 성능·요구사항·플랫폼·실행 모드 | 번들 ≈3.58 MiB, 세 실행 모드, CPU/GPU delegate, 벤치마크(두 정확도 지표 분리), 입력 한계 — 돌리려면 무엇이 필요한가. |
| 07 | Walkthrough와 결론 | 한 웹캠 VTuber 시나리오에 전 챕터를 순차로 꿰고, 단일 결론·수치 결정표·실무 체크리스트로 마무리한다. |
부록
- GLOSSARY.md — 생소 용어의 1~3줄 색인과 해당 장 §링크.
빠른 길잡이 (목적별)
광고 · Advertisements
챕터 한눈표
- 00 00. 기초 — 이 책을 읽기 위한 공통 어휘 이 책의 주인공은 MediaPipe Face Landmarker다. 한 문장으로 말하면, 카메라로 찍은 평범한 RGB 사진(또는 영상) 한 장에서 사람 얼굴을 찾아, 그 얼굴 위에 478개의 점을 정확히 찍고, 덤으로 "지금 어떤 표정인지"를 숫자로 알려 주는 소프트웨어 도구다. 이… 읽음
- 01 01. 기술 히스토리·계보 — 왜 이 흐름이 생겼나 오늘날의 Face Landmarker를 처음 만나면 "왜 점이 478개나 되지?", "왜 블렌드셰이프가 따로 있지?", "검색하면 왜 어떤 자료는 468개라 하고 어떤 자료는 478개라 하지?", "왜 Solutions와 Tasks라는 두 이름이 다 나오지?" 같은 의문이 줄줄이 생긴… 읽음
- 02 02. 전체 동작 파이프라인 — RGB 한 장이 478점·52계수·4×4 행렬이 되기까지 01장에서 "Face Landmarker = 세 모델의 합본"이라는 사실을 배웠다. 이제 그 합본이 한 장의 이미지를 어떻게 처리하는지 한눈에 본다. 본문 단계 번호 (a)~(g)가 아래 다이어그램 노드와 1:1 대응한다. 읽음
- 03 03. 478개 랜드마크 — 종류와 "왜 478개인가" 이 책에서 사용자가 가장 궁금해했던 질문이 "왜 점이 478개나 되는가"다. 답의 절반은 그 숫자가 두 출처의 합이라는 사실에 있다. 읽음
- 04 04. 블렌드셰이프와 얼굴 변환 행렬 블렌드셰이프(blendshape)는 얼굴 표정을 478개 좌표가 아니라, "의미 있는 표정 단위" 52개의 가중치 계수(0~1)로 표현하는 방식이다. 각 단위마다 계수 하나를 출력한다. - 0.0 = 그 표정 요소가 전혀 활성화되지 않음(중립) - 1.0 = 그 표정 요소가 최대로 활… 읽음
- 05 05. 기존 Face Mesh와의 차이 — 레거시에서 무엇이 달라졌나 이 장을 한 단락으로 압축하면 이렇다. 읽음
- 06 06. 성능·요구사항·플랫폼·실행 모드 — 돌리려면 무엇이 필요하고 얼마나 빠른가 - 번들 1개로 3개 모델이 묶임. facelandmarker.task 안에 ① 얼굴 검출기(BlazeFace short-range, 입력 192×192) ② 얼굴 메시(478 랜드마크, 입력 256×256) ③ 블렌드셰이프 예측기(52 score, 입력 1×146×2)가 들어간다.… 읽음
- 07 07. Walkthrough와 결론 — 하나의 시나리오로 꿰기 학부생 지우가 노트북 웹캠 한 대로 자기 표정을 따라 하는 고양이 아바타를 실시간으로 움직이는 웹 앱을 만든다고 하자. 마커도, 깊이 센서도, 다중 카메라도 없다. 평범한 RGB 웹캠 영상뿐이다. 지우의 목표는 이렇다. 읽음