LipReading Project

사용한 기술 스택

프로그래머스에서 주관한 K-Digital AI 부트캠프에서 진행한 프로젝트입니다. 독서실과 같은 조용한 공간에서 음성을 사용할 수 없을 경우에 화자의 입술 모양만을 가지고 자막을 생성하여 대화할 수 있도록 구현해보자! 라는 아이디를 바탕으로 시작하게 된 프로젝트입니다.
이를 위해 화자의 입술 모양을 추적하는 모델을 연구하였습니다.
이 프로젝트에서 저는 개발된 모델을 서빙하는 API를 구현하고 2명이 화상 전화를 할 수 있는 웹 페이지를 개발하였습니다.
또한 해당 페이지에서 버튼을 클릭하여 입술 영상을 S3에 업로드하고, API가 업로드된 영상을 분석하여 자막을 생성하는 데이터 파이프라인을 구축했습니다.
HTTPS 적용을 위해 인증서와 Nginx를 사용하여 리버스프록시를 적용했습니다.