Juun

About Me

5년 차 AI 엔지니어로서 영상 스타일 변환, 얼굴 생성, LLM 등 다양한 AI 모델의 학습부터 서비스까지 경험해 왔습니다. AI 서비스는 GPU 비용, 추론 지연, 메모리 제약 등 일반 서비스와 다른 제약이 따릅니다. GPU는 한정된 자원이기에 트래픽에 맞는 탄력적 운영이 필요하고, 모델마다 요구하는 자원과 처리 방식이 달라 서비스 형태에 맞는 구조 설계가 중요합니다. 이러한 문제들을 비동기 추론 파이프라인, 하이브리드 GPU 인프라, 프레임 단위 스트리밍 처리 등으로 해결해 왔습니다.

AI 기술은 빠르게 변화하기에, 더 나은 설계 판단을 내리기 위해 새로운 기술과 흐름을 지속적으로 관찰하고 직접 사용해보며 그 효용을 확인합니다. 이는 도입 자체를 목적으로 두기보다, 서비스가 가진 문제를 스스로 정의하고 그에 맞는 기술을 선택하기 위한 기반을 쌓는 일이라 믿습니다.

이 과정에서 얻은 인사이트를 개인의 경험으로 남기기보단, 직접 사용해본 내용을 팀과 공유하며 장단점과 선택의 이유를 함께 논의하는 것을 중요하게 생각합니다. 개인의 판단에 머무르지 않고 팀 전체가 더 나은 기술 선택을 할 수 있는 환경을 만들고자 합니다.

Experience

dobstudio

2021.11 ~ 현재

사내 인프라 구축 및 생성형 AI API 서비스

2026.01 ~ 현재

운영 효율화와 비용 절감을 위해 인프라 구조를 재설계하고, 사내 업무 자동화를 추진.

사내 AI 업무 자동화 챗봇

사내 반복 업무를 자동화하기 위한 LLM 에이전트 기반 챗봇 서비스.

1명 (본인)

문제

사내 반복 업무(문서 작성, 장부 정리, 정부지원 과제 기술 설명 등)의 효율화 필요. 사내 기술 문서는 존재하나, 인력 변동 시 문서만으로는 맥락 파악이 어려워 타 팀에 반복적으로 설명을 요청해야 하는 비효율 발생.

해결

1.LLM 에이전트 서버 구축

-LangGraph 기반 에이전트 흐름 구현. 도구 선택 2단계 분리, 장기 대화 시 컨텍스트 압축 등 적용
-사용자가 자연어로 요청하면 LLM이 코드를 생성하고, subprocess 격리 환경에서 테스트 후 도구로 등록하는 구조 구현. 의존성 충돌 방지를 위해 도구별 독립된 uv 프로젝트로 관리

2.팀별 접근 제어 및 보안

-문서와 도구에 대해 역할 기반 접근 제어를 적용하여 팀별 접근 범위 분리
-사내 문서의 외부 유출 방지를 위해 vLLM 기반 로컬 추론 서버 구축. Qwen3, Llama, GPT-OSS 등 오픈소스 모델 비교 운영

3.RAG 기반 사내 문서 검색

-ChromaDB 기반 벡터 인덱싱과 유사도 검색 구조 구현. 사내 문서가 대부분 한국어로 작성되어 있어 한국어를 지원하는 다국어 임베딩 모델 선정
-문서 유형별로 청킹 전략을 분리하여 검색 정확도 향상

성과

•법인카드 장부 매칭 반복 업무 자동화 도구 구현 및 실 적용
•LLM 에이전트 기반 챗봇 서비스 구축 중 (2026.03~)

하이브리드 AI 추론 인프라 구축

생성형 AI 추론 기능을 온프레미스와 AWS 하이브리드 구조로 API 서비스화하고, 온프레미스 GPU 서버를 K8s 클러스터로 구축하는 프로젝트.

1명 (본인)

문제

GPU 추론 서비스의 비용 효율을 높이기 위해 사내 GPU 자원 활용 필요. 이전 인력 변동 과정에서 기존 인프라의 히스토리 파악이 어렵고 운영 지식 유실 문제 발생.

해결

1.온프레미스 + AWS 하이브리드 추론 서비스 구축

-기존 서비스들의 추론 기능을 표준화된 API로 통합, SQS 기반 비동기 파이프라인 구조 적용
-온프레미스 GPU 서버를 기본 추론 자원으로 활용하고, 트래픽 초과 시 AWS GPU 인스턴스로 확장되는 하이브리드 구조 설계

2.온프레미스 Kubernetes 클러스터 구축

-초기 Docker Compose 검토했으나, 사내 GPU 서버가 여러 종류로 구성되어 GPU를 매번 수동 지정해야 하는 비효율 발생. K8s 도입하여 GPU 자동 분배 활용
-Pod 내 복수 컨테이너(워커)가 동일 GPU를 공유해야 했으나, K8s 기본 구조에서는 컨테이너 간 GPU 공유 미지원. 사이드카 패턴으로 Pod에 할당된 GPU 정보를 기록하고 나머지 컨테이너에 전달하는 방식으로 해결

3.IaC(Infrastructure as Code) 도입

-인력 변동으로 인한 인프라 운영 지식 유실에 대비하여, Pulumi 기반으로 인프라 구성을 코드로 관리
-변경 히스토리가 코드에 남아 신규 인력도 기존 인프라 구조를 빠르게 파악 가능

성과

•온프레미스 우선 처리 + AWS 자동 확장의 하이브리드 추론 서비스 구축
•온프레미스 자원 내에서는 클라우드 비용 없이 운영 가능, 트래픽 초과 시에만 AWS로 탄력적 확장
•Pulumi 기반 IaC로 AWS 인프라를, K8s 매니페스트로 온프레미스 환경을 각각 코드 수준에서 관리

미디어 컨버터 — 영상 처리 파이프라인

스타일 변환, 세그멘테이션(SAM3, YOLO) 등 여러 AI 기술을 영상에 조합하여 적용할 수 있는 범용 영상 처리 파이프라인.

3명 (프론트엔드 1명, 백엔드 1명, 추론 1명) / 담당: 추론 서버

문제

영상 프레임에 스타일 변환, 세그멘테이션 등 복수의 AI 처리를 조합 적용 필요. 프레임 순서 보장, 작업 간 의존성 관리, 신규 작업 추가에 대한 확장성 요구. SAM3 기본 구현이 전체 프레임을 일괄 GPU에 적재하는 구조로 대용량 영상 처리 시 GPU 메모리 부족 문제 발생.

해결

1.Circular Buffer 기반 DAG 파이프라인 설계

-Circular Buffer에 프레임 단위 멀티 스테이지 포인터를 두어, 각 프레임의 처리 단계별 완료 상태를 추적하고 의존성 그래프에 따라 후속 작업을 스케줄링하는 구조 설계
-배치 크기 조절로 실시간 처리와 배치 처리를 동일 파이프라인에서 지원
-설정 파라미터에 따라 처리 작업을 선택적으로 조합할 수 있는 확장 가능한 구조 설계

2.SAM3 GPU 메모리 최적화

-논문과 소스 코드 분석 후 프레임을 CPU에 유지하고 추론 시에만 GPU로 전송하는 lazy loading 방식으로 변경. 미사용 기능이 점유하던 메모리 해제로 사용량 추가 절감
-라이브러리 버전 업데이트 영향을 최소화하기 위해 외부에서 주입하는 방식으로 수정 사항 분리

성과

•SAM3 메모리 최적화로 RTX 4090 기준 FHD 60fps 영상 처리 한계 13초 → 4분 이상으로 개선 (VRAM 증가 거의 없음)
•설정 파라미터만으로 AI 처리 작업을 조합/해제할 수 있는 범용 영상 처리 파이프라인 구축

실시간 추론 시스템 및 B2B/B2C 서비스

2024.06 ~ 2025.12

Live Styler — 실시간 AI 영상 스타일 변환 B2C 서비스

사내 스타일 변환 기술을 실시간 영상에 적용하여 B2C로 제공하는 서비스.

5명 (프론트엔드 2명, 백엔드 2명, 추론 1명) / 담당: 실시간 추론 서버 설계 및 구현

문제

AI 스타일 변환을 영상에 실시간 적용하려면 낮은 레이턴시와 안정적인 GPU 자원 할당이 동시에 필요. 기존 HTTP 요청-응답 방식으로는 실시간 스트리밍 불가. 실시간 추론 자체의 기술적 가능 여부부터 검증 필요.

해결

1.실시간 스트리밍 기술 리서치 및 선정

-WebSocket 스트리밍, 클라이언트→서버 gRPC 직접 호출, WebRTC 세 가지 방식을 직접 테스트
-WebRTC 최종 선택 — 네트워크 상태에 따른 프레임 수 자동 조절(adaptive bitrate)이 실시간 서비스에 핵심적
-초기 Python WebRTC(aiortc)로 구현했으나, WebRTC 프로토콜 스택을 Python으로 재구현한 라이브러리여서 RTP 패킷 처리 등 미디어 파이프라인에서 병목 발생
-Node.js WebRTC(node-webrtc)로 전환 — Google libwebrtc(C++) 네이티브 래핑 구조라 미디어 파이프라인 성능 우수. 단, 래핑 구조 특성상 세부 옵션 제어가 제한적이어서 초기 접속 시 저화질 시작, 자동 화질 저하 등의 제어에 추가 튜닝 필요

2.유저별 GPU 인스턴스 동적 오케스트레이션

-실시간 추론에 L40S GPU 인스턴스 1대 필요. 유저 1명 = 인스턴스 1대 구조로 설계
-정부지원사업 예산 활용과 한국 리전의 L40S 가용성 부족에 대비하여 AWS/GCP 동시 운영하는 멀티클라우드 구조 설계. 각 클라우드의 인스턴스 관리 API를 추상화하여 옵션에 따라 특정 클라우드의 인스턴스를 요청/해제하는 오케스트레이션 레이어 직접 구현
-DB 기반 세션 관리로 유저 이탈 후 일정 시간 내 재접속하지 않으면 인스턴스 자동 해제
-GPU 인스턴스 내부는 Node.js + 추론 모델로 구성

3.오픈소스 버그 수정 (node-webrtc PR #38)

-개발 과정에서 홀수 해상도(예: 678x381) 영상 프레임 처리 시 I420 YUV 버퍼의 바이트 길이 계산 오류로 메모리 문제 발생
-node-webrtc 라이브러리의 C++ 코드까지 추적하여 스트라이드 계산 로직의 홀수 처리 버그 발견. 수정 후 PR 제출 → 머지 및 v0.9.1 릴리스에 반영

성과

•1920x1080 기준 프레임당 전체 처리 시간 약 50ms (이미지 로드/변환/추론/반환 포함), 유저에게 15~20fps 실시간 스타일 변환 영상 제공
•인스턴스 수 확장 시 동시 사용자 수 선형 확장 가능한 아키텍처 확보
•오픈소스 기여를 통해 node-webrtc 생태계의 홀수 해상도 지원 문제 해결

DNA 대중소 "만나다" — AI 위인 대화형 교육 콘텐츠 임베딩/검색 설계

AI 위인 캐릭터와 실시간 음성 대화하는 체험형 교육 콘텐츠.

3명 (개발자 4명) / 담당: 임베딩 서버 및 벡터 검색 구조 설계

문제

다국어(한/영/베트남/태국어) 환경에서 아이들의 음성 질문에 적합한 위인 캐릭터 응답을 매칭해야 했으나, 키워드 기반 검색으로는 자연어 질문의 의미를 정확히 매칭하기 어려운 상황.

해결

임베딩 서버 및 벡터 검색 구조 설계

-Ollama 기반 임베딩 서버(nomic-embed-text) 구축. sentence-transformers 로컬 백엔드도 병행 지원하도록 설계
-PostgreSQL + pgvector 기반 벡터 유사도 검색 구조 설계. 질문 텍스트를 임베딩 후 유사도 기반으로 응답을 매칭하는 파이프라인 구현

성과

•다국어 환경에서 의미 기반 질문-응답 매칭 파이프라인 구축
•Bett Asia 2025 전시회 출품

devutai — AI 스타일 변환 모바일 앱 추론 서버

Multi-Stylizer의 img2img/video2video 스타일 변환 기술을 iOS/Android 앱으로 제공하는 서비스.

5명 (앱 2명, 백엔드 2명, 추론 1명) / 담당: 추론 서버 전체 설계 및 구현

문제

GPU는 한정된 자원이므로 다수의 유저 요청을 순서대로 처리하면서도 트래픽 변동에 따라 GPU 인스턴스를 탄력적으로 운영 필요. 스케일 인 시 진행 중인 추론 작업이 중단되는 문제 발생. 영상 추론의 경우 전체 영상을 메모리에 적재하면 GPU 메모리 초과 위험. 또한 스케일 아웃 시 GPU 종류가 다를 수 있어 모델 파일이 맞지 않는 문제 발생.

해결

1.SQS FIFO 기반 비동기 추론 아키텍처 설계

-유저 요청을 SQS FIFO 큐에 순서대로 적재하고, 워커가 폴링하여 추론을 수행하는 구조 구현
-Redis Queue, Celery 등 대비 관리 포인트가 최소화되고, GPU 추론은 작업 단가가 높아 메시지 유실이 사용자 경험에 직결되므로 AWS 관리형인 SQS FIFO 선택

2.영상 프레임 단위 스트리밍 추론

-영상 전체를 메모리에 올리지 않고, ffmpeg 디코더 → 추론 → ffmpeg 인코더를 파이프로 연결하여 프레임 단위로 스트리밍 처리. 영상 길이에 관계없이 일정한 메모리 사용

3.Auto Scaling + 워커 안전 종료

-CloudWatch의 SQS 메시지 수 메트릭 기준으로 GPU 인스턴스 자동 확장/축소. 스케일 아웃 시 인스턴스의 GPU 종류를 감지하여 맞는 모델 파일을 자동 매핑
-스케일 인 시 워커의 작업 안전 종료를 보장하기 위해 AWS 라이프사이클 훅과 Docker의 SIGTERM 시그널 활용. SIGTERM 수신 시 워커는 신규 폴링을 중단하고, 진행 중인 작업을 모두 완료한 뒤 종료

성과

•GPU 자원의 효율적 활용과 유저 작업의 무손실 보장을 동시에 달성
•본 제품(devutai)으로 CES 2026 혁신상 수상 (콘텐츠 & 엔터테인먼트 부문)

Multi-Stylizer — AI 스타일 변환 모델 학습/추론 파이프라인 도구

이미지/비디오 스타일 변환을 위한 생성 모델의 데이터 생성, 학습, 추론을 비개발자도 수행할 수 있도록 자동화한 파이프라인 도구.

2명 / 담당: 프론트엔드(Next.js)부터 추론 서버(FastAPI)까지 설계 및 구현

문제

스타일 변환 모델의 학습과 추론을 위해 개발자가 직접 스크립트를 실행해야 하는 구조. 스타일 기획은 기획팀, 데이터셋 제작은 TA팀이 담당하나 매번 개발자를 거쳐야 하는 병목 존재.

해결

1.비개발자용 UI 구축

-추론 테스트용 웹 UI는 Next.js로 직접 구축
-학습/데이터 생성은 처음부터 구현하는 것이 비효율적이라 판단. AUTOMATIC1111(Stable Diffusion WebUI)에 커스텀 Extension을 개발하여 사내 학습/데이터 생성 파이프라인과 연동

2.SQS 기반 작업 중앙화 및 분산 처리

-온프레미스(RTX 3090/4090/5090)와 AWS(T4, L40S, A100, H100 등) GPU가 혼재된 환경에서, SQS를 통해 학습/추론 작업을 중앙에서 일괄 분배하는 구조 설계
-복수의 온프레미스 GPU 서버에서 동시에 큐를 폴링하더라도 작업이 중복 처리되지 않도록 SQS 기반 동시성 제어 적용
-워커가 작업 내용에 따라 데이터 생성, 학습, 추론을 분기 처리하는 구조 설계

성과

•기획팀/TA팀이 개발자 없이 스타일 변환 모델의 데이터 생성 → 학습 → 추론 전체 사이클을 독립 수행 가능
•학습/추론 과정에서 개발자 참여 비율 약 80% 감소, 개발 리소스 확보에 기여

AI 오프라인 제품 및 커뮤니티 플랫폼

2024.01 ~ 2024.12

T1 키오스크 — Face Generation 오프라인 키오스크 제품

T1(e스포츠 구단)과 협업하여 팬들이 현장에서 T1 선수의 프로필 사진으로 변환된 이미지를 받아볼 수 있는 키오스크 제품.

2명 (백엔드 1명, 키오스크/프론트 1명) / 담당: 키오스크 프로그램 및 이미지 수령 웹페이지

문제

원격지에 설치되는 키오스크 특성상 현장 인력이 기본적인 관리를 수행할 수 있어야 하고, 개발팀의 현장 방문 횟수 최소화 필요. 결제, 프린터, 카메라, AI 추론이 하나의 프로그램에서 안정적으로 동작해야 하는 요구사항.

해결

1.Flutter 기반 키오스크 프로그램 개발

-결제 모듈과 프린터를 연동하여 결제 → 촬영 → 생성 → 출력 전체 플로우 자동화
-Face Generation 모델을 로컬 GPU에서 추론하여 네트워크 의존도 최소화
-PC방 환경 특성상 배경에 다수의 사람이 존재하여, Face Detection 후 화면 중앙에 가장 크게 위치한 인물 기준으로 변환. 미감지 시 다중 촬영 폴백 처리로 안정적으로 얼굴 확보
-QR코드를 통해 사용자가 모바일에서도 생성된 이미지를 수령할 수 있는 웹페이지 구현

2.원격 관리 환경 구축

-현장 방문 최소화를 위해 API를 통한 원격 업데이트 환경 구축
-현장 인력이 문제를 직접 파악할 수 있도록 내부 상태 모니터링 API 구현 (프린터 잉크 잔량, 카드 결제 잔고, 카메라 상태 등)

성과

•1대 납품, 계약 기간 1개월에서 반응이 좋아 3개월로 연장
•납품 기간 동안 프린터 하드웨어 자체 장애 2건을 제외한 모든 소프트웨어 업데이트 및 상태 관리를 원격 처리

Genpickai — 생성 AI 크리에이터 커뮤니티 플랫폼

생성 AI 이미지 크리에이터를 위한 포트폴리오/커뮤니티 웹서비스.

8명 (백엔드 2명, 프론트 2명, 추론 2명, 인프라 2명) / 담당: 추론 API 커스터마이징 및 LoRA 학습 기능 구현

문제

유저가 생성 AI 이미지를 직접 생성하고 공유할 수 있는 플랫폼 필요. 기존 AUTOMATIC1111 기반 추론 구조를 사내 요구사항에 맞게 커스터마이징 필요.

해결

추론 API 커스터마이징 및 LoRA 학습

-AUTOMATIC1111(Stable Diffusion WebUI) 프레임워크를 분석하여 사내 요구사항에 맞게 추론 API 커스터마이징
-당시 AUTOMATIC1111의 버전이 빈번하게 변경되어, 버전 업데이트 영향을 최소화하도록 Extension 방식으로 커스터마이징 분리
-LoRA 학습 기능도 동일한 방식으로 구현하여 유저가 직접 커스텀 모델 학습 가능
-Docker로 래핑하여 인프라팀에 전달하는 형태로 배포

성과

•유저가 직접 커스텀 모델을 학습하고 추론할 수 있는 크리에이터 플랫폼 추론 환경 구축

Face Transformation 학습/추론 파이프라인

2021.11 ~ 2023.12

방송사 대상 B2B 얼굴 변환 콘텐츠를 제작하면서, 모델 학습/추론/데이터 전처리를 자동화하기 위한 사내 파이프라인 프로젝트.

Heartbeat2 — Face Transformation 파이프라인 고도화

Heartbeat1의 데이터 전처리 자동화 및 GPU 자원 관리를 고도화한 프로젝트.

6명 (백엔드 2명, 추론 2명, 프론트 2명) / 담당: 추론 서버

문제

Heartbeat1에서는 데이터 전처리를 여전히 로컬에서 직접 수행해야 했고 완전 자동화가 아닌 상태. GPU도 사용자가 직접 UI에서 확인하고 수동으로 선택하여 작업해야 하는 구조.

해결

1.데이터 전처리 완전 자동화

-NAS와 연동하여 웹 UI에서 직접 데이터 전처리 가능하도록 구현. 로컬 다운로드 없이 전체 프로세스를 웹에서 완결

2.Triton Inference Server 도입을 통한 GPU 자동 할당

-기존에는 사용자가 GPU 사용량을 UI에서 직접 확인하고 수동으로 선택해야 하는 구조
-Triton 도입하여 GPU 자동 선택 및 작업 할당으로 개선

3.ArcFace 기반 얼굴 자동 분류

-특정 인물에게 특정 모델을 적용해야 하는 요구사항이 있었으나, 수작업으로 얼굴을 하나하나 분류해야 하는 상황
-ArcFace 기반 임베딩 벡터를 축적하고 신규 인물 여부를 자동 분류하여 데이터를 사전 선별하는 파이프라인 구축. 약 80% 정확도로 수작업 부담 감소

성과

•Heartbeat1 대비 데이터 전처리~학습~추론 전 과정의 자동화 수준 향상 및 GPU 자원 관리 자동화

Heartbeat1 — Face Transformation 학습/추론 백엔드

방송사 대상 B2B 얼굴 변환 콘텐츠 제작을 위한 모델 학습/추론 관리 백엔드.

6명 (백엔드 2명, 추론 2명, 프론트 2명) / 담당: 백엔드

문제

모델 학습과 추론을 개발자가 직접 SSH로 서버에 접속하여 수동 실행해야 하는 구조. 보안이 중요한 프로젝트와 일반 프로젝트가 섞여 있어 접근 제어 필요.

해결

1.Django 기반 학습/추론 관리 백엔드 구축

-학습, 전처리, 데이터 생성 등 각 작업을 웹 UI에서 제출하고 상태(대기/진행/완료/실패) 확인 가능하도록 구현
-SSH 접속 없이 웹에서 전체 워크플로우 관리 가능

2.프로젝트별 접근 제어

-JWT 인증 기반 사용자별 접근 관리 구현
-보안이 중요한 프로젝트는 권한이 있는 사용자만 접근 가능하도록 분리

성과

•개발자/연구원이 서버에 직접 접속하지 않고도 학습/추론 작업을 관리할 수 있는 환경 구축

모델 개선

Face Transformation 모델의 품질을 정량적으로 평가하고 개선하는 작업.

6명 (백엔드 2명, 추론 2명, 프론트 2명)

문제

모델 품질을 객관적으로 평가할 기준이 없어 모델 업데이트의 효과를 정량적으로 비교하기 어려운 상황.

해결

다축 메트릭 평가 파이프라인 구축

-FID, ID similarity, Pose accuracy, Expression accuracy 등 다축 메트릭 평가 파이프라인 구축
-학습 데이터의 구성 비율(연령, 성별, 인종 등)을 실험하여 모델 성능에 미치는 영향 분석

성과

•모델 업데이트마다 객관적 비교가 가능해져 의사결정 속도 향상
•실제 납품된 Face Transformation 모델 다수 제작 (울랄라세션 故 임윤택 복원, 故 유재하 복원, 공군 故 박인철 소령 복원, 윤여정 배우 KB 광고, 버추얼 휴먼 루이, 故 스티브 잡스 복원 등)

Skills

Backend / API

Python (FastAPI, Django)Node.js (TypeScript)RustREST APIWebSocketgRPCWebRTCMariaDBPostgreSQL

Cloud / Infrastructure

AWS (EC2, S3, SQS, CloudWatch, Lambda, IAM, VPC, Auto Scaling)GCP (Compute Engine, Cloud Storage, Cloud Logging, IAM, VPC)DockerKubernetesPulumiTriton Inference Server

Frontend

ReactNext.jsFlutterStorybook

AI / ML

PyTorchCUDAOpenCV, FFmpegvLLMOllamaRAGGraphRAGLangChainLangGraphGenerative AI (image / video)Face Transformation / Face Generation models

Tools

VS CodeCursorMCPGitGitHubJiraSlackNotionClaude CodeCodex

Open Source Contribution

node-webrtc

PR #38

node-webrtc 라이브러리에서 I420 영상 프레임 처리 오류 수정에 기여

Node.jsWebRTCC++