꼰대의 코딩스토리

🚀 [개발일지] AI 비디오 자동화의 완성: 파이프 로직과 프리미엄 TTS 탑재

AI반란 2026. 1. 24. 01:38

내 이미지 툴로 만들었는데 까리하게 나와서....ㅋㅋㅋㅋ

안녕하세요, 꼰대아저씨입니다.

오늘은 제가 공들여 만들고 있는 AI 비디오 제작 툴의 대대적인 리팩토링을 마쳤습니다.
1인 기업으로서 콘텐츠 제작의 효율을 극대화하기 위해, '직관성'과 '확장성'에 초점을 맞춘 이번 업데이트 내용을 공유합니다.


1. "파이프(|) 로직" - 작업 지시의 완벽한 표준화

여러 툴을 써봤지만, 대본의 흐름에 따라 이미지를 재사용하거나 교체하는 작업이 늘 번거로웠습니다.
그래서 저는 **'파이프 기호(|)'**를 자막의 스위치로 정의하여 공정을 단순화했습니다.

  • 프롬프트 | 대본: 새로운 장면을 생성하고 목소리를 입힙니다.
  • | 대본: 별도의 설정 없이 이전 장면을 그대로 유지하며 다음 대사로 넘어갑니다. (스토리텔링 영상의 핵심!)
  • 프롬프트 |: 음성 없이 고퀄리티 삽화나 카드뉴스 배경만 필요할 때 활용합니다.

이제 복잡한 타임라인 조절 없이, 텍스트 한 줄로 이미지 생성과 재사용 여부를 칼같이 제어할 수 있습니다.

2. "무료부터 프리미엄까지" - 하이브리드 TTS 엔진

유튜브 영상의 몰입감은 결국 **'목소리'**에서 나옵니다. 사용자의 니즈에 따라 엔진을 선택할 수 있도록 이원화했습니다.

  • Edge-TTS (Free): 빠르고 경제적인 제작이 필요할 때 사용하는 고성능 무료 엔진입니다.
  • ElevenLabs (Premium): 현존 최강의 AI 성우 서비스를 API로 연동했습니다. 숨소리까지 재현하는 압도적인 품질을 체감할 수 있습니다.
  • 개인 API Key 연동: 서비스의 지속성을 위해 사용자가 직접 자신의 API 키를 입력하여 사용할 수 있는 구조를 설계했습니다.

3. "카드뉴스 vs 영상 소스" - 목적별 맞춤형 UI

디자인이 필요한 작업과 소스 추출이 필요한 작업을 완벽히 분리했습니다.

  • 🖼️ 카드뉴스 모드: 이미지 위에 최적화된 폰트와 배경을 합성하며, 동시에 낭독 음성까지 추출합니다.
  • 🎬 영상 소스 모드: 편집기(캡컷 등)에서 바로 사용할 수 있도록 '자막 없는 원본 이미지'와 '음성 파일', 그리고 통합된 SRT 자막 파일을 세트로 제공합니다.

4. 체계적인 계층형 파일 관리

대량의 파일을 다룰 때 가장 중요한 것은 관리의 편의성입니다. 제 프로그램은 파일을 다음과 같은 규칙으로 정렬합니다.

  • image_01.png
  • audio_01-01.mp3, audio_01-02.mp3 ... 이 넘버링만 보면 어떤 이미지가 어떤 대사와 매칭되는지 한눈에 알 수 있어, 최종 편집 시간을 획기적으로 단축해 줍니다.

💡 마치며: 1인 기업가를 위한 최적의 장비를 꿈꾸며

시중에 나와 있는 범용적인 툴들도 훌륭하지만, 실제 제작하면서 느끼는 미세한 불편함들을 해결하고 싶었습니다. 캐릭터의 일관성을 유지하면서도 대본 작업의 속도를 높이는 것, 그것이 제 툴이 추구하는 방향입니다.

마흔 중반, AI라는 새로운 도구를 손에 익히며 매일 조금씩 진화하고 있습니다. 제 도전기이자 개발기인 '꼰대의 바이브 코딩', 다음 단계도 지켜봐 주세요!