Skip to content

Plan de Desarrollo y Progreso

VocalParam es un proyecto ambicioso que busca redefinir la creación de voicebanks. Este documento detalla nuestra hoja de ruta, los hitos alcanzados y lo que está por venir.

Estado Actual: v1.0.0-prototype (Sprint 3 Completado)

Estamos operando bajo la filosofía Zero-Switch, unificando la grabación y parametrización en una sola experiencia técnica de primer nivel.


Hoja de Ruta (Roadmap)

🟢 Sprint 1: Cimientos y Arquitectura Core (Completado)

  • [x] Configuración del entorno de desarrollo (Python/PyQt6).
  • [x] Implementación del Motor de Audio basado en sounddevice.
  • [x] Arquitectura MVC para escalabilidad.
  • [x] Sistema de logging y manejo de errores.

🟢 Sprint 2: Grabación Proactiva y Motor de Audio (Completado)

  • [x] Grabación 7-Moras: Metrónomo visual y auditivo de alta precisión.
  • [x] Gestión de Archivos: Selector de destino integrado en el panel de grabación.
  • [x] Control de Calidad: Botón Play/Listen para verificación inmediata.
  • [x] Sincronización Crítica: Corrección del desfase en Mora 0 (sincronización instantánea).
  • [x] Motor de Audio V2: Gestión segura de hardware (Windows Fix) y headers WAV dinámicos.
  • [x] Visualización DSP: WaveformScope de alta precisión con indicadores de nivel.
  • [x] Sincronización de Tiempo: Barra de progreso sincronizada en tiempo real (time.time()).
  • [x] Grabación Pro-UX: Implementación de Count-in y metrónomo persistente "Glitch-free".

🟢 Sprint 3: Editor Visual y Auto-OTO (Completado)

  • [x] WaveformCanvas: Visualizador interactivo con Espectrograma STFT y RMS.
  • [x] Sistema de Marcadores: Controladores visuales sincronizados para los 5 parámetros OTO.
  • [x] Sincronización Bidireccional: Tabla de parámetros <-> Editor Visual en tiempo real.
  • [x] Algoritmo Auto-OTO: Detección inteligente de transientes para posicionamiento inicial de Offset.
  • [x] Validación de Reglas: Implementación de la "Regla de Oro" (Overlap <= Pre-utterance).

⚪ Sprint 4: Inteligencia y Automatización (Siguiente)

  • [ ] Refinamiento del algoritmo de detección fonética (específico por fonema).
  • [ ] Soporte para diferentes idiomas y estilos de grabación.
  • [ ] Herramientas de diagnóstico de calidad vocal.

⚪ Sprint 5: Exportación y Compatibilidad

  • [ ] Exportación completa garantizada para UTAU y OpenUtau.
  • [ ] Empaquetado de Voicebanks (.zip).
  • [ ] Importador de proyectos legacy de OREMO/SetParam.

⚪ Sprint 6: Pulido y Lanzamiento v1.0 Stable

  • [ ] Optimización de rendimiento.
  • [ ] Temas visuales personalizados.
  • [ ] Documentación extensiva y tutoriales en video.

Logros Recientes

  • Febrero 2026: Finalización del Sprint 3 (Editor Visual y DSP Avanzado).
  • Febrero 2026: Implementación del flujo de grabación con Count-in y metrónomo de baja latencia.
  • Enero 2026: Implementación del flujo unificado de grabación.
  • Enero 2026: Resolución de problemas críticos de hardware de audio en Windows.
  • Enero 2026: Lanzamiento de la documentación técnica centralizada.

[!NOTE] Nuestro progreso se guía por el feedback de la comunidad y la búsqueda de la perfección técnica en cada mora grabada.