Presentación para aliados estratégicos

Construimos el ElevenLabs de LATAM
con un equipo de agentes IA

5 empresas de inteligencia artificial. 4 países. Construido desde cero con un método propio: un equipo de 17 agentes IA operando como una empresa real.

Camilo Marín — CEO & Founder UniversoMarin

Cómo lo construí

17 agentes IA. Cada uno con un rol real.

No contraté un equipo humano. Construí un equipo de agentes IA con Claude Code, cada uno con un rol específico, operando 24/7 en una plataforma propia: HoldingChat.

Claw
Co-CEO Operativo
Tyler
SDR — Ventas
Gaston
CTO BigVoz
Vivi
Developer
Wanda
UX/UI Designer
Lena
CMO Marketing
Victor
CFO/COO
Dona
Secretaria Ejecutiva
Creator
Dir. Contenido
Pixel
Dir. Creativo
Ingresos
CFO Revenue
Egresos
CFO Expenses
Oráculo
Consejero Futurista
BigVoz Dir.
Dir. Comercial
Claw Daemon
WhatsApp Agent
CV Agent
Mantenedor Web
SuperBotón
IoT Automation

Cada agente tiene contexto, memoria, herramientas y un board de tareas. Operan en sprints semanales. HoldingChat es el producto — y el método.

El problema

LATAM depende de proveedores de IA extranjeros y caros

Toda empresa que quiere usar IA de voz hoy paga en dólares a proveedores de USA/Europa. No existe una alternativa local.

ProveedorServicioUbicaciónLimitación
ElevenLabsTTS (texto a voz)USA / EuropaCaro, español no nativo
Palabra.aiTTS españolUSASolo TTS, no STS ni NLP
TwilioTelefonía + vozUSAComplejo, no pensado para LATAM
Google Cloud TTSTTSGlobalVoces robóticas en español
Amazon PollyTTSGlobalCalidad baja en español
InfinitoVoxTTS + STS + NLPLATAM (propio)Español nativo, todo-en-uno, competitivo
La solución

InfinitoVox
Proveedor de IA de voz para LATAM

Servidor GPU propio. Modelos TTS, STS y NLP entrenados para español nativo con acentos regionales. Cobramos por minuto. Reemplazamos a ElevenLabs, Twilio y Palabra.ai con una sola plataforma.

🗣

TTS — Texto a Voz

Voces naturales en español, portugués, inglés. Clonación de voz. Acentos colombiano, mexicano, argentino.

🔄

STS — Voz a Voz

Traducción e interpretación en tiempo real. Intérpretes IA para eventos, reuniónes y call centers.

🧠

NLP — Lenguaje Natural

Comprensión de contexto e intención. Agentes que conversan, venden y resuelven problemas.

Cómo funciona

El flujo de InfinitoVox en acción

Caso 1: Evento corporativo con múltiples idiomas

🎤
Speaker habla
Español
🔄
STT
Voz → Texto
🧠
NLP
Traduce + contexto
🗣
TTS
Texto → Voz natural
🎧
Audiencia escucha
Inglés, portugués, francés...

Todo en tiempo real. Latencia mínima. Cada asistente elige su idioma. Sin intérpretes humanos en cabina.

Caso 2: Agente de voz IA atendiendo clientes

📞
Cliente llama
Teléfono o WhatsApp
🔄
STT
Escucha y transcribe
🧠
NLP
Entiende intención, decide acción
🗣
TTS
Responde con voz natural
Acción ejecutada
Agenda, vende, resuelve

El agente escucha, entiende, responde y ejecuta. 24/7. En cualquier idioma. Sin intervención humana.

Caso 3: STS directo — Voz a voz sin texto intermedio

🎤
Persona habla en español
🔄
STS — Speech to Speech
Modelo end-to-end, sin pasos intermedios
🎧
Sale en inglés con voz natural

La latencia más baja posible. El modelo convierte voz a voz directamente, preservando tono, emoción y velocidad del hablante original.

Arquitectura técnica

Ya tenemos el servidor configurado

NVIDIA Riva + modelos open source. Docker containerizado. 5 microservicios independientes listos para escalar.

Microservicios del servidor

ServicioTecnologíaFunción
ASRWhisper / ParakeetVoz → Texto (99 idiomas)
NMTNemotron / NLLB-200Traducción (200+ idiomas)
TTSCartesia Sonic / PiperTexto → Voz (40 idiomas)
CloneXTTS-v2Clonación de voz (16 idiomas)
RouterModel RouterSelección dinámica del mejor modelo

Tiers de calidad (automático)

Tier 1 — Premium
Nemotron + Llama 3.3 + Cartesia
< 200ms
Tier 2 — Alta calidad
Whisper + MADLAD-400 + Piper
< 350ms
Tier 3 — Extendido
Whisper + NLLB-200 + Edge-TTS
< 500ms
Tier 4 — Clonación
MMS-1B + NLLB + XTTS-v2
< 700ms
Cobertura global

99 idiomas de entrada. 40 voces. 16 con clonación.

🎤

INPUT — ASR

99

Idiomas reconocidos. Whisper GPU. Incluye todos los acentos regionales del español (ES, MX, AR, CO, CL, PE, VE, EC, BO).

🗣

OUTPUT — TTS

40

Idiomas con voz natural. Edge-TTS + Cartesia Sonic + Piper. Latencia desde 200ms.

👥

CLONE — XTTS-v2

16

Idiomas con clonación de voz. El speaker habla en español, la audiencia escucha su misma voz en inglés.

Variantes regionales del español

ES — España MX — México AR — Argentina CO — Colombia CL — Chile PE — Perú VE — Venezuela EC — Ecuador BO — Bolivia

Combinaciones posibles: 99 idiomas de entrada × 50+ de salida = 4,950+ pares de traducción simultánea

Mercado de intérpretes

La IA reemplaza intérpretes humanos a 1/10 del costo

El STS (Speech-to-Speech) de InfinitoVox permite interpretación simultánea en tiempo real. Eventos, conferencias, reuniónes de negocios — sin humanos.

SegmentoCosto humanoCosto InfinitoVoxAhorro
Eventos y conferencias$50-150 USD/hora$3-5 USD/hora95%
Reuniones de negocios$30-80 USD/hora$3-5 USD/hora90%
Call centers bilingües$8-15 USD/hora (agente)$0.05 USD/min (IA)80%
Turismo y guias$20-50 USD/hora$3-5 USD/hora85%

El mercado global de interpretación vale $10B USD. LATAM es el mercado con mas crecimiento en eventos bilingües.

Estrategia

2 capas. 1 motor.

Capa 1 — Hoy

Genera cash flow

Vendemos servicios usando proveedores externos. El margen financia la Capa 2.

BigVoz → vende agentes IA → paga a proveedores externos por minuto
UpMVP → vende software → cash directo
Parlando.me → app idiomas → paga proveedores de voz
Capa 2 — Destino

Somos nuestro propio proveedor

InfinitoVox reemplaza a todos los proveedores externos. El costo baja, el margen sube, y vendemos minutos a terceros.

BigVoz → usa InfinitoVox → margen máximo, cero dependencia
Parlando.me → usa InfinitoVox → costo casi cero
InfinitoVox → vende minutos a terceros + intérpretes IA
Empresas

El ecosistema completo

Operando

BigVoz.ai

Agentes de voz e IA + gestión de ads. Clientes en Colombia, USA, Australia. Paquetes modulares para negocios de cualquier tamaño.

Operando

UpMVP

Software a medida con IA. MVPs en 2-4 semanas. Proyectos activos en múltiples industrias.

Construyendo

HoldingChat

Plataforma de equipos de agentes IA. 17 agentes, kanban, archivos, aprobaciones. El método que construyó el holding.

Pre-lanzamiento

Parlando.me

App de práctica de idiomas con IA conversaciónal. Tutores de voz adaptativos. Primer cliente interno de InfinitoVox.

El destino

InfinitoVox

Servidor GPU propio. Modelos TTS/STS/NLP. Proveedor de IA de voz para LATAM. Cobro por minuto a terceros. Intérpretes IA para eventos. El ElevenLabs latino.

La evidencia

Ya usamos proveedores de IA de voz.
Sabemos cómo funciona el negocio.

Operamos productos reales que consumen IA de voz todos los días. Conocemos los costos, las limitaciones y las oportunidades de cada proveedor porque somos sus clientes.

BigVoz.ai

Agentes de voz activos

Clientes en Colombia, USA y Australia usando agentes de voz por teléfono y WhatsApp 24/7. Cada minuto de conversación pasa por ElevenLabs y Twilio. Vemos el consumo real.

Parlando.me

IA conversacional para idiomas

Tutores de voz que practican con estudiantes en tiempo real. Cada sesión consume minutos de TTS y NLP. El costo por usuario depende 100% del proveedor externo.

HoldingChat

17 agentes IA operando

Un equipo completo de agentes autónomos que construyó este holding. La plataforma que demuestra que los equipos IA funcionan en producción real.

UpMVP

Software a medida con IA

Construimos productos para terceros integrando IA. Cada proyecto nos da más contexto sobre lo que las empresas necesitan y cuánto están dispuestas a pagar.

No estamos teorizando. Somos consumidores reales de estos servicios. Y sabemos exactamente dónde está la oportunidad.

La gran oportunidad

Adueñarnos del mercado de intérpretes para eventos corporativos

Cada conferencia, congreso, evento corporativo y reunión internacional necesita intérpretes. Hoy se pagan humanos. Mañana se usa IA — y queremos ser ese proveedor.

Intérprete humano

Costoso y limitado

Disponibilidad limitada por idioma y ubicación
Se cansa, necesita descansos y relevos
Un intérprete por par de idiomas
Requiere contratación anticipada
Errores humanos en terminología técnica
Intérprete InfinitoVox

Escalable e instantáneo

Disponible en cualquier idioma, en cualquier momento
No se cansa, opera 24/7 sin descanso
Múltiples idiomas simultáneos
Activación inmediata, sin logística
Consistencia técnica y terminología exacta

El mercado global de interpretación vale más de $10B USD. Las empresas de eventos son el canal perfecto — ya tienen los clientes, la infraestructura y la necesidad. Solo les falta la tecnología.

Roadmap

El plan de crecimiento

Fase 1 — Ahora

Tracción con productos

Crecer la base de clientes de BigVoz y UpMVP. Crear contenido semanal. Perfeccionar productos. Generar flujo de caja estable con proveedores externos.

Fase 2 — Infraestructura

Servidor GPU + modelos

Montar servidor GPU propio. Entrenar primeros modelos TTS en español. Contratar equipo humano. Empezar a reemplazar proveedores externos.

Fase 3 — Mercado

Proveedor de IA de voz

InfinitoVox en producción. API para terceros. Intérpretes IA para eventos corporativos. Ser el proveedor de referencia en LATAM.

La propuesta

Qué buscamos de un aliado estratégico

💰

Capital

Inversión para servidor GPU ($15K-30K USD), equipo humano, y aceleración de ventas. Retorno directo en MRR mensual.

🤝

Red de contactos

Empresarios que necesitan automatizar. Empresas de eventos que usan intérpretes. Cada contacto = cliente potencial.

🏗

Infraestructura

Hardware, espacio, o infraestructura existente que acelere el deployment del servidor GPU y los modelos de IA.

Siguiente paso

30 minutos. Demo en vivo.
Sin slides. Producto real.

Te muestro BigVoz funcionando, HoldingChat con los 17 agentes operando, y el plan completo de InfinitoVox. Todo en vivo.

Agendar reunión por WhatsApp

Camilo Marín — CEO & Founder
camilo@universomarin.com
Bogota, Colombia