Presentación para aliados estratégicos

Construimos el ElevenLabs de LATAM
con un equipo de agentes IA

5 empresas de inteligencia artificial. 4 países. Construido desde cero con un método propio: un equipo de 17 agentes IA operando como una empresa real.

Camilo Marín — CEO & Founder UniversoMarin

Cómo lo construí

17 agentes IA. Cada uno con un rol real.

No contraté un equipo humano. Construí un equipo de agentes IA con Claude Code, cada uno con un rol específico, operando 24/7 en una plataforma propia: HoldingChat.

Claw

Co-CEO Operativo

Tyler

SDR — Ventas

Gaston

CTO BigVoz

Vivi

Developer

Wanda

UX/UI Designer

Lena

CMO Marketing

Victor

CFO/COO

Dona

Secretaria Ejecutiva

Creator

Dir. Contenido

Pixel

Dir. Creativo

Ingresos

CFO Revenue

Egresos

CFO Expenses

Oráculo

Consejero Futurista

BigVoz Dir.

Dir. Comercial

Claw Daemon

WhatsApp Agent

CV Agent

Mantenedor Web

SuperBotón

IoT Automation

Cada agente tiene contexto, memoria, herramientas y un board de tareas. Operan en sprints semanales. HoldingChat es el producto — y el método.

El problema

LATAM depende de proveedores de IA extranjeros y caros

Toda empresa que quiere usar IA de voz hoy paga en dólares a proveedores de USA/Europa. No existe una alternativa local.

Proveedor	Servicio	Ubicación	Limitación
ElevenLabs	TTS (texto a voz)	USA / Europa	Caro, español no nativo
Palabra.ai	TTS español	USA	Solo TTS, no STS ni NLP
Twilio	Telefonía + voz	USA	Complejo, no pensado para LATAM
Google Cloud TTS	TTS	Global	Voces robóticas en español
Amazon Polly	TTS	Global	Calidad baja en español
InfinitoVox	TTS + STS + NLP	LATAM (propio)	Español nativo, todo-en-uno, competitivo

La solución

InfinitoVox
Proveedor de IA de voz para LATAM

Servidor GPU propio. Modelos TTS, STS y NLP entrenados para español nativo con acentos regionales. Cobramos por minuto. Reemplazamos a ElevenLabs, Twilio y Palabra.ai con una sola plataforma.

🗣

TTS — Texto a Voz

Voces naturales en español, portugués, inglés. Clonación de voz. Acentos colombiano, mexicano, argentino.

🔄

STS — Voz a Voz

Traducción e interpretación en tiempo real. Intérpretes IA para eventos, reuniónes y call centers.

🧠

NLP — Lenguaje Natural

Comprensión de contexto e intención. Agentes que conversan, venden y resuelven problemas.

Cómo funciona

El flujo de InfinitoVox en acción

Caso 1: Evento corporativo con múltiples idiomas

🎤

Speaker habla

Español

→

🔄

STT

Voz → Texto

→

🧠

NLP

Traduce + contexto

→

🗣

TTS

Texto → Voz natural

→

🎧

Audiencia escucha

Inglés, portugués, francés...

Todo en tiempo real. Latencia mínima. Cada asistente elige su idioma. Sin intérpretes humanos en cabina.

Caso 2: Agente de voz IA atendiendo clientes

📞

Cliente llama

Teléfono o WhatsApp

→

🔄

STT

Escucha y transcribe

→

🧠

NLP

Entiende intención, decide acción

→

🗣

TTS

Responde con voz natural

→

✅

Acción ejecutada

Agenda, vende, resuelve

El agente escucha, entiende, responde y ejecuta. 24/7. En cualquier idioma. Sin intervención humana.

Caso 3: STS directo — Voz a voz sin texto intermedio

🎤

Persona habla en español

→

🔄

STS — Speech to Speech

Modelo end-to-end, sin pasos intermedios

→

🎧

Sale en inglés con voz natural

La latencia más baja posible. El modelo convierte voz a voz directamente, preservando tono, emoción y velocidad del hablante original.

Arquitectura técnica

Ya tenemos el servidor configurado

NVIDIA Riva + modelos open source. Docker containerizado. 5 microservicios independientes listos para escalar.

Microservicios del servidor

Servicio	Tecnología	Función
ASR	Whisper / Parakeet	Voz → Texto (99 idiomas)
NMT	Nemotron / NLLB-200	Traducción (200+ idiomas)
TTS	Cartesia Sonic / Piper	Texto → Voz (40 idiomas)
Clone	XTTS-v2	Clonación de voz (16 idiomas)
Router	Model Router	Selección dinámica del mejor modelo

Tiers de calidad (automático)

Tier 1 — Premium
Nemotron + Llama 3.3 + Cartesia

< 200ms

Tier 2 — Alta calidad
Whisper + MADLAD-400 + Piper

< 350ms

Tier 3 — Extendido
Whisper + NLLB-200 + Edge-TTS

< 500ms

Tier 4 — Clonación
MMS-1B + NLLB + XTTS-v2

< 700ms

Cobertura global

99 idiomas de entrada. 40 voces. 16 con clonación.

🎤

INPUT — ASR

99

Idiomas reconocidos. Whisper GPU. Incluye todos los acentos regionales del español (ES, MX, AR, CO, CL, PE, VE, EC, BO).

🗣

OUTPUT — TTS

40

Idiomas con voz natural. Edge-TTS + Cartesia Sonic + Piper. Latencia desde 200ms.

👥

CLONE — XTTS-v2

16

Idiomas con clonación de voz. El speaker habla en español, la audiencia escucha su misma voz en inglés.

Variantes regionales del español

ES — España MX — México AR — Argentina CO — Colombia CL — Chile PE — Perú VE — Venezuela EC — Ecuador BO — Bolivia

Combinaciones posibles: 99 idiomas de entrada × 50+ de salida = 4,950+ pares de traducción simultánea

Mercado de intérpretes

La IA reemplaza intérpretes humanos a 1/10 del costo

El STS (Speech-to-Speech) de InfinitoVox permite interpretación simultánea en tiempo real. Eventos, conferencias, reuniónes de negocios — sin humanos.

Segmento	Costo humano	Costo InfinitoVox	Ahorro
Eventos y conferencias	$50-150 USD/hora	$3-5 USD/hora	95%
Reuniones de negocios	$30-80 USD/hora	$3-5 USD/hora	90%
Call centers bilingües	$8-15 USD/hora (agente)	$0.05 USD/min (IA)	80%
Turismo y guias	$20-50 USD/hora	$3-5 USD/hora	85%

El mercado global de interpretación vale $10B USD. LATAM es el mercado con mas crecimiento en eventos bilingües.

Estrategia

2 capas. 1 motor.

Capa 1 — Hoy

Genera cash flow

Vendemos servicios usando proveedores externos. El margen financia la Capa 2.

BigVoz → vende agentes IA → paga a proveedores externos por minuto
UpMVP → vende software → cash directo
Parlando.me → app idiomas → paga proveedores de voz

Capa 2 — Destino

Somos nuestro propio proveedor

InfinitoVox reemplaza a todos los proveedores externos. El costo baja, el margen sube, y vendemos minutos a terceros.

BigVoz → usa InfinitoVox → margen máximo, cero dependencia
Parlando.me → usa InfinitoVox → costo casi cero
InfinitoVox → vende minutos a terceros + intérpretes IA

Empresas

El ecosistema completo

Operando

BigVoz.ai

Agentes de voz e IA + gestión de ads. Clientes en Colombia, USA, Australia. Paquetes modulares para negocios de cualquier tamaño.

Operando

UpMVP

Software a medida con IA. MVPs en 2-4 semanas. Proyectos activos en múltiples industrias.

Construyendo

HoldingChat

Plataforma de equipos de agentes IA. 17 agentes, kanban, archivos, aprobaciones. El método que construyó el holding.

Pre-lanzamiento

Parlando.me

App de práctica de idiomas con IA conversaciónal. Tutores de voz adaptativos. Primer cliente interno de InfinitoVox.

El destino

InfinitoVox

Servidor GPU propio. Modelos TTS/STS/NLP. Proveedor de IA de voz para LATAM. Cobro por minuto a terceros. Intérpretes IA para eventos. El ElevenLabs latino.

La evidencia

Ya usamos proveedores de IA de voz.
Sabemos cómo funciona el negocio.

Operamos productos reales que consumen IA de voz todos los días. Conocemos los costos, las limitaciones y las oportunidades de cada proveedor porque somos sus clientes.

BigVoz.ai

Agentes de voz activos

Clientes en Colombia, USA y Australia usando agentes de voz por teléfono y WhatsApp 24/7. Cada minuto de conversación pasa por ElevenLabs y Twilio. Vemos el consumo real.

Parlando.me

IA conversacional para idiomas

Tutores de voz que practican con estudiantes en tiempo real. Cada sesión consume minutos de TTS y NLP. El costo por usuario depende 100% del proveedor externo.

HoldingChat

17 agentes IA operando

Un equipo completo de agentes autónomos que construyó este holding. La plataforma que demuestra que los equipos IA funcionan en producción real.

UpMVP

Software a medida con IA

Construimos productos para terceros integrando IA. Cada proyecto nos da más contexto sobre lo que las empresas necesitan y cuánto están dispuestas a pagar.

No estamos teorizando. Somos consumidores reales de estos servicios. Y sabemos exactamente dónde está la oportunidad.

La gran oportunidad

Adueñarnos del mercado de intérpretes para eventos corporativos

Cada conferencia, congreso, evento corporativo y reunión internacional necesita intérpretes. Hoy se pagan humanos. Mañana se usa IA — y queremos ser ese proveedor.

Intérprete humano

Costoso y limitado

Disponibilidad limitada por idioma y ubicación
Se cansa, necesita descansos y relevos
Un intérprete por par de idiomas
Requiere contratación anticipada
Errores humanos en terminología técnica

Intérprete InfinitoVox

Escalable e instantáneo

Disponible en cualquier idioma, en cualquier momento
No se cansa, opera 24/7 sin descanso
Múltiples idiomas simultáneos
Activación inmediata, sin logística
Consistencia técnica y terminología exacta

El mercado global de interpretación vale más de $10B USD. Las empresas de eventos son el canal perfecto — ya tienen los clientes, la infraestructura y la necesidad. Solo les falta la tecnología.

Roadmap

El plan de crecimiento

Fase 1 — Ahora

Tracción con productos

Crecer la base de clientes de BigVoz y UpMVP. Crear contenido semanal. Perfeccionar productos. Generar flujo de caja estable con proveedores externos.

Fase 2 — Infraestructura

Servidor GPU + modelos

Montar servidor GPU propio. Entrenar primeros modelos TTS en español. Contratar equipo humano. Empezar a reemplazar proveedores externos.

Fase 3 — Mercado

Proveedor de IA de voz

InfinitoVox en producción. API para terceros. Intérpretes IA para eventos corporativos. Ser el proveedor de referencia en LATAM.

La propuesta

Qué buscamos de un aliado estratégico

💰

Capital

Inversión para servidor GPU ($15K-30K USD), equipo humano, y aceleración de ventas. Retorno directo en MRR mensual.

🤝

Red de contactos

Empresarios que necesitan automatizar. Empresas de eventos que usan intérpretes. Cada contacto = cliente potencial.

🏗

Infraestructura

Hardware, espacio, o infraestructura existente que acelere el deployment del servidor GPU y los modelos de IA.

Siguiente paso

30 minutos. Demo en vivo.
Sin slides. Producto real.

Te muestro BigVoz funcionando, HoldingChat con los 17 agentes operando, y el plan completo de InfinitoVox. Todo en vivo.

Agendar reunión por WhatsApp

Camilo Marín — CEO & Founder
camilo@universomarin.com
Bogota, Colombia

Construimos el ElevenLabs de LATAMcon un equipo de agentes IA

17 agentes IA. Cada uno con un rol real.

LATAM depende de proveedores de IA extranjeros y caros

InfinitoVox Proveedor de IA de voz para LATAM

TTS — Texto a Voz

STS — Voz a Voz

NLP — Lenguaje Natural

El flujo de InfinitoVox en acción

Caso 1: Evento corporativo con múltiples idiomas

Caso 2: Agente de voz IA atendiendo clientes

Caso 3: STS directo — Voz a voz sin texto intermedio

Ya tenemos el servidor configurado

Microservicios del servidor

Tiers de calidad (automático)

99 idiomas de entrada. 40 voces. 16 con clonación.

INPUT — ASR

OUTPUT — TTS

CLONE — XTTS-v2

Variantes regionales del español

La IA reemplaza intérpretes humanos a 1/10 del costo

2 capas. 1 motor.

Genera cash flow

Somos nuestro propio proveedor

El ecosistema completo

BigVoz.ai

UpMVP

HoldingChat

Parlando.me

InfinitoVox

Ya usamos proveedores de IA de voz.Sabemos cómo funciona el negocio.

Agentes de voz activos

IA conversacional para idiomas

17 agentes IA operando

Software a medida con IA

Adueñarnos del mercado de intérpretes para eventos corporativos

Costoso y limitado

Escalable e instantáneo

El plan de crecimiento

Tracción con productos

Servidor GPU + modelos

Proveedor de IA de voz

Qué buscamos de un aliado estratégico

Capital

Red de contactos

Infraestructura

30 minutos. Demo en vivo.Sin slides. Producto real.

Construimos el ElevenLabs de LATAM
con un equipo de agentes IA

InfinitoVox
Proveedor de IA de voz para LATAM

Ya usamos proveedores de IA de voz.
Sabemos cómo funciona el negocio.

30 minutos. Demo en vivo.
Sin slides. Producto real.