5 empresas de inteligencia artificial. 4 países. Construido desde cero con un método propio: un equipo de 17 agentes IA operando como una empresa real.
Camilo Marín — CEO & Founder UniversoMarin
No contraté un equipo humano. Construí un equipo de agentes IA con Claude Code, cada uno con un rol específico, operando 24/7 en una plataforma propia: HoldingChat.
Cada agente tiene contexto, memoria, herramientas y un board de tareas. Operan en sprints semanales. HoldingChat es el producto — y el método.
Toda empresa que quiere usar IA de voz hoy paga en dólares a proveedores de USA/Europa. No existe una alternativa local.
| Proveedor | Servicio | Ubicación | Limitación |
|---|---|---|---|
| ElevenLabs | TTS (texto a voz) | USA / Europa | Caro, español no nativo |
| Palabra.ai | TTS español | USA | Solo TTS, no STS ni NLP |
| Twilio | Telefonía + voz | USA | Complejo, no pensado para LATAM |
| Google Cloud TTS | TTS | Global | Voces robóticas en español |
| Amazon Polly | TTS | Global | Calidad baja en español |
| InfinitoVox | TTS + STS + NLP | LATAM (propio) | Español nativo, todo-en-uno, competitivo |
Servidor GPU propio. Modelos TTS, STS y NLP entrenados para español nativo con acentos regionales. Cobramos por minuto. Reemplazamos a ElevenLabs, Twilio y Palabra.ai con una sola plataforma.
Voces naturales en español, portugués, inglés. Clonación de voz. Acentos colombiano, mexicano, argentino.
Traducción e interpretación en tiempo real. Intérpretes IA para eventos, reuniónes y call centers.
Comprensión de contexto e intención. Agentes que conversan, venden y resuelven problemas.
Todo en tiempo real. Latencia mínima. Cada asistente elige su idioma. Sin intérpretes humanos en cabina.
El agente escucha, entiende, responde y ejecuta. 24/7. En cualquier idioma. Sin intervención humana.
La latencia más baja posible. El modelo convierte voz a voz directamente, preservando tono, emoción y velocidad del hablante original.
NVIDIA Riva + modelos open source. Docker containerizado. 5 microservicios independientes listos para escalar.
| Servicio | Tecnología | Función |
|---|---|---|
| ASR | Whisper / Parakeet | Voz → Texto (99 idiomas) |
| NMT | Nemotron / NLLB-200 | Traducción (200+ idiomas) |
| TTS | Cartesia Sonic / Piper | Texto → Voz (40 idiomas) |
| Clone | XTTS-v2 | Clonación de voz (16 idiomas) |
| Router | Model Router | Selección dinámica del mejor modelo |
Idiomas reconocidos. Whisper GPU. Incluye todos los acentos regionales del español (ES, MX, AR, CO, CL, PE, VE, EC, BO).
Idiomas con voz natural. Edge-TTS + Cartesia Sonic + Piper. Latencia desde 200ms.
Idiomas con clonación de voz. El speaker habla en español, la audiencia escucha su misma voz en inglés.
Combinaciones posibles: 99 idiomas de entrada × 50+ de salida = 4,950+ pares de traducción simultánea
El STS (Speech-to-Speech) de InfinitoVox permite interpretación simultánea en tiempo real. Eventos, conferencias, reuniónes de negocios — sin humanos.
| Segmento | Costo humano | Costo InfinitoVox | Ahorro |
|---|---|---|---|
| Eventos y conferencias | $50-150 USD/hora | $3-5 USD/hora | 95% |
| Reuniones de negocios | $30-80 USD/hora | $3-5 USD/hora | 90% |
| Call centers bilingües | $8-15 USD/hora (agente) | $0.05 USD/min (IA) | 80% |
| Turismo y guias | $20-50 USD/hora | $3-5 USD/hora | 85% |
El mercado global de interpretación vale $10B USD. LATAM es el mercado con mas crecimiento en eventos bilingües.
Vendemos servicios usando proveedores externos. El margen financia la Capa 2.
InfinitoVox reemplaza a todos los proveedores externos. El costo baja, el margen sube, y vendemos minutos a terceros.
Agentes de voz e IA + gestión de ads. Clientes en Colombia, USA, Australia. Paquetes modulares para negocios de cualquier tamaño.
Software a medida con IA. MVPs en 2-4 semanas. Proyectos activos en múltiples industrias.
Plataforma de equipos de agentes IA. 17 agentes, kanban, archivos, aprobaciones. El método que construyó el holding.
App de práctica de idiomas con IA conversaciónal. Tutores de voz adaptativos. Primer cliente interno de InfinitoVox.
Servidor GPU propio. Modelos TTS/STS/NLP. Proveedor de IA de voz para LATAM. Cobro por minuto a terceros. Intérpretes IA para eventos. El ElevenLabs latino.
Operamos productos reales que consumen IA de voz todos los días. Conocemos los costos, las limitaciones y las oportunidades de cada proveedor porque somos sus clientes.
Clientes en Colombia, USA y Australia usando agentes de voz por teléfono y WhatsApp 24/7. Cada minuto de conversación pasa por ElevenLabs y Twilio. Vemos el consumo real.
Tutores de voz que practican con estudiantes en tiempo real. Cada sesión consume minutos de TTS y NLP. El costo por usuario depende 100% del proveedor externo.
Un equipo completo de agentes autónomos que construyó este holding. La plataforma que demuestra que los equipos IA funcionan en producción real.
Construimos productos para terceros integrando IA. Cada proyecto nos da más contexto sobre lo que las empresas necesitan y cuánto están dispuestas a pagar.
No estamos teorizando. Somos consumidores reales de estos servicios. Y sabemos exactamente dónde está la oportunidad.
Cada conferencia, congreso, evento corporativo y reunión internacional necesita intérpretes. Hoy se pagan humanos. Mañana se usa IA — y queremos ser ese proveedor.
El mercado global de interpretación vale más de $10B USD. Las empresas de eventos son el canal perfecto — ya tienen los clientes, la infraestructura y la necesidad. Solo les falta la tecnología.
Crecer la base de clientes de BigVoz y UpMVP. Crear contenido semanal. Perfeccionar productos. Generar flujo de caja estable con proveedores externos.
Montar servidor GPU propio. Entrenar primeros modelos TTS en español. Contratar equipo humano. Empezar a reemplazar proveedores externos.
InfinitoVox en producción. API para terceros. Intérpretes IA para eventos corporativos. Ser el proveedor de referencia en LATAM.
Inversión para servidor GPU ($15K-30K USD), equipo humano, y aceleración de ventas. Retorno directo en MRR mensual.
Empresarios que necesitan automatizar. Empresas de eventos que usan intérpretes. Cada contacto = cliente potencial.
Hardware, espacio, o infraestructura existente que acelere el deployment del servidor GPU y los modelos de IA.
Te muestro BigVoz funcionando, HoldingChat con los 17 agentes operando, y el plan completo de InfinitoVox. Todo en vivo.
Agendar reunión por WhatsApp
Camilo Marín — CEO & Founder
camilo@universomarin.com
Bogota, Colombia