IA EstratégicaAISeguridad en la era de la IA: las amenazas que ya llegaron
Cuando los atacantes también usan IA, el mapa de seguridad empresarial cambia por completo. Lo que todo CEO en LATAM necesita saber hoy.
Hay una conversación que se repite en salas de directivos desde Bogotá hasta Monterrey: ¿desplegamos un modelo local para proteger los datos, o usamos la API de un modelo en la nube para tener más capacidad de razonamiento?
La respuesta correcta, en la mayoría de los casos operativos, es que la pregunta está mal formulada.
Los flujos híbridos —donde un modelo local maneja la mayor parte del trabajo y un modelo en la nube entra solo cuando la tarea lo justifica— ya no son una curiosidad de laboratorio. Son una arquitectura madura que reduce costos variables, mantiene datos sensibles dentro del perímetro corporativo y escala sin sacrificar calidad de respuesta. Este artículo muestra cómo construirla usando Gemma 4 (local) y GPT-5.4 (nube), con énfasis en enrutamiento inteligente, razonamiento encadenado y salidas estructuradas.
Considere el caso de una empresa manufacturera en Monterrey que quiere automatizar la revisión de contratos con proveedores. Los contratos contienen cláusulas confidenciales que no deberían salir del servidor interno. Pero los modelos locales de generaciones anteriores carecían del razonamiento necesario para extraer obligaciones clave con precisión confiable. El resultado: el proyecto se frenaba por no encontrar un modelo que cumpliera ambas condiciones al mismo tiempo.
La solución no era elegir un bando; era asignar el trabajo según las fortalezas reales de cada modelo.
Gemma 4 local hace bien:
GPT-5.4 en la nube hace bien:
El criterio de asignación no es capricho: es una decisión de diseño que se toma una vez y que el sistema ejecuta automáticamente en cada llamada.
Un componente liviano —puede ser el mismo Gemma 4 con un prompt de clasificación corto— evalúa cada tarea entrante y decide a qué modelo enviarla. Los criterios habituales son: tipo de tarea, presencia de información personal identificable (PII), longitud del contexto y costo estimado.
La regla puede empezar siendo tan directa como: si la tarea contiene datos de clientes identificables, va al modelo local; si requiere razonamiento sobre política contractual ambigua, va a la nube. La sofisticación se agrega después, cuando hay datos reales de uso que la justifican.
Gemma 4 en su variante de 12B parámetros corre sin fricción en un servidor con GPU moderada. Su arquitectura sin encoder separado le permite procesar texto e imágenes en un único pipeline, lo que simplifica los flujos de documentos mixtos.
Un ejemplo de salida estructurada para un proceso de cuentas por cobrar:
{
"invoice_id": "FAC-20260615-004",
"vendor": "Distribuidora Pacífico S.A.",
"amount_due": 148500,
"currency": "COP",
"due_date": "2026-07-10",
"status": "pendiente",
"risk_flag": false
}
Este JSON no sale del servidor. El sistema downstream lo consume directamente para actualizar el ERP. Ningún dato de proveedor viaja a la nube.
Cuando el router identifica que la tarea supera la capacidad del modelo local —analizar si una cláusula de penalización aplica dado el historial de pagos y un cambio regulatorio reciente, por ejemplo—, el flujo escala a GPT-5.4.
Antes de enviar cualquier contexto a la API, el pipeline aplica anonimización automática: reemplaza nombres de empresas, RUCs y montos exactos por marcadores ficticios. GPT-5.4 razona sobre la estructura del problema; el sistema local reconstruye la respuesta con los datos reales antes de registrarla.
Esto no es exceso de precaución. Es el estándar mínimo esperable para empresas que operan bajo la Ley 1581 en Colombia, la LFPDPPP en México o la Ley 25.326 en Argentina.
Uno de los problemas más comunes en implementaciones LLM empresariales es la inconsistencia de formato: el modelo devuelve el JSON correcto el 70% de las veces y en el resto genera prosa que rompe el pipeline.
Tanto Gemma 4 como GPT-5.4 soportan salida estructurada forzada (constrained decoding), donde el modelo solo puede generar tokens que conformen un JSON Schema predefinido. El resultado: cero sorpresas de formato, validación automática y conexión directa a bases de datos o APIs sin parseo artesanal.
La práctica que más simplifica el mantenimiento: definir un único JSON Schema por tipo de tarea y aplicarlo en ambos modelos. La consistencia entre capas es lo que hace que el flujo sea sostenible cuando el volumen crece.
GPT-5.4 incorpora capacidades de razonamiento explícito nativo: desglosa el problema antes de emitir su respuesta final. Para un líder de operaciones, esto tiene valor concreto. Cuando el sistema recomienda rechazar una orden de compra, puede mostrar el razonamiento paso a paso, no solo la conclusión.
Eso impacta dos dimensiones críticas:
En un flujo híbrido bien diseñado, la justificación que produce GPT-5.4 puede almacenarse localmente junto al registro de la decisión, sin que el dato original salga del perímetro en ningún momento.
Correr Gemma 4 en servidores propios tiene un costo fijo predecible. Escalar a GPT-5.4 solo para tareas complejas mantiene el costo variable bajo control. En flujos reales donde el 80% de las operaciones son clasificación y extracción estructurada, ese 80% del trabajo corre local. El costo por llamada a la API se reserva para el 20% que realmente requiere razonamiento avanzado.
La alternativa de enviar todo a la nube no solo es más cara; es un riesgo de cumplimiento en sectores regulados como salud, servicios financieros o asesoría legal.
Si su empresa procesa un volumen relevante de documentos, tickets o registros que hoy manejan personas:
Con herramientas actuales y un equipo técnico competente, un prototipo funcional puede estar listo en tres semanas. No es un proyecto de transformación de seis meses; es una decisión de arquitectura seguida de ejecución disciplinada.
En Xenturia acompañamos a equipos en LATAM a diseñar e implementar este tipo de flujos desde la estrategia hasta el despliegue en producción. Si está evaluando una arquitectura híbrida para su operación, es una conversación que vale la pena iniciar pronto.
Agenda una consulta gratuita con nuestro equipo y descubre cómo la IA puede transformar tus operaciones.
Agenda una consulta
IA EstratégicaAICuando los atacantes también usan IA, el mapa de seguridad empresarial cambia por completo. Lo que todo CEO en LATAM necesita saber hoy.
IA EstratégicaAIAWS lanzó en preview pública su FinOps Agent: un agente de IA para analizar y optimizar costos de nube sin necesitar un equipo especializado.
IA EstratégicaAIDapr 1.18 introduce prueba criptográfica en cada paso de sus agentes y workflows. Lo que cambia para empresas que ya automatizan decisiones críticas.