IA EstratégicaAIRAG empresarial: el coseno no es el cimiento
Seis posiciones sobre el ladrillo de recuperación RAG que contradicen el reflejo coseno-primero y separan los demos de los sistemas en producción.
El vocabulario de la IA madura rápido. Hace dos años, bastaba con saber qué era ChatGPT. Hoy, su director de operaciones le menciona RAG, su equipo de TI habla de embeddings y su proveedor de tecnología propone "agentes con guardrails". Si usted no domina el lenguaje, pierde el hilo de decisiones que afectan el presupuesto, el riesgo y la competitividad de su empresa.
Este glosario no es para ingenieros. Es para el CEO de Bogotá que evalúa si automatizar su servicio al cliente, para la directora comercial de Monterrey que quiere entender qué compra cuando contrata una solución de IA, y para el director de operaciones de Buenos Aires que necesita hacer las preguntas correctas antes de firmar un contrato.
Un LLM (Large Language Model) es el motor detrás de herramientas como ChatGPT, Gemini o Claude. Se entrena sobre enormes volúmenes de texto y aprende a predecir y generar lenguaje con coherencia. No "entiende" en sentido humano: procesa patrones estadísticos a escala masiva.
Por qué le importa: Cuando un proveedor dice que "usa IA", casi siempre hay un LLM debajo. Saber esto le permite preguntar: ¿cuál? ¿propietario o abierto? ¿dónde se ejecuta? ¿quién controla los datos?
Es la categoría de IA capaz de producir contenido nuevo: texto, imágenes, código, audio, video. Se opone a la IA "clásica", que solo clasificaba o predecía a partir de datos existentes.
Por qué le importa: La IA generativa abre posibilidades reales en marketing, operaciones y atención al cliente, pero también introduce riesgos concretos —contenido incorrecto, sesgo, filtración de información—. No toda IA generativa es apta para uso empresarial sin controles adicionales.
Un prompt es la instrucción que se le da al modelo. La ingeniería de prompts es la práctica de diseñar esas instrucciones con precisión para obtener resultados consistentes y útiles.
Por qué le importa: Dos empresas con el mismo modelo pueden tener resultados radicalmente distintos según cómo construyan sus prompts. Esto es un activo estratégico, no solo una tarea técnica. Quien controla el prompt, controla el comportamiento del sistema.
Retrieval-Augmented Generation. Es la técnica que permite a un LLM responder usando información específica de su empresa —manuales, bases de datos, contratos, políticas— en lugar de depender solo de lo que aprendió durante su entrenamiento.
Por qué le importa: Sin RAG, un modelo no sabe nada de su empresa. Con RAG, puede consultar su catálogo de productos, su historial de clientes o sus procesos internos. Es la diferencia entre un asistente genérico y uno que realmente trabaja para usted.
Cuando un modelo genera información que parece correcta pero es falsa. No lo hace con intención: es una falla inherente al proceso estadístico de generación de texto. El modelo "completa" con lo que parece plausible, aunque no sea real.
Por qué le importa: Es el principal riesgo operativo de los LLMs. Un sistema que alucina en un contrato, en un reporte financiero o en una comunicación a clientes puede generar daños reales y medibles. La mitigación requiere diseño, no solo buenas intenciones.
La unidad mínima que procesa un LLM. Puede ser una palabra, parte de una palabra o un signo de puntuación. Los costos de uso por API se miden en tokens; los límites de memoria de cada conversación también.
Por qué le importa: Entender tokens le ayuda a dimensionar costos reales. Un documento de 50 páginas procesado miles de veces al mes puede representar un gasto significativo si nadie lo optimizó.
Representaciones numéricas del texto —o de imágenes, audio— que capturan su significado semántico. Son el mecanismo que permite a los sistemas RAG "buscar por significado" en lugar de por palabras clave exactas.
Por qué le importa: Si su proveedor le habla de búsqueda semántica o bases de datos vectoriales, está hablando de embeddings. Son el puente entre su información empresarial y la inteligencia del modelo.
Un modelo de gran escala entrenado sobre datos generales, diseñado para ser adaptado a tareas específicas. GPT-4o, Claude, Gemini son modelos fundacionales. Sobre ellos se construyen las aplicaciones de negocio.
Por qué le importa: Comprar "una IA" suele significar alquilar acceso a un modelo fundacional y construir —o comprar— la capa de aplicación encima. Son capas distintas con costos, riesgos y responsabilidades distintas.
El proceso de entrenar un modelo fundacional con datos específicos de su industria o empresa para que mejore en tareas concretas.
Por qué le importa: El fine-tuning puede mejorar resultados, pero requiere datos limpios, etiquetados y en volumen suficiente. No es la solución universal que algunos proveedores presentan; en muchos casos, un buen prompt con RAG supera a un fine-tuning costoso.
Un sistema que no solo genera texto, sino que razona, toma decisiones y ejecuta acciones: consultar una base de datos, enviar un correo, hacer una reserva, llamar a una API externa. Un agente puede operar de forma autónoma o bajo supervisión humana.
Por qué le importa: Los agentes son la frontera actual de la IA aplicada a operaciones. Un agente bien diseñado puede manejar flujos completos de trabajo; uno mal diseñado puede ejecutar acciones incorrectas sin que nadie lo note hasta que el daño está hecho.
La coordinación de múltiples agentes de IA que trabajan en paralelo o en secuencia para resolver tareas complejas. Un agente investiga, otro redacta, otro revisa, otro aprueba.
Por qué le importa: Las arquitecturas multi-agente permiten escalar la automatización más allá de tareas simples. Pero también multiplican los puntos de fallo si no existe supervisión adecuada entre cada paso.
Restricciones y controles aplicados a un sistema de IA para limitar comportamientos no deseados: respuestas fuera de tema, contenido inapropiado, acciones no autorizadas, filtración de datos confidenciales.
Por qué le importa: Un sistema de IA en producción sin guardrails es un riesgo operativo y reputacional. Antes de desplegar cualquier solución con clientes o con datos sensibles, pregunte explícitamente qué controles están implementados y quién los mantiene.
La cantidad máxima de texto que un modelo puede leer y considerar en una sola interacción, medida en tokens. Un modelo con ventana amplia puede procesar documentos largos o conversaciones extensas en una sola consulta.
Por qué le importa: Si su caso de uso implica documentos extensos o histórico de conversaciones, la ventana de contexto es un criterio de selección relevante. Los modelos más económicos suelen tener ventanas más pequeñas, lo que impone restricciones de diseño.
No se trata de convertirse en ingeniero de IA. Se trata de ser el directivo que hace las preguntas correctas: ¿qué modelo usa esta solución? ¿cómo previenen alucinaciones? ¿cuál es el costo por inferencia a escala? ¿qué guardrails tienen implementados? ¿mis datos salen del país?
Las empresas medianas de LATAM que están ganando con IA no son las que compraron la tecnología más cara. Son las que entienden lo que compraron, lo supervisan con criterio y lo adaptan a su operación real.
En Xenturia trabajamos con este vocabulario todos los días —en proyectos de automatización, agentes y datos para empresas en Colombia, México y Argentina—. Si quiere evaluar su próxima decisión de IA con ojos de estratega, no de comprador, con gusto le acompañamos.
Agenda una consulta gratuita con nuestro equipo y descubre cómo la IA puede transformar tus operaciones.
Agenda una consulta
IA EstratégicaAISeis posiciones sobre el ladrillo de recuperación RAG que contradicen el reflejo coseno-primero y separan los demos de los sistemas en producción.
IA EstratégicaAIEl punto ciego del RAG empresarial no está en el modelo ni en el índice. Está en lo que le pasa a la pregunta del usuario antes de llegar a la búsqueda.
IA EstratégicaAIDel piloto a la operación real hay un abismo técnico y financiero. Lo que todo líder debe entender antes de escalar IA en su empresa.