Este inicio del 2025 uno de lo términos más frecuente que se han escuchado con respecto a la temática de inteligencia artificial, es el de agente de IA, vamos a entender un poco más allá del término y profundizaremos sobre los componentes que lo rodean y cómo pueden ser aprovechados en distintos ámbitos.

Sin más preámbulo, ¡comencemos!

¿Qué son los agentes de IA?

Un agente de inteligencia artificial es todo sistema que aprovechando los grandes modelos de lenguaje (LLM, por sus siglas en inglés) analiza metódicamente un problema dado por el usuario y de, manera autónoma, selecciona las herramientas que pueden serle útil para resolver la tarea dentro del flujo de trabajo establecido eso si teniendo en cuenta que además tiene la capacidad para poder adaptar ese flujo en la búsqueda de un resultado más óptimo.

Hay una palabra clave acá y son las herramientas, estas son básicamente cualquier software que potencie las capacidades previas del agente al cual el pueda acceder, por ejemplo imagina un flujo de trabajo para un agente que gestione tus finanzas:

A través del servicio de mensajería de tu preferencia (whatsapp, slack, etc.) no le escribes, sino que le envías una nota de voz diciéndole cuál fue la compra que realizaste y si tiene factura le envías la foto
Luego el agente recibe y procesa la información que viene de tu aplicación para decidir como categorizarlo si como alimentación, trabajo, hogar, diversión, etc.
Organizando la información en formato claro decide enviarlo a la base de dato que te sea de utilidad para tu consulta o incluso si quieres dentro de una hoja de cálculo perfectamente organizada
Como está conectado a tu aplicación del banco es capaz de hacer la trazabilidad entre ingreso y gasto
Para finalmente, aparte de registrar la información, también tenga la capacidad de hacerte sugerencias sobre el manejo de tus finanzas, si estás gastando mucho para darte la alerta respectiva nuevamente en tu aplicación de mensajería favorita.

La “magia” de los agentes radica en su capacidad de adaptación y personalización al contexto y a la toma de decisiones autónomas complejas para usar aplicaciones más allá de sí mismas, ampliando su capacidad de trabajo.

Imagen que muestra un robot con estilo magico para representar la magia de los agentes. Figura 1: Una representación “mágica de las posibilidades de la IA”

Características y beneficios de los agentes

Desglosando lo anterior, las características principales de los agentes son:

Autonomía: Puede operar sin requerir constantemente intervención humana.
Aprendizaje: Capaz de aprender a través de experiencias o datos.
Adaptabilidad: Se adapta a cambios en el entorno o en los objetivos.
Recurrencia: Puede aplicar conocimientos y aprendizajes acumulados para resolver problemas complejos.

Ahora puedes estar pensando, suena interesante, pero ya antes había herramienta de automatización como los RPA ¿qué sería lo diferente acá?, bueno veámoslo a continuación.

Diferencia entre una Agente de IA y RPA

La diferencia fundamental entre un agente IA y un RPA (Automatización Robótica de Procesos) radica en su propósito y capacidades. Mientras que los RPA se centran en automatizar tareas repetitivas y predecibles, los agentes de IA están diseñados para aprovechar el potencial de los grandes modelos de lenguaje en la realización de tareas complejas que requieren razonamiento sofisticado a través de una capacidad de análisis y comprensión contextual mayor.

¿Recuerdas que mencionamos a las herramientas de Ia que pueden usar los agentes?, bueno, un RPA puede ser otra herramienta más que puede ser aprovechado dentro del flujo de trabajo del agente.

Flujo de trabajo de un agente de IA

Profundicemos en el flujo de trabajo que comúnmente tiene un agente de IA:

1. Percepción: Los “sentidos” del agente

La percepción constituye la puerta de entrada del agente al mundo exterior. Es el proceso mediante el cual el agente recopila datos brutos de su entorno a través de diversos mecanismos que funcionan como sus “sentidos artificiales” entre estos mecanismos podemos encontrar:

Sensores físicos: Cámaras, micrófonos, sensores de proximidad, temperatura, acelerómetros, etc.
Interfaces digitales: APIs, bases de datos, documentos, redes sociales, etc.
Entradas de usuario: Texto escrito, comandos de voz, gestos, clicks, etc.

2. Procesamiento: El “cerebro del agente”

Durante esta fase, el agente transforma los datos en bruto recogidos por sus sensores en información significativa y útil. Este procesamiento implica dar sentido a lo que ha percibido, interpretarlo en el contexto de su conocimiento previo y prepararlo para la toma de decisiones.

Componentes del procesamiento:

Filtrado de datos: Eliminar ruido e información irrelevante
Análisis y estructuración: Organizar los datos en patrones reconocibles
Contextualización: Interpretar la información según el entorno y la situación
Activación de memoria: Recuperar conocimientos relevantes almacenados previamente
Razonamiento: Aplicar lógica para extraer conclusiones de la información disponible

3. Toma de decisiones: El “juicio” del agente

Esta fase representa el núcleo del comportamiento inteligente del agente. Aquí, basándose en la información procesada, el agente evalúa diferentes opciones y determina qué acciones tomar para alcanzar sus objetivos.

Componentes de la toma de decisiones:

Definición de objetivos: Identificar qué se busca lograr (implícito en su diseño o explícito)
Generación de alternativas: Crear un conjunto de posibles acciones
Evaluación de consecuencias: Predecir resultados potenciales de cada acción
Valoración según criterios: Evaluar cada opción según prioridades y restricciones
Selección de acción: Elegir la mejor alternativa según el análisis realizado
Planificación: Organizar secuencias de acciones para objetivos complejos

4. Actuación: La “manos” del agente

La fase final del ciclo es donde el agente implementa la decisión tomada mediante acciones concretas que afectan a su entorno. Es el momento en que el procesamiento interno se traduce en efectos observables en el mundo exterior.

Mecanismos de actuación:

Efectores físicos: Motores, brazos robóticos, ruedas, altavoces, pantallas, etc.
Interfaces digitales: APIs, generación de contenido, envío de comandos, etc.
Comunicación: Respuestas textuales, voz sintetizada, señales, etc.

¿Te sorprende que hablemos de motores, brazos robóticos y demás herramientas físicas? bueno el agente no esta limitado solo al software ya depende de a que le des acceso para poderte dar la respuesta.

Arquitectura básica de un agente de IA.png Figura 2: Vista general del flujo básico de una agente de IA

Es fundamental entender que estas cuatro fases no ocurren de manera aislada sino como un ciclo continuo e interconectado. Cada acción genera cambios en el entorno que serán percibidos nuevamente, iniciando un nuevo ciclo. Este proceso de retroalimentación constante permite al agente adaptarse y aprender con el tiempo.

Con esto nos queda por comprender una cosa más y son piezas claves básicas que conformar el agente para poder realizar el procesamiento anteriormente mencionado.

Componentes de un agente de IA

En el núcleo de todo agente de inteligencia artificial se encuentran tres componentes fundamentales que trabajan en conjunto para crear un sistema inteligente y autónomo.

Lista de elementos básicos para construir un agente de IA Figura 3: Elementos básicos para construir un agente de IA

1. Modelo LLM: El cerebro del agente

El Modelo de Lenguaje de Gran Escala (Large Language Model o LLM) constituye el núcleo cognitivo del agente de IA, funcionando como su “cerebro”. Este componente le proporciona la capacidad de comprensión, análisis y generación de respuestas. ¿te suenan conocidos? ¿no? bueno los LLM’s son el núcleo usado por herramientas como ChatGPT, Copilot, Claude y Gemini para podernos dar las respuestas que solicitamos a tráves de un chat.

1.1 Funciones clave del LLM dentro de un agente

Comprensión contextual: El LLM interpreta instrucciones, información de entrada y contexto de la situación. Por ejemplo, cuando un usuario escribe ”Necesito hacer una presentación sobre energías renovables para mañana”, el LLM comprende que se trata de una solicitud urgente relacionada con un tema específico.

Razonamiento y planificación: El LLM analiza problemas, identifica objetivos y genera estrategias para abordarlos. Si un agente necesita organizar un viaje, el LLM puede determinar qué elementos deben considerarse: transporte, alojamiento, actividades, presupuesto, etc.

Generación de lenguaje natural: El LLM produce texto coherente, relevante y adaptado al contexto, lo que permite al agente comunicarse de manera efectiva. Puede generar desde respuestas concisas hasta documentos extensos según sea necesario.

Memoria a corto plazo: Mantiene presente el contexto de la conversación o tarea actual. Si un usuario menciona “mi proyecto” en una conversación continuada, el LLM recuerda a qué proyecto se refiere.

Conocimiento general: Proporciona información sobre una amplia variedad de temas basados en su entrenamiento. Puede explicar conceptos científicos, eventos históricos o procedimientos técnicos sin necesidad de consultar fuentes externas.

2. Herramientas: Los brazos y piernas del Agente

Las herramientas son las “extremidades” que le permiten interactuar con el mundo exterior y realizar acciones concretas. Básicamente son la interfaz entre el razonamiento del agente y el mundo real o digital.

2.2 Categorías principales de herramientas:

Herramientas de acceso a información:

Buscadores web: Permiten al agente consultar información actualizada en internet
Bases de datos: Facilitan el acceso a información estructurada específica
APIs de conocimiento: Conectan con fuentes especializadas como Wikipedia, Wolfram Alpha, etc.

Herramientas de procesamiento:

Calculadoras: Ejecutan operaciones matemáticas precisas
Procesadores de datos: Analizan, filtran y transforman conjuntos de datos
Analizadores semánticos: Extraen significado y entidades de textos

Herramientas de interacción con sistemas:

APIs de servicios: Conectan con plataformas como correo electrónico, calendarios, CRMs
Integraciones de software: Permiten controlar aplicaciones específicas
Controladores de hardware: En agentes físicos, manejan sensores y actuadores

Herramientas de creación de contenido:

Generadores de código: Crean y ejecutan programas informáticos
Editores de texto: Formatean y estructuran documentos
Visualizadores de datos: Crean gráficos y representaciones visuales

3. Capa de orquestación: El “sistema nervioso central” del agente

La capa de orquestación funciona como el “sistema nervioso central” del agente, coordinando la interacción entre el modelo LLM y las diversas herramientas disponibles. Esta capa es crucial para transformar el potencial cognitivo del LLM y las capacidades funcionales de las herramientas en un comportamiento coherente y efectivo.

Comúnmente las herramientas usadas para hacer el proceso de orquestación con código son langGraph, LlamaIndex o CrewIA.

3.1 Funciones principales de la capa de orquestación:

Gestión del flujo de trabajo: Determina la secuencia de operaciones necesarias para completar una tarea. Cuando un usuario solicita: “Prepara un informe sobre las ventas del último trimestre y envíalo por correo a todo el equipo”, la capa de orquestación descompone esta solicitud en pasos concretos: acceder a los datos de ventas, analizarlos, generar un informe, identificar los correos del equipo y enviar el documento.

Selección de herramientas: Decide qué herramientas son necesarias para cada paso del proceso y cuándo utilizarlas. Para la tarea anterior, seleccionaría secuencialmente una herramienta de acceso a base de datos, un procesador de datos, un generador de documentos y finalmente una API de correo.

Gestión de contexto: Mantiene y actualiza el estado de la tarea, almacenando información relevante y resultados intermedios. Durante un proceso de múltiples pasos, recuerda lo que ya se ha completado y lo que falta por hacer.

Interpretación de resultados: Procesa las salidas de las herramientas para determinar los siguientes pasos. Si una búsqueda web devuelve resultados ambiguos, la capa de orquestación podría decidir refinar la búsqueda o consultar otra fuente.

Manejo de errores y excepciones: Detecta problemas durante la ejecución y desarrolla estrategias alternativas. Si una API no está disponible, busca otras vías para obtener la información o completar la tarea.

Optimización de recursos: Determina la forma más eficiente de utilizar las capacidades del sistema, minimizando costos computacionales o tiempos de respuesta.

Conclusión

Los agentes de IA representan una evolución fundamental en nuestra relación con la tecnología y el aprovechamiento que tenemos con respecto a las inteligencias artificiales generativas a medida que estos sistemas mejoran en sus capacidades de percepción, procesamiento, decisión y actuación, estamos presenciando el surgimiento de entidades computacionales cada vez más autónomas y efectivas.

Ya con todo lo visto estas listo para construir tu primer agente básico, pero eso será en una próxima publicación 🤗.