Módulo 3: Modelos LLM y Transformers
Transformers y su arquitectura: Mecanismo de atención y self-attention, arquitectura encoder-decoder, diferencias con RNN y CNN, implementación práctica.
Modelos LLM populares: Análisis detallado de GPT-4, Llama 2, Mistral, Gemini, comparativa de capacidades y limitaciones, modelos open source vs. propietarios.
Proceso de entrenamiento: Pre-entrenamiento y fine-tuning, técnicas de optimización como LoRA y Adapters, strategias de cuantización, entrenamiento distribuido.
Prompt Engineering: Técnicas avanzadas, few-shot learning, chain-of-thought prompting, estrategias de optimización de prompts.
Limitaciones y desafíos: Alucinaciones y su prevención, sesgos inherentes, consumo computacional y optimización, estrategias de validación de salidas.