El problema
Mi Trabajo de Fin de Grado. A los agentes de aprendizaje por refuerzo se les suele mostrar el tablero entero; el mundo real les da una mirilla. La pregunta no es la perezosa "PPO vs Markov" — Markov no es un algoritmo. Son dos preguntas más limpias: cuánto cae el rendimiento cuando la observación es parcial en lugar de casi markoviana, y qué método recupera mejor el estado que falta.
Enfoque y compromisos
Un banco de pruebas MiniGrid modular y reproducible donde la observabilidad es la variable independiente. Tres baselines:
- PPO — la baseline robusta.
- A2C — un actor-critic más ligero, más rápido por actualización.
- RecurrentPPO — memoria explícita, la baseline natural para un POMDP.
Corren sobre dos entornos — FourRooms para navegación y exploración,
MemoryS13Random para memoria bajo observabilidad parcial — mientras
FullyObsWrapper y el apilado de fotogramas aproximan un estado más markoviano.
Ese diseño aísla el efecto de la representación del estado de la elección de
algoritmo, que es lo que hace defendible la comparación.
Resultados
El framework ejecuta experimentos guiados por configuración con runs versionados
y un pipeline emparejado de evaluación y comparación, de modo que cada celda
(algoritmo × observabilidad) es reproducible. La separación deliberada entre la
pregunta de observabilidad y la de algoritmo es el núcleo metodológico del
trabajo.
Resultados en curso — el barrido experimental (varias semillas, el contraste memoria-frente-a-navegación) es el cuerpo del TFG. El repositorio es privado mientras la memoria está en desarrollo.