Observabilidad parcial en RL profundo

El problema

Mi Trabajo de Fin de Grado. A los agentes de aprendizaje por refuerzo se les suele mostrar el tablero entero; el mundo real les da una mirilla. La pregunta no es la perezosa "PPO vs Markov" — Markov no es un algoritmo. Son dos preguntas más limpias: cuánto cae el rendimiento cuando la observación es parcial en lugar de casi markoviana, y qué método recupera mejor el estado que falta.

Enfoque y compromisos

Un banco de pruebas MiniGrid modular y reproducible donde la observabilidad es la variable independiente. Tres baselines:

PPO — la baseline robusta.
A2C — un actor-critic más ligero, más rápido por actualización.
RecurrentPPO — memoria explícita, la baseline natural para un POMDP.

Corren sobre dos entornos — FourRooms para navegación y exploración, MemoryS13Random para memoria bajo observabilidad parcial — mientras FullyObsWrapper y el apilado de fotogramas aproximan un estado más markoviano. Ese diseño aísla el efecto de la representación del estado de la elección de algoritmo, que es lo que hace defendible la comparación.

Resultados

El framework ejecuta experimentos guiados por configuración con runs versionados y un pipeline emparejado de evaluación y comparación, de modo que cada celda (algoritmo × observabilidad) es reproducible. La separación deliberada entre la pregunta de observabilidad y la de algoritmo es el núcleo metodológico del trabajo.

Resultados en curso — el barrido experimental (varias semillas, el contraste memoria-frente-a-navegación) es el cuerpo del TFG. El repositorio es privado mientras la memoria está en desarrollo.