R13 — Frontera de capacidades IA/agentes (findings, grounded NotebookLM · neutral)

NotebookLM 238984eb. [MEDIDO]=cifra en fuente · [ILUSTRATIVO]=extrapolación marcada. Distinción benchmark vs extrapolación explícita.

Qué SÍ pueden (capacidad demostrada [MEDIDO])

Single-turn / tool-use: modelos frontera ~100% en tareas de un turno y function-calling sencillo (BFCL/Berkeley).
Calidad en tareas económicas reales: en GDPval (44 ocupaciones, 9 sectores, trabajo de profesionales con ~14 años de experiencia) los mejores modelos se aproximan a expertos de industria en calidad de entregable; mejora ~lineal en el tiempo (GDPval, 2025).
Aceleración de productividad: tareas que requieren grado universitario aceleradas ×12, secundaria ×9 (Anthropic Economic Index).
Evaluación de escritura: grading automatizado de ensayos con ICC 0,94-0,97, igualando/superando consistencia humana en rúbricas estructuradas (Yavuz, 2025).

Qué NO pueden todavía (brecha de autonomía [MEDIDO])

Tareas reales de asistente general: humanos 92% vs agentes 15% (GAIA).
Web complejo: humanos 78,24% vs agentes 14,41% (WebArena).
Interacción dinámica / control dual: agentes SOTA <50% y muy inconsistentes (pass^8 <25% en retail) cuando deben seguir reglas de dominio o guiar a un usuario (τ-bench, τ²-bench).
Memoria multi-sesión / "cuándo NO actuar": tan bajo como 12% en la subcategoría de memoria agéntica (BFCL).
Ejecución física y criterio social: tareas manuales (soldadura 0,05) y dinámicas de grupo siguen requiriendo humano (ILO WP140).

Velocidad de mejora (la variable que gobierna los escenarios)

METR Time Horizon: horizonte al 50% de éxito ≈ 50-60 min hoy (Claude 3.7) [MEDIDO].
Ritmo de duplicación: cada ~7 meses (195,8 d) 2019-2025; acelerado post-2023 a 130,8 d (~4,3 meses, +20% más rápido) bajo TH1.1 (METR, 2026) [MEDIDO].
Extrapolación: si la tendencia se mantiene, en ~5 años la IA automatizaría tareas de software que hoy cuestan un mes de experto [ILUSTRATIVO — extrapolación de los autores, no medición].

Implicaciones para educación de adultos (neutral)

Creación: planes de lección diferenciados en segundos; recontextualización instantánea (Khan, Brave New Words).
Personalización: bucles adaptativos sobre telemetría del alumno → aborda el "problema de las 2 sigma" (tutoría 1-a-1 antes económicamente inviable) (Bloom; Susskind; Mollick).
Evaluación auténtica: giro de opción-múltiple a evaluación conversacional que analiza proceso e intención; el agente puede emitir un informe de proceso ("dar fe" de la competencia) (Khan; authentic-assessment lit).
Tutoría socrática 24/7: guía por preguntas, no entrega respuestas; sube el suelo para quien no tiene acceso a tutor humano.
Gap del corpus: no hay evidencia sobre IA en formación de habilidades psicomotoras/físicas complejas.

Eslabón

Responde RQ-6, RQ-7, RQ-12. Tensión clave para las derivadas: la IA abarata radicalmente la PRODUCCIÓN de contenido/tutoría, pero la AUTONOMÍA fiable en tareas reales sigue baja → el cuello de botella se desplaza a fiabilidad, juicio, verificación y transferencia (alimenta R19-R21 y RQ-22).

Qué SÍ pueden (capacidad demostrada [MEDIDO])​

Qué NO pueden todavía (brecha de autonomía [MEDIDO])​

Velocidad de mejora (la variable que gobierna los escenarios)​

Implicaciones para educación de adultos (neutral)​

Eslabón​

Qué SÍ pueden (capacidad demostrada [MEDIDO])

Qué NO pueden todavía (brecha de autonomía [MEDIDO])

Velocidad de mejora (la variable que gobierna los escenarios)

Implicaciones para educación de adultos (neutral)

Eslabón