R13 — Frontera de capacidades IA/agentes (findings, grounded NotebookLM · neutral)
NotebookLM
238984eb. [MEDIDO]=cifra en fuente · [ILUSTRATIVO]=extrapolación marcada. Distinción benchmark vs extrapolación explícita.
Qué SÍ pueden (capacidad demostrada [MEDIDO])
- Single-turn / tool-use: modelos frontera ~100% en tareas de un turno y function-calling sencillo (BFCL/Berkeley).
- Calidad en tareas económicas reales: en GDPval (44 ocupaciones, 9 sectores, trabajo de profesionales con ~14 años de experiencia) los mejores modelos se aproximan a expertos de industria en calidad de entregable; mejora ~lineal en el tiempo (GDPval, 2025).
- Aceleración de productividad: tareas que requieren grado universitario aceleradas ×12, secundaria ×9 (Anthropic Economic Index).
- Evaluación de escritura: grading automatizado de ensayos con ICC 0,94-0,97, igualando/superando consistencia humana en rúbricas estructuradas (Yavuz, 2025).
Qué NO pueden todavía (brecha de autonomía [MEDIDO])
- Tareas reales de asistente general: humanos 92% vs agentes 15% (GAIA).
- Web complejo: humanos 78,24% vs agentes 14,41% (WebArena).
- Interacción dinámica / control dual: agentes SOTA <50% y muy inconsistentes (pass^8 <25% en retail) cuando deben seguir reglas de dominio o guiar a un usuario (τ-bench, τ²-bench).
- Memoria multi-sesión / "cuándo NO actuar": tan bajo como 12% en la subcategoría de memoria agéntica (BFCL).
- Ejecución física y criterio social: tareas manuales (soldadura 0,05) y dinámicas de grupo siguen requiriendo humano (ILO WP140).
Velocidad de mejora (la variable que gobierna los escenarios)
- METR Time Horizon: horizonte al 50% de éxito ≈ 50-60 min hoy (Claude 3.7) [MEDIDO].
- Ritmo de duplicación: cada ~7 meses (195,8 d) 2019-2025; acelerado post-2023 a 130,8 d (~4,3 meses, +20% más rápido) bajo TH1.1 (METR, 2026) [MEDIDO].
- Extrapolación: si la tendencia se mantiene, en ~5 años la IA automatizaría tareas de software que hoy cuestan un mes de experto [ILUSTRATIVO — extrapolación de los autores, no medición].
Implicaciones para educación de adultos (neutral)
- Creación: planes de lección diferenciados en segundos; recontextualización instantánea (Khan, Brave New Words).
- Personalización: bucles adaptativos sobre telemetría del alumno → aborda el "problema de las 2 sigma" (tutoría 1-a-1 antes económicamente inviable) (Bloom; Susskind; Mollick).
- Evaluación auténtica: giro de opción-múltiple a evaluación conversacional que analiza proceso e intención; el agente puede emitir un informe de proceso ("dar fe" de la competencia) (Khan; authentic-assessment lit).
- Tutoría socrática 24/7: guía por preguntas, no entrega respuestas; sube el suelo para quien no tiene acceso a tutor humano.
- Gap del corpus: no hay evidencia sobre IA en formación de habilidades psicomotoras/físicas complejas.
Eslabón
Responde RQ-6, RQ-7, RQ-12. Tensión clave para las derivadas: la IA abarata radicalmente la PRODUCCIÓN de contenido/tutoría, pero la AUTONOMÍA fiable en tareas reales sigue baja → el cuello de botella se desplaza a fiabilidad, juicio, verificación y transferencia (alimenta R19-R21 y RQ-22).