Provocar la lista de lectura de aprendizaje automático
Objetivo
El propósito de este plan de estudios es ayudar a los nuevos empleados a aprender antecedentes en el aprendizaje automático, con un enfoque en los modelos de idiomas. He tratado de lograr un equilibrio entre los documentos que son relevantes para implementar ML en producción y técnicas que importan para la escalabilidad a largo plazo.
Si aún no trabaja en Elicit, estamos contratando ingenieros de ML y software.
Cómo leer
Orden de lectura recomendada:
- Lea "Nivel 1" para todos los temas
- Lea "Nivel 2" para todos los temas
- Etc
Agregado después de 2024/4/1
Tabla de contenido
- Fundamentos
- Introducción al aprendizaje automático
- Transformadores
- Arquitecturas de modelos de base clave
- Entrenamiento y Finetuning
- Estrategias de razonamiento y tiempo de ejecución
- Razonamiento en contexto
- Descomposición de la tarea
- Debate
- Uso de herramientas y andamios
- Honestidad, realidad y epistémica
- Aplicaciones
- Ciencia
- Pronóstico
- Búsqueda y clasificación
- Ml en la práctica
- Despliegue de producción
- Puntos de referencia
- Conjuntos de datos
- Temas avanzados
- Modelos mundiales y causalidad
- Planificación
- Incertidumbre, calibración y aprendizaje activo
- Interpretabilidad y edición de modelos
- Aprendizaje de refuerzo
- El panorama general
- AI Escalado
- AI SEGURIDAD
- Impactos económicos y sociales
- Filosofía
- Mantenedor
Fundamentos
Introducción al aprendizaje automático
Nivel 1
- Una breve introducción al aprendizaje automático
- Pero, ¿qué es una red neuronal?
- Descenso de gradiente, cómo aprenden las redes neuronales
Nivel 2
- Una comprensión intuitiva de la backpropagation
- ¿Qué está haciendo realmente la backpropagation?
- Una introducción al aprendizaje de refuerzo profundo
Nivel 3
- La introducción deletrea a las redes neuronales y la retroceso: construcción de micrograd
- Cálculo de backpropagation
Transformadores
Nivel 1
- Pero, ¿qué es un GPT? Introducción visual a transformadores
- Atención en los transformadores, explicó visualmente
- ¿Atención? ¡Atención!
- El transformador ilustrado
- El GPT-2 ilustrado (visualización de modelos de lenguaje de transformador)
Nivel 2
- Construyamos el tokenizador GPT
- Traducción del automóvil neural aprendiendo conjuntamente a alinearse y traducir
- El transformador anotado
- La atención es todo lo que necesitas
Nivel 3
- Una encuesta práctica sobre transformadores más rápidos y ligeros
- TABPFN: un transformador que resuelve pequeños problemas de clasificación tabular en un segundo
- Grokking: Generalización más allá del sobreajuste en pequeños conjuntos de datos algorítmicos
- Un marco matemático para los circuitos de transformadores
Nivel 4+
- Capacidades de composición de transformadores autorregresivos: un estudio sobre tareas sintéticas e interpretables
- Memorizando transformadores
- Las capas del avance del transformador son recuerdos de valor clave
Arquitecturas de modelos de base clave
Nivel 1
- Los modelos de idiomas son alumnos multitarea no supervisados (GPT-2)
- Los modelos de idiomas son alumnos de pocos disparos (GPT-3)
Nivel 2
- LLAMA: Modelos de lenguaje de base abierto y eficiente (LLAMA)
- Modelando eficientemente secuencias largas con espacios de estado estructurados (video) (S4)
- Explorando los límites del aprendizaje de transferencia con un transformador de texto a texto unificado (T5)
- Evaluación de modelos de idiomas grandes capacitados en código (OpenAI Codex)
- Modelos de lenguaje de capacitación para seguir las instrucciones con comentarios humanos (Operai Instrucc)
Nivel 3
- Mistral 7b (Mistral)
- Mixtral of Experts (Mixtral)
- Géminis: una familia de modelos multimodales altamente capaces (Géminis)
- Mamba: modelado de secuencia de tiempo lineal con espacios de estado selectivos (Mamba)
- Modelos de lenguaje de instrucción de escala (FLAN)
Nivel 4+
- Modelos de consistencia
- Tarjeta modelo y evaluaciones para modelos Claude (Claude 2)
- Olmo: Acelerar la ciencia de los modelos de idiomas
- Informe técnico de Palm 2 (Palm 2)
- Los libros de texto son todo lo que necesita II: Phi-1.5 Informe técnico (PHI 1.5)
- Tuning de instrucciones visuales (Llava)
- Un asistente general de idiomas como laboratorio para la alineación
- Los modelos de lenguaje Finetuned son alumnos de cero disparos (Google Instruct)
- Galactica: un modelo de lenguaje grande para la ciencia
- LAMDA: modelos de idioma para aplicaciones de diálogo (diálogo de Google)
- OPT: Open Modelos de lenguaje de transformador pre-capacitado (Meta GPT-3)
- Palma: modelado de lenguaje de escala con vías (palma)
- Síntesis de programa con modelos de idiomas grandes (Google Codex)
- Modelos de lenguaje de escala: métodos, análisis e ideas de la capacitación Gopher (Gopher)
- Resolver problemas de razonamiento cuantitativo con modelos de idiomas (Minerva)
- UL2: Paradigmas de aprendizaje de idiomas unificador (UL2)
Entrenamiento y Finetuning
Nivel 2
- Programas de tensor V: Ajuste de grandes redes neuronales a través de la transferencia de hiperparameter de disparo cero
- Aprender a resumir con la retroalimentación humana
- VERIFICADORES DE CONSEJO para resolver problemas de palabras matemáticas
Nivel 3
- Modelos lingüísticos previos al entrenamiento con preferencias humanas
- Generalización de débil a fuerte: provocar capacidades fuertes con una supervisión débil
- El ajuste fino eficiente de los parámetros de tiro es mejor y más barato que el aprendizaje en contexto
- Lora: adaptación de bajo rango de modelos de idiomas grandes
- Traducción automática neuronal no supervisada solo con modelos de lenguaje generativo
Nivel 4+
- Más allá de los datos humanos: escala autotrenaje para la resolución de problemas con modelos de lenguaje
- Mejora de la generación de código mediante la capacitación con retroalimentación del lenguaje natural
- El modelado de idiomas es compresión
- Lima: menos es más para la alineación
- Aprender a comprimir las indicaciones con tokens GIST
- Perdido en el medio: cómo los modelos de idiomas usan contextos largos
- Qlora: Fineting eficiente de LLM cuantificados
- STORM STAR: los modelos de idiomas pueden enseñarse a pensar antes de hablar
- Autodenrayamiento reforzado (descanso) para modelado de idiomas
- Resolviendo geometría de la Olimpiada sin manifestaciones humanas
- Decir, no mostrar: los hechos declarativos influyen en cómo se generalizan los LLM
- Los libros de texto son todo lo que necesitas
- Tinystories: ¿Qué tan pequeños pueden ser los modelos de idiomas y seguir hablando inglés coherente?
- Capacitación de modelos de idiomas con retroalimentación del idioma a escala
- Transformadores completos de Turing: dos transformadores son más poderosos que uno
- BYT5: Hacia un futuro sin token con modelos de byte-byte previamente entrenados
- Las propiedades de distribución de datos impulsan el aprendizaje emergente en contexto en Transformers
- Diffusion-LM mejora la generación de texto controlable
- Ernie 3.0: El conocimiento a gran escala mejoró la capacitación para la comprensión del lenguaje y la generación
- Capacitación eficiente de modelos de idiomas para llenar el medio
- Ext5: Hacia una escala extrema de múltiples tareas para el aprendizaje de transferencia
- Ajuste de prefijo: optimización de indicaciones continuas para la generación
- Autoatención entre puntos de datos: ir más allá de los pares de entrada individuales en el aprendizaje profundo
- Aprendizaje de pocos disparos verdaderos con indicaciones: una perspectiva del mundo real
Estrategias de razonamiento y tiempo de ejecución
Razonamiento en contexto
Nivel 2
- La cadena de pensamiento provocación provoca un razonamiento en modelos de idiomas grandes
- Los modelos de idiomas grandes son razonadores de disparo cero (pensemos paso a paso)
- La autoconsistencia mejora el razonamiento de la cadena de pensamiento en los modelos de idiomas
Nivel 3
- Razonamiento de la cadena de pensamiento sin solicitar
- ¿Por qué pensar paso a paso? El razonamiento surge de la localidad de la experiencia
Nivel 4+
- Baldur: generación y reparación a prueba de toda la vida con modelos de idiomas grandes
- La capacitación de consistencia de sesgo acuático reduce el razonamiento sesgado en la cadena de pensamiento
- Razonamiento certificado con modelos de idiomas
- Búsqueda de hipótesis: razonamiento inductivo con modelos de idiomas
- LLMS y el corpus de abstracción y razonamiento: éxitos, fallas y la importancia de las representaciones basadas en objetos
- Los modelos de idiomas grandes aún no pueden autocorrigir el razonamiento
- Stream of Search (SOS): Aprender a buscar en el lenguaje
- Capacitación de la cadena de pensamiento a través de la inferencia latente-variable
- Repensar el papel de las demostraciones: ¿Qué hace que el aprendizaje en contexto funcione?
- Competencia de forma de superficie: por qué la respuesta de mayor probabilidad no siempre es correcta
Descomposición de la tarea
Nivel 1
- Supervisar el proceso, no los resultados
- Supervisar a los alumnos fuertes amplificando a expertos débiles
Nivel 2
- Árbol de pensamientos: resolución deliberada de problemas con modelos de idiomas grandes
- Cognición factorizada
- Destilación y amplificación iterada
- Resumiendo libros recursivamente con comentarios humanos
- Resolver problemas de palabras matemáticas con comentarios basados en procesos y de resultados
Nivel 3
- Verificación factorizada: detectar y reducir la alucinación en resúmenes de documentos académicos
- Razonamiento fiel utilizando modelos de idiomas grandes
- Humanos consultando HCH
- Descomposición iterada: Mejora de las preguntas y respuestas de la ciencia supervisando los procesos de razonamiento
- Cascadas de modelos de idiomas
Nivel 4+
- Descontextualización: hacer oraciones independientes
- Primer cognición factorizado
- Gráfico de pensamientos: Resolver problemas elaborados con modelos de idiomas grandes
- Parsel: un marco de lenguaje natural unificado para el razonamiento algorítmico
- Cadenas de IA: interacción transparente y controlable Human-AI al encadenar las indicaciones del modelo de lenguaje grandes
- Desafiando las tareas de Big Bench y si la cadena de pensamiento puede resolverlas
- Evaluar los argumentos un paso a la vez
- La solicitud de menor a mayoría permite un razonamiento complejo en modelos de idiomas grandes
- Información de Maieutic: razonamiento lógicamente consistente con explicaciones recursivas
- Medir y reducir la brecha de composición en los modelos de lenguaje
- PAL: modelos de idiomas asistidos por programas
- React: sinergizando razonamiento y actuación en modelos de idiomas
- Inferencia de selección: explotar modelos de lenguaje grande para un razonamiento lógico interpretable
- Muestre su trabajo: scratchpads para computación intermedia con modelos de idiomas
- Summ^n: un marco de resumen de etapas múltiples para diálogos y documentos de entrada larga
- ThinkSum: razonamiento probabilístico sobre conjuntos utilizando modelos de lenguaje grandes
Debate
Nivel 2
Nivel 3
- El debate ayuda a supervisar expertos poco confiables
- El debate de dos turnos no ayuda a los humanos a responder preguntas de comprensión de lectura dura
Nivel 4+
- Seguridad de IA escalable a través de un debate doblemente eficiente
- Mejora de la fáctica y el razonamiento en los modelos de idiomas a través del debate multiagente
Uso de herramientas y andamios
Nivel 2
- Medición del impacto de las mejoras posteriores al entrenamiento
- WebGPT: cuestionamiento asistido por el navegador, respuesta de retroalimentación humana
Nivel 3
- Las capacidades de IA pueden mejorarse significativamente sin una reentrenamiento costoso
- Descubrimiento de modelos estadísticos automatizados con modelos de idiomas
Nivel 4+
- DSPY: Compilar el modelo de lenguaje declarativo llamadas a tuberías de administración automática
- Pridbreeder: superación autorreferencial a través de la pronta evolución
- Optimizador autodidacta (parada): generación de código de administración autónoma recursiva
- Voyager: un agente incorporado abierto con modelos de idiomas grandes
- Regal: refactorización de programas para descubrir abstracciones generalizables
Honestidad, realidad y epistémica
Nivel 2
- Modelos de autocritaje para ayudar a los evaluadores humanos
Nivel 3
- ¿Qué evidencia encuentran los modelos de idiomas convincentes?
- Cómo atrapar a un mentiroso AI: detección de mentiras en Black-Box LLMS haciendo preguntas no relacionadas
Nivel 4+
- Los modelos de idiomas no siempre dicen lo que piensan: explicaciones infieles en la provisión de la cadena de pensamiento
- Factualidad de forma larga en modelos de idiomas grandes
Aplicaciones
Ciencia
Nivel 3
- ¿Pueden los modelos de idiomas grandes proporcionar comentarios útiles sobre los trabajos de investigación? Un análisis empírico a gran escala
- Los modelos de idiomas grandes codifican el conocimiento clínico
- El impacto de los modelos de lenguaje grande en el descubrimiento científico: un estudio preliminar que utiliza GPT-4
- Un conjunto de datos de preguntas y respuestas de búsqueda de información ancladas en trabajos de investigación
Nivel 4+
- ¿Pueden los modelos de Foundation Generalist para superar el ajuste de uso especial? Estudio de caso en medicina
- Nougat: comprensión óptica neuronal para documentos académicos
- SCIM: apoyo inteligente de descremado para trabajos científicos
- Synergpt: aprendizaje en contexto para predicción personalizada de la sinergia de drogas y diseño de fármacos
- Hacia un diagnóstico diferencial preciso con modelos de idiomas grandes
- Hacia un punto de referencia para la comprensión científica en humanos y máquinas
- Un motor de búsqueda para el descubrimiento de desafíos y direcciones científicas
- Una revisión sistemática completa se completó en 2 semanas utilizando herramientas de automatización: un estudio de caso
- Hecho o ficción: verificación de afirmaciones científicas
- Multi-xscience: un conjunto de datos a gran escala para resumen de artículos científicos extremos de artículos múltiples
- Peer: un modelo de lenguaje colaborativo
- PubMedqa: un conjunto de datos para la respuesta de la investigación biomédica respondiendo
- SCICO: Coreferencia jerárquica de discuminación cruzada para conceptos científicos
- Scitail: un conjunto de datos de implicación textual de la respuesta de la pregunta científica
Pronóstico
Nivel 3
- Predicciones de AI-AI: los asistentes de LLM mejoran la precisión del pronóstico humano
- Acercarse a los pronósticos a nivel humano con modelos lingüísticos
- ¿Son efectivos los transformadores para el pronóstico de series de tiempo?
- Pronosticar futuros eventos mundiales con redes neuronales
Búsqueda y clasificación
Nivel 2
- Aprender representaciones densas de frases a escala
- Incrustos de texto y código por pre-entrenamiento contrastante (incrustaciones de OpenAI)
Nivel 3
- Los modelos de idiomas grandes son rango de texto efectivo con solicitud de clasificación por pares
- No todas las bases de datos de vectores son iguales
- Reino: Modelo de lenguaje de recuperación de recuperación previa al entrenamiento
- Generación de recuperación augtada para tareas de PNL intensivas en conocimiento
- Recuperación de tareas con instrucciones
Nivel 4+
- Rankzephyr: ¡Rergumento de listado cero efectivo y robusto es muy fácil!
- Algunos errores comunes en la evaluación IR y cómo se pueden evitar
- Aumentando los motores de búsqueda con agentes interactivos
- Colbert: búsqueda eficiente y efectiva de pasaje a través de la interacción tardía contextualizada sobre Bert
- Ir más allá de la precisión de la tarea aguas abajo para la evaluación comparativa de recuperación de información
- UnifiedQA: límites de formato de cruce con un solo sistema de control de calidad
Ml en la práctica
Despliegue de producción
Nivel 1
- Aprendizaje automático en Python: desarrollos principales y tendencias tecnológicas en ciencias de datos, aprendizaje automático e IA
- Aprendizaje automático: la tarjeta de crédito de alto interés de la deuda técnica
Nivel 2
- Diseño de aplicaciones intensivas en datos
- Una receta para capacitar a las redes neuronales
Puntos de referencia
Nivel 2
- GPQA: un punto de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado
- SWE-Bench: ¿Pueden los modelos de idiomas resolver problemas de GitHub en el mundo real?
- AHERRYQA: Medir cómo los modelos imitan las falsedades humanas
Nivel 3
- Flex: Evaluación unificadora para NLP de pocos disparos
- Evaluación holística de modelos de idiomas (Helm)
- Medición de la comprensión de lenguaje multitarea masivo
- Raft: un punto de referencia de clasificación de texto de pocos disparos del mundo real
- Aprendizaje de pocos disparos verdaderos con modelos de idiomas
Nivel 4+
- Gaia: un punto de referencia para asistentes generales de IA
- ConditionalQA: un conjunto de datos de comprensión de lectura compleja con respuestas condicionales
- Medición de la resolución de problemas matemáticos con el conjunto de datos de matemáticas
- Calidad: Pregunta respondiendo con textos de entrada largos, ¡sí!
- Scrolls: comparación estandarizada sobre secuencias de lenguaje largo
- ¿Qué se necesitará para arreglar la evaluación comparativa en la comprensión del lenguaje natural?
Conjuntos de datos
Nivel 2
- Rastreo común
- La pila: un conjunto de datos de 800 GB de texto diverso para modelado de idiomas
Nivel 3
- Inpaña de diálogo: convertir documentos en diálogo
- MS Marco: un conjunto de datos de comprensión de lectura máquina generada por humanos
- Gráfico académico de Microsoft
- TLDR9+: un recurso a gran escala para resumen extremo de las publicaciones en las redes sociales
Temas avanzados
Modelos mundiales y causalidad
Nivel 3
- Representaciones mundiales emergentes: explorar un modelo de secuencia entrenado en una tarea sintética
- Desde modelos de palabras a modelos mundiales: traducir del lenguaje natural al lenguaje probabilístico del pensamiento
- Los modelos de idiomas representan el espacio y el tiempo
Nivel 4+
- Amortizando la inferencia intratable en modelos de idiomas grandes
- Cladder: Evaluación de razonamiento causal en modelos de idiomas
- Optimización bayesiana causal
- Razonamiento causal y modelos de idiomas grandes: abrir una nueva frontera para la causalidad
- Agentes generativos: simulacros interactivos del comportamiento humano
- Aprendizaje pasivo de estrategias causales activas en agentes y modelos de idiomas
Planificación
Nivel 4+
- Más allá de A*: mejor planificación con transformadores a través de Bootstrapping de dinámica de búsqueda
- Arquitecturas cognitivas para agentes lingüísticos
Incertidumbre, calibración y aprendizaje activo
Nivel 2
- Los expertos no hacen trampa: aprendiendo lo que no sabes predeciendo pares
- Una línea de base simple para la incertidumbre bayesiana en el aprendizaje profundo
- PLEX: Hacia la fiabilidad utilizando extensiones de modelo grande previamente
Nivel 3
- Inferencia de preferencia activa utilizando modelos de lenguaje y razonamiento probabilístico
- Provocar preferencias humanas con modelos de idiomas
- Aprendizaje activo adquiriendo ejemplos de contraste
- Describir las diferencias entre las distribuciones de texto con lenguaje natural
- Enseñar modelos para expresar su incertidumbre en las palabras
Nivel 4+
- Hacer experimentos y revisar las reglas con lenguaje natural y razonamiento probabilístico
- ESTAR GATE: enseñando modelos de idiomas para hacer preguntas aclaratorias
- Prueba activa: evaluación del modelo de eficiencia de muestra
- Estimación de incertidumbre para los modelos de recompensa del idioma
Interpretabilidad y edición de modelos
Nivel 2
- Descubrir el conocimiento latente en modelos de idiomas sin supervisión
Nivel 3
- Interpretabilidad a escala: identificación de mecanismos causales en Alpaca
- Analizar mecánicamente los efectos del ajuste fino en las tareas definidas en procedimiento
- Ingeniería de representación: un enfoque de arriba hacia abajo para la transparencia de IA
- Estudiar la generalización del modelo de lenguaje grande con funciones de influencia
- Interpretabilidad en la naturaleza: un circuito para la identificación de objetos indirectos en GPT-2 pequeño
Nivel 4+
- Características del libro de códigos: interpretabilidad escasa y discreta para las redes neuronales
- Provocar predicciones latentes de transformadores con la lente sintonizada
- ¿Cómo los modelos de lenguaje unen a las entidades en contexto?
- Abrir la caja negra de IA: síntesis del programa a través de la interpretabilidad mecanicista
- Circuitos de características dispersas: descubrir y editar gráficos causales interpretables en modelos de idiomas
- Descubriendo los algoritmos de mesa-optimización en los transformadores
- Edición de modelo rápido a escala
- RE-BASIN GIT: fusionar modelos simetrías de permutación de módulos
- Localización y edición de asociaciones fácticas en GPT
- Memoria de edición de masa en un transformador
Aprendizaje de refuerzo
Nivel 2
- Optimización de preferencias directas: su modelo de idioma es secretamente un modelo de recompensa
- Reflexión: Agentes del lenguaje con aprendizaje de refuerzo verbal
- Dominar el ajedrez y el shogi por autocontrol con un algoritmo general de aprendizaje de refuerzo (Alphazero)
- Muzero: Mastering Atari, Go, Chess and Shogi planificando con un modelo aprendido
Nivel 3
- Problemas abiertos y limitaciones fundamentales del aprendizaje de refuerzo de la retroalimentación humana
- Alphastar: Dominar el juego de estrategia en tiempo real Starcraft II
- Transformador de decisión
- Dominar los juegos de Atari con datos limitados (eficienteZero)
- Mastering Stratego, el clásico juego de información imperfecta (DeepNash)
Nivel 4+
- Alphastar Unplugged: aprendizaje de refuerzo fuera de línea a gran escala
- Aprendizaje de refuerzo bayesiano con carga cognitiva limitada
- Aprendizaje de prefence contrastante: aprender de la retroalimentación humana sin RL
- Ajedrez de nivel de gran maestro sin búsqueda
- Un enfoque basado en datos para aprender a controlar las computadoras
- Adquisición del conocimiento del ajedrez en Alphazero
- Jugador de Juegos
- Aprendizaje de refuerzo de recuperación de recuperación
El panorama general
AI Escalado
Nivel 1
- Leyes de escala para modelos de lenguaje neuronal
- Velocidades de despegue
- La amarga lección
Nivel 2
- Ai y calcular
- Leyes de escala para la transferencia
- Modelos de lenguaje grande de cómputo de entrenamiento (chinchilla)
Nivel 3
- Habilidades emergentes de modelos de idiomas grandes
- Trascender las leyes de escala con 0.1% de cómputo adicional (U-Palm)
Nivel 4+
- Física de modelos de idiomas: Parte 3.3, Leyes de escala de capacidad de conocimiento
- Tendencias de la ley de potencia en el ritmo de velocidad y el aprendizaje automático
- Leyes de escala para el aprendizaje de refuerzo de un solo agente
- Más allá de las leyes de escala neuronal: la escala de la ley de poder de batir a través de la poda de datos
- Habilidades emergentes de modelos de idiomas grandes
- Escalado de leyes de escala con juegos de mesa
AI SEGURIDAD
Nivel 1
- Tres impactos de la inteligencia de la máquina
- ¿Cómo se ve el fracaso?
- Sin contramedidas específicas, el camino más fácil hacia la IA transformadora probablemente conduce a la adquisición de IA
Nivel 2
- Una descripción general de los riesgos catastróficos de IA
- Aclarando "cómo se ve el fracaso" (Parte 1)
- RL profundo de las preferencias humanas
- El problema de alineación desde una perspectiva de aprendizaje profundo
Nivel 3
- Scheming AIS: ¿AIS falsa la alineación durante el entrenamiento para obtener poder?
- Medición del progreso en supervisión escalable para modelos de idiomas grandes
- Riesgos de la optimización aprendida en sistemas avanzados de aprendizaje automático
- Alineación de agentes escalables a través del modelado de recompensas
Nivel 4+
- Decepción de IA: una encuesta de ejemplos, riesgos y posibles soluciones
- Puntos de referencia para detectar la manipulación de medidas
- Ajedrez como motivo de prueba para el enfoque Oracle a la seguridad de la IA
- Cierre las puertas a un futuro inhumano: cómo y por qué deberíamos elegir no desarrollar inteligencia artificial de uso general sobrehumana
- Evaluación del modelo para riesgos extremos
- Informes responsables para el desarrollo de la IA fronteriza
- Casos de seguridad: cómo justificar la seguridad de los sistemas AI avanzados
- Agentes durmientes: entrenamiento de LLM engañosos que persisten a través del entrenamiento de seguridad
- Informe técnico: los modelos de idiomas grandes pueden engañar estratégicamente a sus usuarios cuando se ponen a presión
- Tensor Trust: ataques de inyección inmediata interpretables desde un juego en línea
- Herramientas para verificar los datos de capacitación de los modelos neuronales
- Hacia un científico cauteloso IA con límites de seguridad convergentes
- Alineación de los agentes del idioma
- Provocar conocimiento latente
- Modelos de lenguaje de equipo rojo para reducir los daños: métodos, comportamientos de escala y lecciones aprendidas
- Modelos de lenguaje de equipo rojo con modelos de idiomas
- Problemas sin resolver en ML Safety
Impactos económicos y sociales
Nivel 3
- Crecimiento explosivo de AI Automation: una revisión de los argumentos
- Los modelos de idiomas pueden reducir la asimetría en los mercados de la información
Nivel 4+
- Bridging the Human-AI Knowledge Gap: concepto de descubrimiento y transferencia en Alphazero
- Modelos de base y uso justo
- Los GPT son GPT: una mirada temprana al potencial de impacto del mercado laboral de los modelos de idiomas grandes
- Niveles de AGI: operacionalización del progreso en el camino hacia AGI
- Oportunidades y riesgos de LLM para la deliberación escalable con polis
- Sobre las oportunidades y riesgos de los modelos fundamentales
Filosofía
Nivel 2
- Significado sin referencia en modelos de idiomas grandes
Nivel 4+
- Conciencia en inteligencia artificial: ideas de la ciencia de la conciencia
- Los filósofos deben desarrollarse, teorizar y usar IA filosóficamente relevante
- Hacia la evaluación de los sistemas de IA para el estado moral utilizando autoinformes
Mantenedor
[email protected]