Este proyecto cubre 6 módulos de tema principales , visión por computadora y temas de algoritmo de percepción , temas básicos y marco de aprendizaje profundo , conducción autónoma, temas verticales médicos y de la industria inteligentes , temas de código de proyectos con teatro a mano y excelentes temas de recomendación de recursos de código abierto . Continuaremos organizando y resumiendo las últimas preguntas de la entrevista y analizaremos estas preguntas en detalle. Además de los escenarios de la entrevista, nuestras preguntas también provienen de pensar en las últimas innovaciones académicas en papel. Esperamos convertirnos en un material auxiliar efectivo sobre nuestra investigación académica, innovación laboral y ofrecer entrevistas.
Las preguntas de la entrevista del algoritmo 2024 continúan actualizándose. Para obtener más detalles, siga el algoritmo de aprendizaje profundo 2024 y la guía de entrevistas de Big Model. Si le gusta este proyecto, haga clic en la estrella en la esquina superior derecha. También pueden crear el proyecto juntos.
El proyecto continúa actualizando:

| 01. Modelo ajustado: ¿Cómo se utilizan los principios de Lora y Ptuning comúnmente métodos de ajuste fino para modelos grandes diferentes del ajuste fino tradicional? |
|---|
| 30. Modelo ajustado: ¿la diferencia entre el ajuste de instrucciones y los métodos de ajuste de inmediato? |
| 07. Modelo ajustado: razones para la disminución en el rendimiento de LLM después de supervisar el ajuste fino de SFT |
| 18. Modelo ajustado: ¿Cómo entrenar a Lora para un modelo grande ajustado? |
| 19. Modelo de ajuste fino: ¿Cómo inicializar la matriz de Lora? ¿Por qué inicializarse a todos 0? |
| 33. Modelo Autorización fina: al realizar operaciones SFT, ¿se debe utilizar el chat o la base para el modelo base? |
| 03. Estructura del modelo: ¿por qué la mayoría de los grandes modelos actuales con estructuras de decodificadores solo |
| 15. Estructura del modelo: ¿Puedes resumir el proceso de capacitación de ChatGPT? |
| 16. Estructura del modelo: ¿Cuáles son los marcadores en el contexto de un modelo de lenguaje grande (LLMS)? |
| 40. Estructura del modelo: ¿Cuál es la diferencia entre la normalización de la capa de GPT3 y Llama? |
| 04. Optimización del modelo: cómo aliviar el problema del repetidor de LLMS |
| 14. Optimización del modelo: ¿Cuáles son las estrategias para reducir las alucinaciones en modelos de idiomas grandes (LLM)? |
| 29. Optimización del modelo: ¿Cómo mejorar la generalización rápida de modelos de idiomas grandes? |
| 34. Optimización del modelo: durante el proceso de pre-entrenamiento de modelos grandes de código abierto, libros, documentos y otros datos. ¿Cómo organizar y procesar esta parte de los datos? |
| 38. Optimización del modelo: ¿Cómo resolver el problema catastrófico de olvido del ajuste de chatglm? |
| 10. ¿Cuáles son las ventajas de Bert para las tareas de clasificación, cuáles son los trabajos de mejora posteriores? |
| 23. ¿Cuáles son las tareas de pre-entrenamiento para Bert? ¿Por qué presentar la próxima tarea de predicción de oraciones? |
| 37. ¿Se utilizan los mecanismos de codificación de posición y atención durante el proceso de pre-entrenamiento de Bert? |
| 38. Langchain se usa generalmente como un "adhesivo" para conectar los diversos módulos necesarios para construir aplicaciones LLM juntas. Por favor presente sus módulos centrales? |
| 39. Optimización del modelo: para mejorar la eficiencia de inferencia de LLAMA 3, ¿la estructura del modelo adopta la atención de consulta agrupada (GQA) para describir brevemente este módulo? |
| 40. Arquitectura modelo: ¿Cuál es el mecanismo de atención utilizado en Llama2? |
| 41. Arquitectura de modelos: ¿Has aprendido sobre la pérdida de varios modelos principales en la etapa de pre-entrenamiento? ¿Cuáles son las similitudes y diferencias? |
| 42. Arquitectura del modelo: ¿Cuáles son las características y los escenarios de aplicación de la codificación de posición de rotación (cuerda) y la codificación de posición de coartada? |
| 43. Arquitectura del modelo: ¿Qué tres componentes incluye la arquitectura de red general del modelo QWEN-VL? Presente sus funciones y fuentes por separado. |
| 44. Arquitectura del modelo: ¿Cómo se procesan las imágenes para la entrada al modelo QWEN-VL? ¿Qué tipo de secuencia de características obtiene después de pasar por el codificador visual y el adaptador? |
| 45. Preparación de datos: ajusta el formato del conjunto de capacitación de un modelo de lenguaje grande? ¿Cómo manejar los datos de capacitación generados por GPT? |
| 46. Modelo ajustado: ¿Cuáles son las limitaciones del ajuste fino supervisado (SFT) en comparación con RLHF? Si los datos SFT se limpian y fabrican con RM, ¿puede reemplazar RLHF? |
| 47. Preparación de datos: ¿Qué algoritmos se utilizan para la reutilización de datos al procesar el diálogo y los datos del corpus, y cuáles son las mejoras de datos realizadas para la etapa de entrenamiento del corpus? |
| 48. Preparación de datos: Llama3.1 ha sido ajustado durante varias rondas. ¿Cuáles son los datos de capacitación del modelo de recompensa y los datos de capacitación de SFT? |
| 49. Razonamiento del modelo: ¿Cómo aliviar las ilusiones generalizadas y de sentido estrecho que aparecen en modelos grandes bajo el paradigma técnico existente? |
| 50. Entrenamiento modelo: ¿Cuáles son las ventajas del marco de capacitación distribuido en comparación con el tortrón nativo de Pytorch? |
| 51. Razonamiento del modelo: cuando el razonamiento de LLM, los datos múltiples son paralelos en la etapa de preflho, que es un cuello de botella informático. ¿Cuáles son los métodos de aceleración correspondientes? |
| 52. Razonamiento del modelo: cuando el razonamiento de LLM, la etapa de decodificación itera un token a la vez, y la memoria consume más tiempo. ¿Cuáles son los métodos de aceleración correspondientes? |
| 53. Optimización del modelo: desde un punto de vista arquitectónico, LLM optimiza principalmente la atención y FFN. ¿Cuáles son las optimizaciones de atención? |
| 54. Razonamiento del modelo: ¿Cuál es el uso de la memoria de la gran capacitación de modelos y el ajuste fino? |
| 55. Entrenamiento modelo: ¿Dónde está el tiempo que pasa en la fase de entrenamiento del modelo grande? Por ejemplo, implica entrenamiento con calorías kilocales. |
| 02. En el modelo visual, ¿cuáles son las innovaciones clave en el diseño arquitectónico de Dinov2? |
|---|
| 01. ¿Cómo usar el texto para controlar la generación en difusión estable? |
| 21. ¿Cuáles son los principales problemas que resuelve la difusión en comparación con la difusión estable? |
| 22. Elija un paso de tiempo aleatorio para cada ronda de muestras de entrenamiento en difusión estable? |
| 39. ¿Cuál es el proceso de entrenamiento y predicción de difusión estable? |
| 11. Modelo base: SAM divide todos los tipos de promotores en la red y cómo ingresarlos a la red |
| 26. Modelo base: la capacitación de detectores de objetos generales a menudo usa imágenes de múltiples fuentes para capacitación. ¿Cómo lidiar con la nueva discriminación de categorías? |
| 27. Modelo base: ¿La conexión a tierra Dino puede detectar cualquier objetivo basado en las indicaciones de texto y describir brevemente la arquitectura básica de la red? |
| 28. Modelo base: ¿Cómo realizar la migración de muestras cero en el dino de conexión a tierra, como la detección de resistencia al condensador en la placa de circuito? |
| 29. Modelo base: ¿varias ideas para redes SAM livianas y trabajo representativo? |
| 30. Difusión estable XL ¿Es un modelo de difusión en cascada de dos etapas que describe brevemente su flujo de trabajo? |
| 31. El mecanismo de atención se utiliza para la información semántica del texto y la imagen, mientras que la condición de texto es tridimensional, mientras que la característica latente es cuatro dimensiones? |
| 32. ¿Dar ejemplos para introducir todo el proceso de codificación de texto del modelo SDXL? |
| 33. En los casos de falla clásicos de SD 1.4 y SD 1.5, ¿las razones esenciales y las soluciones de optimización para el problema de la cabeza que falta en el gato en la imagen generada? |
| 34. Dinov2 crea un nuevo conjunto de datos de alta calidad, en el que se utilizan deduplicación y recuperación en el proceso de procesamiento. Describir brevemente sus pasos? |
| 35. ¿Describe brevemente las funciones objetivas del nivel de imagen y el nivel de parche en el entrenamiento de Dinov2? |
| 36. ¿Cuáles son los vectores ocultos correspondientes a las piezas de desenmascaramiento y máscara en el decodificador del modelo MAE previamente capacitado visual? |
| 37. Problema del modelo: los modelos grandes multimodales a menudo usan MLP como mapeadores de visión para mapear las características visuales de los tokens para enviar el espacio de texto uno a uno. ¿Cómo comprimir la cantidad de tokens visuales para mejorar la eficiencia? |
| 38. Pregunta del modelo: ¿Cuántas maneras de alta resolución en los modelos VLM reducen el número de tokens? |
| 01. ¿Por qué se usa Layernorm en lugar de BatchNorm en Transformer? |
|---|
| 06. ¿Por qué el transformador usa el mecanismo de atención múltiple? |
| 32. La complejidad del cálculo de atención en el transformador y cómo mejorarlo? |
| 12. ¿Cómo se logra la fusión de la capa de Transformer y cómo la red de residuos y la norma de la capa operan la fusión |
| 41. ¿Cuál es la diferencia entre la atención MHA Bull y la atención de MQA múltiples? |
| 17. ¿Cuál es el uso de Softmax adaptativo en modelos de lenguaje grande? |
| 31. La destilación del conocimiento es un método para transferir el conocimiento de modelos complejos a modelos simples. ¿Cuáles son las mejoras para la destilación del conocimiento? |
| 42. ¿Cuál es el papel de la atención flash, la tecnología de optimización de razonamiento? |
| 43. Cero, tres etapas de optimizador de redundancia cero? |
| 44. ¿Qué cambios hizo Mamba a RNN para que pueda calcularse más rápido en la GPU? |
| 45. El mecanismo de atención de múltiples cabezas MHA es el componente central en el modelo de transformador y la idea central de la caché de KV y la optimización de GQA? |
| 46. ¿Cómo BPE (codificación de pares de bytes) y la tokenización afectan el proceso de rendimiento y capacitación del modelo? |
| 47. ¿Cuáles son las razones y soluciones para el pico de pérdida en la capacitación previa de modelos grandes superiores a 100B? |
| 01. ¿Dar ejemplos para ilustrar cómo el aprendizaje de refuerzo juega un papel? |
|---|
| 28. ¿Cómo entender la maximización de las recompensas en el aprendizaje de refuerzo? |
| 24. Después de la capacitación en datos de campo, la capacidad general a menudo disminuye. ¿Cómo aliviar la habilidad general de olvida del modelo? |
| 25. ¿Cómo lidiar con la alineación de los modos de datos en modelos de idiomas grandes (LLM)? |
| 35. ¿Puede proporcionar algunos ejemplos de problemas de alineación en modelos de idiomas grandes? |
| 01. Gran núcleo de convolución: ¿Pueden los núcleos más grandes lograr una mayor precisión en las redes CNN? |
|---|
| 02. Algoritmo de optimización: el método de coincidencia húngara se puede usar en temas como la definición de muestra positiva y negativa, e introducir su principio de implementación. |
| 03. Función de pérdida: cómo ajustar los parámetros de pérdida focal y qué problemas existen |
| 04. Modelo Ligero: dar ejemplos algunos modelos livianos representativos que se optimizan desde la cantidad de parámetros, la cantidad de operación del punto flotante y el retraso de la inferencia del modelo? |
| 05. Procesamiento de imágenes: defectos en la extracción de características de orbe y cómo mejorarla |
| 06. Módulo general: ¿Por qué la función FPN es una operación de adición? |
| 07. Módulo general: ¿Cómo comprender los dos características comunes de las características de mapa de mapa de fusión, concat y agregar? |
| 08. Módulo general: el mecanismo de atención del transformador a menudo utiliza la función Softmax. ¿Se puede usar Sigmoid en su lugar? |
| 09. Módulo general: ¿Cuáles son algunos principios básicos al diseñar modelos livianos? ¿Cuál lleva más tiempo que concat o agregar? |
| 10. Módulo general: las redes CNN livianas a menudo usan convoluciones separables profundas. ¿Cómo calcular las convoluciones de puntos de Flops y Mac? |
| 11. Función de pérdida: la pérdida focal admite etiquetas de categoría discretas como 0/1. ¿Qué se debe hacer si la etiqueta es un valor continuo de 0 ~ 1? |
| 12. Función de pérdida: la pérdida focal presta demasiada atención a muestras difíciles de dividirse, por lo que se verá afectado por valores atípicos. ¿Cómo atenuar las muestras fáciles de dividirse y las muestras particularmente difíciles de dividirse al mismo tiempo? |
| 13. Módulo general: la diferencia entre el entrenamiento de deserción y la inferencia. Durante la fase de entrenamiento, la salida de la neurona de una determinada capa se establece aleatoriamente a cero con la probabilidad de p. ¿Cómo lidiar con eso durante la inferencia? |
| 01. Función de pérdida: ¿Por qué es mejor Arcface que la cosface en la tarea de reconocimiento facial? |
|---|
| 02. Módulo general: Introducción de atención de CBAM |
| 03. Módulo general: cómo lograr la atención local |
| 04. Mejora de datos: Introducción a la mezcla y sus variantes |
| 05. Problemas de escenario: soluciones comunes a problemas de cola larga en tareas visuales |
| 06. Problema de escenario: qué hacer si varias categorías se superponen (pequeñas diferencias entre clases) en la tarea de clasificación y cómo diseñar la estructura de la red |
| 07. Problema de escenario: ¿Cómo lograr buenos resultados en el escenario B al marcar y entrenar al objetivo en el escenario A? |
| 08. Problema de escenario: cómo entrenar mejor una tarea de clasificación binaria, en la que el 80% de los datos se marcan correctamente y el 20% fallan |
| 09. Modelo base: una introducción a las innovaciones centrales del clip, cómo maneja la entrada de texto |
| 10. Modelo base: ¿Cómo manejan VIT y DEIT la entrada de secuencia de longitud variable? |
| 11. Modelo base: ¿Cómo el procesamiento de imágenes de entrada en VIT cambia el parche a token? |
| 01. Estrategia de coincidencia de muestra: cómo resolver el problema de la inconsistencia de GT causada por las muestras superpuestas en la etapa de entrenamiento FCOS |
|---|
| 02. Estrategia de coincidencia de muestras: ¿por qué Centernet puede eliminar NMS y la definición de muestras positivas y negativas? |
| 03. Estrategia de coincidencia de muestra: definición de muestra positiva y negativa de Yolov5, si un objetivo se asignará a una capa FPN diferente |
| 04. Estrategia de coincidencia de muestra: definición de muestra positiva y negativa de Yolov7 |
| 05. Estrategia de coincidencia de muestra: definición de muestra positiva y negativa de Yolov8 |
| 06. Estrategia de coincidencia de muestra: definición de muestra positiva y negativa de Yolov9 |
| 07. Estrategia de coincidencia de muestra: definición de muestra positiva y negativa de Yolov1 |
| 08. Estrategia de coincidencia de muestra: DETR utiliza la coincidencia de gráficos binarios para implementar la asignación de etiquetas, describa brevemente su proceso |
| 09. Estrategia de coincidencia de muestra: cómo resolver el problema de la ubicación de múltiples puntos de centro objetivo cerca uno del otro |
| 10. Estrategia de coincidencia de muestra: ¿Cómo eliminar la dependencia del ancla cuando el detector basado en el ancla está en la etapa de asignación de etiquetas de muestra positiva y negativa? |
| 11. Estrategia de coincidencia de muestra: cómo seleccionar muestras positivas y negativas para la detección de objetos afectará en gran medida el efecto de detección final. Por ejemplo, ¿cómo lidiar con ATSS? |
| 12. Optimización de la función de pérdida: el papel de la centralidad en la función de pérdida de FCOS |
| 12. Estrategia de correspondencia de muestra: FCOS construye etapas de muestra positivas y negativas. ¿Qué debo hacer si la superposición entre escamas grandes y pequeñas, como la manzana en los humanos y las manos? |
| 12. Optimización de la función de pérdida: FCOS utiliza el método basado en el área para resolver el problema de ambigüedad de la asignación de muestra positiva, ¿que no es muy amigable con los objetivos grandes? ¿Hay alguna mejor solución? |
| 13. Optimización de la función de pérdida: ¿Cuáles son los métodos que pueden resolver el problema del desequilibrio de muestras positivas y negativas en la detección de objetos? |
| 14. Detalles: ¿Cuál es la diferencia entre Yolov5 y Yolov4? |
| 15. Detalles: ¿Cuál es la diferencia entre la capa Foucs y la capa de paso de Yolov5? |
| 16. Detalles: El papel de la objeto en Yolov5, cómo obtener la puntuación de probabilidad de la salida final |
| 17. Problema del modelo: Introducción al proceso de datos serializados de la entrada de imagen al procesamiento del codificador en DETR. |
| 18. Pregunta de decodificación: ¿Explica el significado de la salida del modelo Yolov5 (1, 25200, 85) y el proceso de decodificación? |
| 19. Problema de decodificación: ¿Explica el significado de los tres encabezados de la salida del modelo Centernet Offset/Scale/Heatmap, y el proceso de decodificación? |
| 20. Problema de escenario: cómo calcular el cuadro de rotación iou en la detección de objetos |
| 21. Problema de escenario: ¿Cómo modificar la detección de objetos Yolov5 para lograr la detección de objetos de rotación? |
| 22. Problema de escenario: en el caso de Target abarrotado, ¿hay a menudo una detección falsa entre dos objetivos reales? |
| 23. Problema de escenario: puede establecer más anclajes anteriores para mejorar el rendimiento de pequeños objetivos y objetivos de tamaño anormal, y qué otros problemas existen además de la velocidad de cálculo |
| 24. Problema de escenario: en la actualidad, la detección a menudo requiere el algoritmo de umbral no máximo NMS como postprocesamiento. ¿Hay alguna solución para evitar el postprocesamiento de NMS? |
| 25. Pregunta del modelo: ¿Cómo comprender el concepto de consulta de objetos en DETR y proporcionar una mejor posición antes de cruzar la atención, cómo diseñar el modelo? |
| 26. Pregunta del modelo: ¿Cuáles son los canales de salida de la cabeza de Yolov5 y Yolov8 respectivamente? ¿Supongo que ahora es una tarea de detección de 2 categorías? |
| 01. Pregunta del modelo: en la estructura de red de unlo, ¿se necesita cuatro muestras descendentes para segmentar la red? |
|---|
| 02. Pregunta del modelo: ¿Por qué se puede podar unet ++? ¿Cómo decidir cuánto cortar? |
| 03. Pregunta del modelo: ¿Cómo lidiar con la salida de máscara de segmentación del objetivo al segmentar todo SAM de red? |
| 04. Problema del modelo: el efecto de inferencia del modelo local de Sam es significativamente peor que el de la versión web en línea. ¿Hay alguna forma de optimizar su efecto? |
| 05. Modelo base: ¿Qué problemas usa VIT directamente para tareas intensivas en predicción, como la detección de segmentación? |
| 06. Problema del modelo: ¿La diferencia entre los mapas de características de muestreo utilizando decodificación usando decodificador/convolución vacía/interpolación bilineal en el decodificador? |
| 07. Pregunta del modelo: la combinación de la agrupación máxima y la reducción de muestras comúnmente utilizadas en las piezas de codificación de la red de segmentación realizan la invariancia, pero tiene un cierto impacto en la precisión del posicionamiento. ¿Combinado con un campo aleatorio condicional totalmente conectado (CRF) para lograr la optimización de posicionamiento? |
| 08. Problema del modelo: la parte propt_encoder en SAM admite varios tipos de entradas. ¿Cómo codificar para las indicaciones de puntos? |
| 08. Pregunta del modelo: ¿La diferencia entre la estera y la segmentación tradicional, introducir el principio de la estera? |
| 01. Monológico 3D: Cómo definir muestras positivas y negativas en la etapa de entrenamiento FCOS3D |
|---|
| 02. Monológico 3D: Describa brevemente la estructura de la parte de la cabeza de FCOS3D y la definición del punto de referencia para predecir el desplazamiento del punto central 2.5D? |
| 03. Monocular 3D: Describa brevemente el proceso de decodificación de FCOS3D y cómo obtener el cuadro de destino tridimensional en la imagen 2D. |
| 04. Monocular 3D: FCOS3D y la mayoría de la profundidad de estimación 3D monocular basada en instancias o píxeles aislados, al tiempo que ignora la relación geométrica entre diferentes objetos. ¿Qué estrategias tienes que mejorar? |
| 05. Point Cloud 3D: El proceso de las nubes de punto de conversión de PointPillars en pseudoimages dispersas, ¿dónde se detallan los pasos de las operaciones de dispersión? |
| 06. BEV: varias formas de transformar los ángulos de perspectiva PV2BEV. ¿Qué parámetros requieren métodos basados en modelos al menos además de los parámetros internos y externos de la cámara? |
| 01. Red adversa: ¿Identificación y resolución del colapso de patrones en GaN? |
|---|
| 02. Estimación de profundidad: Describa brevemente las pérdidas de reconstrucción fotométrica comúnmente utilizadas en las tareas de estimación de profundidad? |
| 01. Pytorch a menudo combina múltiples conjuntos de datos durante el entrenamiento. ¿Qué hace exactamente Concatdataset? |
|---|
| 02. ¿Cómo lidiar con el BN de tarjetas múltiples de Pytorch? |
| 03. ¿Cuáles son los principales parámetros de Pytorch DataLoader |
| 04. ¿Cómo evitar las operaciones de .to (dispositivo) en el código Pytorch? |
| 05. Escenarios de aplicación para nn.ididentity ()/. Chunk/.masked_select/. |
| 06. Estrategias comunes para guardar la memoria de video en Pytorch |
| 07. Algunos problemas de atributo con los módulos de Pytorch |
| 08. La diferencia y los escenarios de uso entre el módulo y el secuencial en Pytorch |
| 09. Use escenarios y uso de concatdataset en Pytorch |
| 10. La diferencia entre nn.upsample e interpolar en pytorch |
| 11. La diferencia entre el conjunto de datos y el DataLoder en Pytorch. ¿Qué operaciones se requieren para personalizar el conjunto de datos? |
| 12. Las operaciones de normalización principales y comúnmente utilizadas en Pytorch incluyen BN, LN, IN y GN. ¿Déjame presentar sus diferencias? |
| 13. ¿Cuál es la diferencia entre nn.linear () y nn.embedding () en pytorch? |
| 14. DataSet en Pytorch es la clase básica utilizada para representar conjuntos de datos. ¿Qué funciones necesita para reescribir para crear un conjunto de datos personalizado? |
| 01. ¿Por qué puede Tensorrt hacer que los modelos funcionen más rápido? |
|---|
| 02. Algunas características de MMEngine, cuáles son las configuraciones básicas de su |
| 03. Agregue una red troncal personalizada a MMDetect. ¿Qué códigos necesitas cambiar? |
| 04. Introducción al mecanismo de gancho en MMCV y crear un nuevo gancho |
| 05. Filosofía de diseño de Pytorch Lighting y lo que crees que es fácil de usar |
| 06. Mmdetect tiene las características de flexibilidad y conveniencia al construir estructuras modelo. Por ejemplo, los parámetros opcionales del estilo resnet permiten Pytorch y Caffe. ¿Cuál es la diferencia entre los dos? |
| 07. ¿Describe brevemente las dos formas de asignador del cesionador de casillas en MMDetection? |
| 08. Describe brevemente los tipos de muestras de muestra positivas/negativas en MMDetection, como Randomsampler? |
| 09. ¿Cómo establecer input_names, output_names, Dynamic_axes en Torch.onnx.export ()? |
| 10. ¿Cómo se usa de manera diferente TORCH.ONNX.IS_IN_ONNX_EXPORT () para que el modelo se comporte al convertir a ONNX? |
| 11. El entrenamiento de modelos grandes generalmente usa Torch2.0 o superior, donde la antorch.compile puede acelerar el entrenamiento. Permítanme presentar cómo usarlo y si funciona para el código Python ordinario? |
| 12. Describa brevemente lo que cree que son las ventajas y desventajas de MMCV |
| 13. Problema de entrenamiento: la configuración de parámetros en el entrenamiento de múltiples máquinas y múltiples tarjetas toma 2 máquinas y 8 cartas como ejemplo: ¿Cuáles son el rango de salida de entrenamiento distribuido/local_rank/world_size? |
| 14. Pregunta de capacitación: ¿Cuáles son los métodos de implementación para el fragmento de datos de capacitación distribuida? |
| 15. Problema de entrenamiento: ¿Cómo resolver el problema que la memoria continúa aumentando durante el entrenamiento de Pytorch? |
| 01. Problema del operador: cómo fusión de convolución y BN para mejorar la velocidad de inferencia |
|---|
| 02. Problema del operador: la razón de la disminución de la efectividad después de que la red neuronal introduce el mecanismo de atención |
| 03. Problema del operador: comparación y ventajas y desventajas de las funciones de activación |
| 04. Problema del operador: Comparación de la complejidad del tiempo de Transformer/CNN/RNN |
| 05. Problema del operador: convolución separable de profundidad |
| 06. Problema del operador: la diferencia entre CNN y MLP |
| 06. Problema del operador: ¿Cómo operar la agrupación máxima? En el que el promedio del escenario es más adecuado que la agrupación máxima |
| 07. Función de pérdida: aplicación de la función de pérdida - pérdida de bisagra |
| 08. Función de pérdida: por qué la entropía cruzada se puede usar como una función de pérdida |
| 09. Algoritmo de optimización: similitudes y diferencias entre los algoritmos de optimización SGD/Adagrad/Adam |
| 10. Algoritmo de optimización: ¿Cuáles son los métodos para inicializar los pesos? |
| 11. Algoritmo de optimización: ¿Por qué no regularizar el sesgo en el aprendizaje profundo? |
| 12. Algoritmo de optimización: ¿Por qué la regularización puede aumentar las capacidades de generalización del modelo? |
| 13. Algoritmo de optimización: ¿Por qué Adam a menudo no supera al SGD? ¿Cuáles son los puntos clave y los planes de mejora? |
| 14. Preguntas frecuentes: cómo distinguir entre muestras de error y muestras difíciles en el entrenamiento de aprendizaje profundo |
| 15. Preguntas frecuentes: El papel del calentamiento precaliente el aprendizaje durante la capacitación del modelo de aprendizaje profundo |
| 16. Preguntas frecuentes: considere un filtro [-1 -1 -1; 0 0 0; 1 1 1] para la convolución, qué bordes se extraerán de la imagen de entrada |
| 17. Problema de escenario: ¿Cómo incorporar características de procesamiento de imágenes tradicionales en modelos de aprendizaje profundo? ¿Cuáles son los problemas con el empalme directo y la fusión? |
| 18. Problema de escenario: ¿Cómo se debe diseñar el peso de cada pérdida de tareas en el aprendizaje multitarea? |
| 19. Problema de escenario: ¿Cómo lidiar con conjuntos de datos no balanceados? |
| 20. Pregunta del escenario: ¿Cómo reducir efectivamente un modelo grande en varios submodelos? ¿Cómo asignar el submodelo de corte a múltiples nodos para el entrenamiento paralelo? |
| 21. Pregunta de optimización: ¿Por qué no se pueden inicializar los pesos de la red neuronal a 0, mientras que los parámetros de regresión logística se pueden inicializar a 0? |
| 22. Preguntas frecuentes: cuando aumenta el tamaño del lote, ¿cómo debe cambiar la tasa de aprendizaje en consecuencia y cómo debe cambiar específicamente? |
| 01. ¿Cuáles son los significados de los parámetros internos y externos de la cámara? Si la imagen se amplía dos veces, ¿cómo cambian los parámetros internos y externos? |
|---|
| 02. ¿Cuál es la relación de transformación del sistema de coordenadas mundiales hasta el sistema de coordenadas de imagen? |
| 03. ¿Cuáles son la transformación de radiación y la transformación de proyección inversa? |
| 04. Cómo ajustar Q y R cuando Kalman se filtra |
| 05. Cómo comprender el espacio BEV y generar características de BEV |
| 08. ¿Por qué no usa el aprendizaje en línea para la detección de barandillas? |
| 09. Cómo usar el mismo filtro para adaptarse a la escena donde cruza el vehículo al mismo tiempo |
| 10. Cómo mejorar las características de BEV |
| 11. En los escenarios de conducción asistida, el modelo predice las coordenadas BBox de objetivos medianos y grandes en 60 metros, y tiene un gran problema de fluctuación, lo que resulta en una medición de distancia inestable. ¿Cómo resolverlo? |
| 12. En los escenarios de conducción asistida, ¿cómo resolver el problema de la falta de fondos específicos, como paradas de autobús y casas? |
| 13. En escenarios de conducción asistida, ¿cómo resolver el problema de saltar en modelos de vehículos con una clasificación de más de 100 m? |
| 16. Explique el significado de la matriz de ruido en KF. ¿Se estima que el ruido se hará más grande o más pequeño en la ecuación de movimiento? ¿Se estima que el ruido se hará más grande o más pequeño en la ecuación de corrección? |
| 20. La tarea de detección de la línea de carril generalmente adopta un plan de segmentación. ¿Cómo degradar el plan para detectar, o incluso la clasificación de la línea de carril? |
| 21. ¿Cómo lidiar con diferentes rutas en tareas de detección de línea de carril, como las intersecciones de carreteras? |
| 24. Describe brevemente la lógica del decodificador de Bevformer? |
| 25. ¿Pasos de atención cruzada espacial en Bevformer? |
| 26. ¿Cómo proyectar múltiples imágenes de cámara en el automóvil en un avión 2D? |
| 27. Si su automóvil tiene 4 lidars, ¿cómo se diseña un algoritmo de segmentación de nubes de puntos? |
| 28. Si actualmente está obligado a dividir los ladrillos en la escena, ¿se puede identificar correctamente la segmentación de la nube de puntos? |
| 29. ¿Cómo eliminar la niebla de agua en la nube de puntos? |
| 30. ¿Qué tipo de conocimiento previo se usa para el ancho del vehículo y el rango de punto de tierra? Si estos antecedentes no son válidos, ¿qué medios se pueden usar para relajar las restricciones? |
| 31. Tres métodos para estimar el ángulo del tono durante la conducción del vehículo? |
| 32. ¿Cómo eliminar los puntos de esquina en un montón de nubes de puntos en 3D? |
| 33. ¿Cómo convertir puntos de coordenadas de 3D World a coordenadas de imagen 2D? |
| 34. ¿Cuál es la información de predicción para la detección monocular de objetos 3D? ¿Cómo lidiar con el objetivo truncado al predecir la desviación central de la caja 3D? |
| 35. En el proceso de estimación de la profundidad a través de las relaciones geométricas, la incertidumbre de la estimación de profundidad es alta debido al error de altura. ¿Cómo aliviarlo? |
| 36. ¿Cuáles son la configuración del sensor de la cámara y el contenido de etiquetado en el conjunto de datos Nuscenes? |
| 37. Describe brevemente la transformación del flujo de tensor durante la extracción de características del modelo Bevformer? |
| 38. Describa brevemente varias formas de generar mapas de características BEV. ¿Qué hace exactamente la operación de elevación de LSS? |
| 39. El algoritmo de percepción espera obtener imágenes de entrada de alta resolución e imágenes de entrada FOV grandes. El enfoque general en la industria es establecer el área de ROI. ¿Cómo elegir? |
| 40. Ahora necesitamos desarrollar un modelo de lenguaje visual para resolver la tarea de conducción autónoma del caso de la esquina que enfrenta la percepción general. ¿Cómo hacerlo? |
| 01. Anotación de datos: ¿Cómo resolver el problema de la inconsistencia en el etiquetado de múltiples personas debido a las diferencias profesionales en el etiquetado de imágenes médicas? ¿Cómo reducir los errores usando algoritmos? |
|---|
| 02. Pregunta del modelo: ¿Cómo agregar información sobre el historial médico al modelo para mejorar el efecto de clasificación final? |
| 03. Problema del modelo: hay un problema de borde duro en la segmentación. Por ejemplo, en la segmentación vascular retiniana, ¿cómo optimizar el efecto de la segmentación de borde? ? |
| 04. Pregunta del modelo: la apilamiento de múltiples objetos formará un objetivo potencial parcialmente bloqueado, y la integridad del objetivo es la base para un juicio adicional. ¿Cómo completar el límite segmentado del objetivo ocluido? |
| 05. Pregunta del modelo: el algoritmo de detección de objetos basado en cortes patológicos digitales se verá afectado por los dispositivos de imagen de escaneo, como desenfoque de desenfoque, desenfoque de movimiento, etc. durante el escaneo. ¿Cuáles son algunas soluciones de optimización factibles? |
| 06. Pregunta del modelo: ¿Cómo agregar conocimiento previo al modelo y cuáles son los métodos? |
| 01. Procesamiento del lenguaje natural: dada la consulta actual, la consulta histórica y la entidad correspondiente en PNL, ¿cómo modelar la entidad de la consulta actual? |
|---|
| 02. Aprendizaje automático: los gerentes bancarios reciben un conjunto de datos que contiene registros de miles de solicitantes que solicitan préstamos. ¿Cómo ayuda un algoritmo de IA a un gerente a comprender qué préstamos puede aprobar? |
| 03. Reconocimiento de imágenes: implementar algoritmos de reconocimiento facial en aplicaciones prácticas requiere la capacidad de aprender nuevas identidades faciales de flujos de datos continuos. ¿Cómo hacer aprendizaje incremental en una clase? |
| 01. ¿Cómo capacitar a un modelo para anotar datos con errores? |
|---|
| 02. ¿Cuál es la diferencia específica entre la detección de objetos en video e imagen? |
| 03. ¿Dar varios métodos de flujo óptico para ilustrar el método de modelado del flujo óptico LK? |
| 04. ¿Cómo elegir una combinación de características adecuada cuando el volumen de datos es muy limitado pero el número de características es extremadamente grande? |
| 05. Sam's Point Instale y cuadro indicación Ingrese Dimensiones. ¿El cuadro indica admite múltiples cuadros? |
| 06. ¿Por qué el impacto del tamaño de lotes más grande en el aprendizaje de comparación tiene un mayor impacto en el aprendizaje supervisado? |
| 07. Proporcione un conjunto de datos de imágenes, parte del cual es una imagen de ruido, es decir, la etiqueta está incorrecta. ¿Cómo entrenar el modelo para lograr el mejor efecto? |
| 08. 现在要预测目标在图像上的旋转角度,比如遥感影像场景下的车辆目标旋转角度,你该如何优雅的编解码以实现更好的预测? |
| 09. 鱼眼相机具备更大的视场角,因此常用在一些监控场景下,如何在鱼眼图像下做检测或分割任务? |
| 10. 昼夜跨域车辆重识别车辆重识别如何处理,即在包括白天和夜间域在内的不同域中识别相同的车辆? |
| 11. 如果一个数据集在图像的某个区域中几乎没有猫这个物体,那么目标检测器会不会也在这个区域不擅长检测猫? |
| 01. Pytorch 实现注意力机制、多头注意力 |
|---|
| 02. Pytorch 搭建一个基础模块,包含Conv+Bn+Relu |
| 03. Pytorch 搭建一个CNN卷积神经网络 |
| 04. PyTorch 卷积与BatchNorm的融合 |
| 05. PyTorch 分割网络损失函数Dice Loss的代码实现 |
| 06. PyTorch 实现Focalloss |
| 07. Pytorch 实现BN批量归一化 |
| 08. Pytorch 针对L1损失的输入需要做数值的截断,构建CustomL1Loss类 |
| 08. Pytorch 实现SGD优化算法 |
| 08. Pytorch 实现Triplet Loss |
| 09. Numpy 广播机制实现矩阵间L2距离的计算 |
| 10. Numpy 输入boxA, boxB实现bbox_iou的计算 |
| 11. Numpy 输入两组坐标实现IOU的计算 |
| 12. Numpy 实现Focalloss |
| 13. Numpy 实现非极大值抑制NMS |
| 14. Numpy 实现改进版本的非极大值抑制Soft-nms |
| 15. Numpy 实现一个函数来计算两个向量之间的余弦相似度 |
| 16. Numpy 实现Sigmoid函数 |
| 17. Numpy 实现Softmax函数 |
| 18. Numpy 实现K-means聚类 |
| 18. Numpy 完成稀疏矩阵的类,并实现add和multiply的操作 |
| 19. C++ 描述图像resize的过程并实现 |
| 20. C++ Conv2D卷积的实现 |
| 21. Numpy 实现线性回归损失函数最小二乘法,输入直线对应的坐标点,输出损失 |
| 22. Numpy 实现线性回归,输入学习率、迭代次数及坐标点 |
| 23. Numpy 实现目标实数类别的one-hot编码 |
| 24. Numpy 实现交叉熵损失函数 |
| 25. Pytorch 实现图像归一化的操作 |
| 26. Numpy 实现maxpooling操作 |
| 27. Pytorch 使用torch.utils.data.Dataset类来构建自定义的数据集,根据文件名后缀来创建一个图像分类的数据集 |
| 28. Python 实现逆透视变换IPM(鸟瞰图) |
| 29. Numpy 实现两个矩阵的乘法,并验证结果是否与PyTorch中的torch.matmul相同 |
| 30. PyTorch 构建一个自定义层,该层实现一个简单的LReLU激活函数 |
| 31. PyTorch 编写一个数据增强类,实现随机水平翻转和通道变换 |
| 32. PyTorch 实现图像到Patch Embedding过程,提示可用卷积实现 |
| 01. 多个优异的数据结构与算法项目推荐 |
|---|
| 02. 大模型岗位面试总结:共24家,9个offer |
| 03. 视觉检测分割一切源码及在线Demo |
| 04. 动手学深度学习Pytorch |
| 05. 一种用于保存、搜索、访问、探索和与您喜爱的所有网站、文档和文件聊天的工具 |
| 06. 收集一些免费的ChatGPT镜像站点 |
| 07. 关于大型语言模型(LLM)的一切 |
| 08. 深度学习调优指南中文版 |
| 09. 多模态大型语言模型的最新论文和数据集集锦 |
| 10. ChatPaper:ChatGPT来加速科研流程的工具 |
| 11. 消费级硬件上进行LLaMA的微调 |
| 12. Stability AI提供的一系列生成模型 |
| 13. 自监督方式学习强大视觉特征的框架DINOv2 |
| 14. 快速的场景分割FastSAM |
| 15. 语言大模型面试题 |
| 16. Awesome Chinese LLM 整理开源的中文大语言模型 |
| 17. 科技爱好者周刊,集结优秀的开源项目,每周五发布 |
| 18. 大模型显存在线估算开源项目 |
| 19. 2024年几种可免费阅读Medium文章的方式 |