Este proyecto es un ejemplo que prueba algunas de las ideas presentadas en el artículo de Rolnick y Tegmark, el poder de las redes más profundas para expresar funciones naturales, así como el artículo de Lin, Tegmark y Rolnick, por qué el aprendizaje profundo y barato funciona tan bien.
La idea general es que, si bien se ha indicado durante mucho tiempo que todas las asignaciones no lineales se pueden lograr con una red poco profunda de al menos dos capas, esta puede no ser la asignación más eficiente de las neuronas. La noción central se reduce a la idea de la factorización, y se expresa a través de una red que evalúa los polinomios, que por supuesto tienen un potencial de factorización bastante obvio. Si suponemos que una red se puede enseñar de manera efectiva a resolver problemas de optimización mediante el factoring cuando el factoring es una opción, y que el factorización es una solución que surge de la backpropagación típica, el número total de neuronas puede reducirse drásticamente al comprender mejor cómo se codificará el problema en la red y qué red de tamaño se representaría de manera más efectiva al problema. En general, este tipo de consideración nos ayuda a elegir la red más pequeña que logra un rendimiento suficiente.
Ja, tengo que terminar y empujarlo, ¡vuelve pronto!
Existe un creciente interés en explorar redes óptimas. El enfoque de este artículo y la experimentación en este proyecto es solo un mecanismo. Otras áreas interesantes de exploración incluyen el uso de algoritmos genéticos para mutar parámetros de la red neuronal y controlar a los miembros de la especie a través de las generaciones definiendo una medida de su aptitud. Matt Harvey ha estado haciendo y comparte algo de éxito en un puesto medio y su repositorio de Github.
Hay una gran cantidad de nuevas ideas en este espacio. Tome, por ejemplo, el metaetículo de Google utilizando el aprendizaje automático para explorar la arquitectura de la red neuronal y la evolución a gran escala de artículos asociados de clasificadores de imágenes y búsqueda de arquitectura neural con aprendizaje de refuerzo. ¡Esta área está madura para la explotación!
Todas estas ideas son de gran interés para mí. Desde que comencé a trabajar en mi robot de clonación de comportamiento, que originalmente usaba una pequeña red totalmente conectada para el control, he sido consciente de que la red más pequeña que se necesita para resolver muchos problemas es bastante pequeña. De hecho, si nos fijamos en el aprendizaje de NVIDIA de extremo a extremo para el papel de autos autónomo, es posible que se sorprenda del tamaño relativamente pequeño de la red. Es muy emocionante ver este nuevo trabajo con respecto a la optimización de las redes utilizando tanto el enfoque de la función arbitraria, según lo discutido por Rolnick y Tegmark, y el enfoque de algoritmo genético, según lo discutido por Harvey.