historia Redes neuronales y deep learning timeline

1951

SNARC, Marvin Minksy

Primer investigador en implementar una red neuronal con SNARC
1958

Perceptron

Concepción de modelo matemático del perceptron por Frank Rosenblatt
1960

Neurona "ADALINA"

Bernard Widrow y Tedd Hoff exploraron la opción de 'Neuronas Lineales Adaptativas' pudiendo incorporarse a los circuitos eléctricos con 'memistors' - resistencias con memoria. También mostraron que no tener la función de activación de umbral es matemáticamente bueno, porque el mecanismo de aprendizaje de la neurona puede basarse formalmente en minimizar el error a través de un buen cálculo.
1969

Libro "Perceptrones"

Marvin Minsky y Seymour Papert se mostraron escépticos en su libro frente al funcionamiento de los perceptrones ya que, por ejemplo, estos no pudieron aprender la función booleana simple XOR porque no es linealmente separable . Aunque la historia aquí es vaga, se cree ampliamente que esta publicación ayudó a marcar el comienzo del primer invierno de la IA
Period: 1969 to 1986

Primer "invierno" de investigación de la IA
1970

Backpropagation

Implementacion de la propagación hacia atrás por Seppo Linnainmaa
1974

Backpropagation en redes neuronales

Paul Werbos propone usar la propagación hacia atrás en redes neuronales
1985

"Un algoritmo de aprendizaje para máquinas Boltzmann".

Geoffrey Hilton. Las máquinas Boltzmann son redes al igual que las redes neuronales y tienen unidades que son muy similares a los Perceptrons, pero en lugar de calcular una salida basada en entradas y pesos, cada unidad en la red puede calcular una probabilidad de que tenga un valor de 1 o 0 dado el Valores de unidades conectadas y pesos
1986

"Learning representations by Back Propagating errors"

publicacion por David Rumelhart, Geoffrey Hinton y Ronald Williams, esta hizo que comprendiera ampliamente cómo las redes neuronales de múltiples capas podrían entrenarse para abordar problemas complejos de aprendizaje.
1989

" Backpropagation Applied to Handwritten Zip Code Recognition "

Yann LeCun Et Al. La publicación, que trabaja con un gran conjunto de datos del Servicio Postal de los EE. UU., Mostró que las redes neuronales eran completamente capaces de esta tarea. Y mucho más importante, fue el primero en resaltar la necesidad práctica de modificaciones clave de las redes neuronales más allá de la simple propagación hacia el aprendizaje moderno y profundo
1989

“Las redes de avance de múltiples capas son aproximadores universales”

Kurt Hornik, Maxwell Stinchcombe, Halbert White. demostró matemáticamente que las capas múltiples permiten que las redes neuronales implementen teóricamente cualquier función, y ciertamente XOR.
1989

"Alvinn: Un vehículo terrestre autónomo en una red neuronal"

NavLab de CMU. la red neuronal en este sistema aprendió a controlar el vehículo a través de un aprendizaje simple y supervisado utilizando el sensor y los datos de la dirección registrados mientras un humano conducía
1990

"Identificación y control de sistemas dinámicos utilizando sistemas neuronales ”
1992

"aprendizaje conexionista de las redes de creencias"

Redford M. Neal. justificó la necesidad de un enfoque más rápido al afirmar que: "Estas capacidades harían atractiva a la máquina Boltzmann en muchas aplicaciones, si no fuera por eso que su procedimiento de aprendizaje generalmente se considera muy lento"
1993

“Aprendizaje de refuerzo para robots que utilizan redes neuronales”

Long-Ji Lin. La tesis demostró que a los robots se les pueden enseñar comportamientos como el seguimiento de muros y el paso de puertas en períodos de tiempo razonables
1993

"Un enfoque conexionista para el reconocimiento de voz"

Yoshua Bengio. resumió el fracaso general de la enseñanza efectiva de RNNs
1995

" algoritmo de vigilia del sueño para redes neuronales no supervisadas "

Hinton y Neal. Conjuntos separados de pesos para inferir variables ocultas de variables visibles ( pesos de reconocimiento ) y viceversa ( pesos generativos ), y mantener el aspecto dirigido de las redes de creencias de Neal. Esto permite que la capacitación se realice mucho más rápido, a la vez que se aplica a los problemas de aprendizaje supervisados y no supervisados de las máquinas Boltzmann.
1995

"Aprendizaje para jugar el ajedrez"

Sebastian Thrun. Aunque la red neuronal aprendió el juego decente, ciertamente mejor que un principiante en el juego, fue mucho peor que un programa de computadora estándar (GNU-Chess) implementado mucho antes
1995

"Redes convolucionales para imágenes, habla y series de tiempo"

Yann LeCun y Yoshua Bengio.
1997

memoria a corto y largo plazo (LSTM)

Schmidhuber y Hochreiter introdujeron un concepto muy importante que esencialmente resolvió el problema de cómo entrenar redes neuronales recurrentes, tanto como lo hicieron las CNN para las redes neuronales de alimentación directa
Period: 2000 to 2006

segundo "invierno" de las IA
2002

“Training Products of Experts by Minimizing Contrastive Divergence”

Hinton. Básicamente, este algoritmo maximiza algo más que la probabilidad de que las unidades generen los datos de entrenamiento, lo que permite una buena aproximación y resulta que todavía funciona bien
2006

"un algoritmo de aprendizaje rápido para redes de creencias"

Hinton, Geoffrey E, Simon Osindero y Yee-Whye Teh. los enfoques utilizados en el documento han sido reemplazados por un trabajo más reciente, se puede decir muy persuasivamente que el movimiento que es 'Aprendizaje profundo' comenzó precisamente con este documento. Pero, más importante que el nombre era la idea: que las redes neuronales con muchas capas realmente podrían entrenarse bien, si los pesos se inicializan de manera inteligente en lugar de al azar.
2007

“Greedy Layer-Wise Training of Deep Networks”

Yoshua Bengio. presenta un fuerte argumento de que los métodos de aprendizaje profundo por máquina (es decir, los métodos con muchos pasos de procesamiento o equivalentes con representaciones jerárquicas de los datos) son más eficientes para los problemas difíciles que los métodos poco profundos
2010

"Aprendizaje profundo sin supervisión a gran escala utilizando procesadores gráficos"

Rajat Raina, Anand Madhavan, Andrew Y. Ng.
2010

“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”

J. Schmidhuber. mostró una tasa de errores enorme% 0.35 se pudo lograr en el conjunto de datos MNIST sin nada más especial que las redes neuronales realmente grandes, muchas variaciones en la entrada, y las implementaciones de GPU eficientes de backpropagation
2010

"Entendiendo la dificultad de entrenar redes neuronales profundas

Xavier Glort y Yoshua Bengio. En él discutieron dos hallazgos muy significativos:
La función de activación no lineal particular elegida para las neuronas en una red neuronal tiene un gran impacto en el rendimiento, y la que se usa a menudo por defecto no es una buena opción.
El viejo problema de degradación de fuga ocurre, básicamente, porque la propagación hacia atrás involucra una secuencia de multiplicaciones que invariablemente resultan en derivadas más pequeñas para las capas anteriores.
2011

Nacimiento del Cerebro de Google

Jeff Dean y Andrew Ng desarrollan la red neuronal mas grande antes vista, con 16000 núcleos de CPU entrenada sin supervisión y con videos de Youtube; aprendiendo a reconocer los objetos mas comunes en esos videos
2012

"Clasificación de ImageNet con redes neuronales convolucionales profundas"

Geoffrey Hinton, Alex Krizhevsky e Ilya Sutskeve. es la combinación de conceptos muy antiguos (una CNN con capas de agrupación y convolución, variaciones en los datos de entrada) con varias nuevas ideas clave (implementación de GPU muy eficiente, neuronas ReLU, deserción
2012

"Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación"

Cuatro grupos de investigación: tres de compañías que sin duda podrían beneficiarse de un maletín lleno de patentes sobre la tecnología maravilla emergente del aprendizaje profundo, y el grupo de investigación universitario que popularizó esa tecnología: trabajar juntos y publicar sus resultados en la comunidad de investigación en general . Si alguna vez hubo un escenario ideal para que la industria adoptara una idea de la investigación, esto parece ser así.
2012

"Mejorar las redes neuronales mediante la prevención de la coadaptación de detectores de características"

G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever y R. R. Salakhutdinov. Esta idea directa, llamada Abandono , es un medio muy eficaz para implementar el enfoque enormemente poderoso del aprendizaje en conjunto, lo que significa aprender de muchas maneras diferentes a partir de los datos de capacitación.
2014

traducción en tiempo real en Skipe

La necesidad de datos se sintió claramente en el laboratorio de Microsoft Research en Beijing , donde el investigador del habla Frank Seide ha ido aumentando gradualmente el número de horas de información conversacional que utiliza para afinar su enfoque de entrenamiento basado en modelos. El trabajo que comenzó con un conjunto de 24 horas de dichos datos ahora ha aumentado significativamente.
2014

Deep Dream

Es un algoritmo de procesamiento de imágenes creado por Google, que se basa en la enseñanza a sus computadoras en cuanto a la forma de ver, entender y apreciar nuestro mundo. El algoritmo está formado por una red neuronal artificial, que fue entrenada mostrándole millones de imágenes como ejemplo, para así ajustar poco a poco los parámetros de la red neuronal hasta obtener la identificación de la imagen y clasificarla de la manera adecuada.
2015

Giraffe, usar el refuerzo profundo aprendiendo a jugar ajedrez

Giraffe, un motor de ajedrez que utiliza el juego propio para descubrir todos sus conocimientos específicos de dominio, con un mínimo de conocimientos hechos a mano por el programador. A diferencia de los intentos anteriores que utilizaron el aprendizaje automático solo para realizar ajustes de parámetros en las funciones de evaluación hechas a mano, el sistema de aprendizaje de Giraffe también realiza la extracción automática de características y el reconocimiento de patrones.
2015

RankBrain

Es un algoritmo que aprende de las búsquedas en Google para ayudar y sugerir a los usuarios las búsquedas más relevantes, básicamente realiza una interpretación de las palabras y frases de cada consulta con el fin de deducir la intención del usuario
2015

Michelangelo

Es una plataforma desarrollada por UBER, para proporcionar servicios internos de aprendizaje automático y facilitar la construcción e implementación de estos sistemas a gran escala. Horovod, es el componente de código abierto del kit de herramientas de aprendizaje profundo de Michelangelo que facilita el inicio y la aceleración de proyectos de aprendizaje profundo distribuidos con TensorFlow.
2017

AlphaGo Zero

Es la continuación, evolución y mejora del ya famoso proyecto AlphaGo desarrollado por Deepmind, empresa adquirida por Google a comienzos del año 2014. La red neuronal de AlphaGo Zero se entrenó con TensorFlow, con 64 GPU workers, 19 servidores de parámetros de CPU y tan sólo 4 TPU para inferencia.

SNARC, Marvin Minksy

Perceptron

Neurona "ADALINA"

Libro "Perceptrones"

Primer "invierno" de investigación de la IA

Backpropagation

Backpropagation en redes neuronales

"Un algoritmo de aprendizaje para máquinas Boltzmann".

"Learning representations by Back Propagating errors"

" Backpropagation Applied to Handwritten Zip Code Recognition "

“Las redes de avance de múltiples capas son aproximadores universales”

"Alvinn: Un vehículo terrestre autónomo en una red neuronal"

"Identificación y control de sistemas dinámicos utilizando sistemas neuronales ”

"aprendizaje conexionista de las redes de creencias"

“Aprendizaje de refuerzo para robots que utilizan redes neuronales”

"Un enfoque conexionista para el reconocimiento de voz"

" algoritmo de vigilia del sueño para redes neuronales no supervisadas "

"Aprendizaje para jugar el ajedrez"

"Redes convolucionales para imágenes, habla y series de tiempo"

memoria a corto y largo plazo (LSTM)

segundo "invierno" de las IA

“Training Products of Experts by Minimizing Contrastive Divergence”

"un algoritmo de aprendizaje rápido para redes de creencias"

“Greedy Layer-Wise Training of Deep Networks”

"Aprendizaje profundo sin supervisión a gran escala utilizando procesadores gráficos"

“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”

"Entendiendo la dificultad de entrenar redes neuronales profundas

Nacimiento del Cerebro de Google

"Clasificación de ImageNet con redes neuronales convolucionales profundas"

"Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación"

"Mejorar las redes neuronales mediante la prevención de la coadaptación de detectores de características"

traducción en tiempo real en Skipe

Deep Dream

Giraffe, usar el refuerzo profundo aprendiendo a jugar ajedrez

RankBrain

Michelangelo

AlphaGo Zero