historia Redes neuronales y deep learning

  • SNARC, Marvin Minksy

    SNARC, Marvin Minksy
    Primer investigador en implementar una red neuronal con SNARC
  • Perceptron

    Perceptron
    Concepción de modelo matemático del perceptron por Frank Rosenblatt
  • Neurona "ADALINA"

    Neurona "ADALINA"
    Bernard Widrow y Tedd Hoff exploraron la opción de 'Neuronas Lineales Adaptativas' pudiendo incorporarse a los circuitos eléctricos con 'memistors' - resistencias con memoria. También mostraron que no tener la función de activación de umbral es matemáticamente bueno, porque el mecanismo de aprendizaje de la neurona puede basarse formalmente en minimizar el error a través de un buen cálculo.
  • Libro "Perceptrones"

    Marvin Minsky y Seymour Papert se mostraron escépticos en su libro frente al funcionamiento de los perceptrones ya que, por ejemplo, estos no pudieron aprender la función booleana simple XOR porque no es linealmente separable . Aunque la historia aquí es vaga, se cree ampliamente que esta publicación ayudó a marcar el comienzo del primer invierno de la IA
  • Period: to

    Primer "invierno" de investigación de la IA

  • Backpropagation

    Backpropagation
    Implementacion de la propagación hacia atrás por Seppo Linnainmaa
  • Backpropagation en redes neuronales

    Backpropagation en redes neuronales
    Paul Werbos propone usar la propagación hacia atrás en redes neuronales
  • "Un algoritmo de aprendizaje para máquinas Boltzmann".

    "Un algoritmo de aprendizaje para máquinas Boltzmann".
    Geoffrey Hilton. Las máquinas Boltzmann son redes al igual que las redes neuronales y tienen unidades que son muy similares a los Perceptrons, pero en lugar de calcular una salida basada en entradas y pesos, cada unidad en la red puede calcular una probabilidad de que tenga un valor de 1 o 0 dado el Valores de unidades conectadas y pesos
  • "Learning representations by Back Propagating errors"

    "Learning representations by Back Propagating errors"
    publicacion por David Rumelhart, Geoffrey Hinton y Ronald Williams, esta hizo que comprendiera ampliamente cómo las redes neuronales de múltiples capas podrían entrenarse para abordar problemas complejos de aprendizaje.
  • " Backpropagation Applied to Handwritten Zip Code Recognition "

    " Backpropagation Applied to Handwritten Zip Code Recognition "
    Yann LeCun Et Al. La publicación, que trabaja con un gran conjunto de datos del Servicio Postal de los EE. UU., Mostró que las redes neuronales eran completamente capaces de esta tarea. Y mucho más importante, fue el primero en resaltar la necesidad práctica de modificaciones clave de las redes neuronales más allá de la simple propagación hacia el aprendizaje moderno y profundo
  • “Las redes de avance de múltiples capas son aproximadores universales”

    Kurt Hornik, Maxwell Stinchcombe, Halbert White. demostró matemáticamente que las capas múltiples permiten que las redes neuronales implementen teóricamente cualquier función, y ciertamente XOR.
  • "Alvinn: Un vehículo terrestre autónomo en una red neuronal"

     "Alvinn: Un vehículo terrestre autónomo en una red neuronal"
    NavLab de CMU. la red neuronal en este sistema aprendió a controlar el vehículo a través de un aprendizaje simple y supervisado utilizando el sensor y los datos de la dirección registrados mientras un humano conducía
  • "Identificación y control de sistemas dinámicos utilizando sistemas neuronales ”

  • "aprendizaje conexionista de las redes de creencias"

    "aprendizaje conexionista de las redes de creencias"
    Redford M. Neal. justificó la necesidad de un enfoque más rápido al afirmar que: "Estas capacidades harían atractiva a la máquina Boltzmann en muchas aplicaciones, si no fuera por eso que su procedimiento de aprendizaje generalmente se considera muy lento"
  • “Aprendizaje de refuerzo para robots que utilizan redes neuronales”

     “Aprendizaje de refuerzo para robots que utilizan redes neuronales”
    Long-Ji Lin. La tesis demostró que a los robots se les pueden enseñar comportamientos como el seguimiento de muros y el paso de puertas en períodos de tiempo razonables
  • "Un enfoque conexionista para el reconocimiento de voz"

     "Un enfoque conexionista para el reconocimiento de voz"
    Yoshua Bengio. resumió el fracaso general de la enseñanza efectiva de RNNs
  • " algoritmo de vigilia del sueño para redes neuronales no supervisadas "

    Hinton y Neal. Conjuntos separados de pesos para inferir variables ocultas de variables visibles ( pesos de reconocimiento ) y viceversa ( pesos generativos ), y mantener el aspecto dirigido de las redes de creencias de Neal. Esto permite que la capacitación se realice mucho más rápido, a la vez que se aplica a los problemas de aprendizaje supervisados ​​y no supervisados ​​de las máquinas Boltzmann.
  • "Aprendizaje para jugar el ajedrez"

     "Aprendizaje para jugar el ajedrez"
    Sebastian Thrun. Aunque la red neuronal aprendió el juego decente, ciertamente mejor que un principiante en el juego, fue mucho peor que un programa de computadora estándar (GNU-Chess) implementado mucho antes
  • "Redes convolucionales para imágenes, habla y series de tiempo"

    Yann LeCun y Yoshua Bengio.
  • memoria a corto y largo plazo (LSTM)

    Schmidhuber y Hochreiter introdujeron un concepto muy importante que esencialmente resolvió el problema de cómo entrenar redes neuronales recurrentes, tanto como lo hicieron las CNN para las redes neuronales de alimentación directa
  • Period: to

    segundo "invierno" de las IA

  • “Training Products of Experts by Minimizing Contrastive Divergence”

    Hinton. Básicamente, este algoritmo maximiza algo más que la probabilidad de que las unidades generen los datos de entrenamiento, lo que permite una buena aproximación y resulta que todavía funciona bien
  • "un algoritmo de aprendizaje rápido para redes de creencias"

    "un algoritmo de aprendizaje rápido para redes de creencias"
    Hinton, Geoffrey E, Simon Osindero y Yee-Whye Teh. los enfoques utilizados en el documento han sido reemplazados por un trabajo más reciente, se puede decir muy persuasivamente que el movimiento que es 'Aprendizaje profundo' comenzó precisamente con este documento. Pero, más importante que el nombre era la idea: que las redes neuronales con muchas capas realmente podrían entrenarse bien, si los pesos se inicializan de manera inteligente en lugar de al azar.
  • “Greedy Layer-Wise Training of Deep Networks”

     “Greedy Layer-Wise Training of Deep Networks”
    Yoshua Bengio. presenta un fuerte argumento de que los métodos de aprendizaje profundo por máquina (es decir, los métodos con muchos pasos de procesamiento o equivalentes con representaciones jerárquicas de los datos) son más eficientes para los problemas difíciles que los métodos poco profundos
  • "Aprendizaje profundo sin supervisión a gran escala utilizando procesadores gráficos"

    Rajat Raina, Anand Madhavan, Andrew Y. Ng.
  • “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”

    “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”
    J. Schmidhuber. mostró una tasa de errores enorme% 0.35 se pudo lograr en el conjunto de datos MNIST sin nada más especial que las redes neuronales realmente grandes, muchas variaciones en la entrada, y las implementaciones de GPU eficientes de backpropagation
  • "Entendiendo la dificultad de entrenar redes neuronales profundas

     "Entendiendo la dificultad de entrenar redes neuronales profundas
    Xavier Glort y Yoshua Bengio. En él discutieron dos hallazgos muy significativos:
    La función de activación no lineal particular elegida para las neuronas en una red neuronal tiene un gran impacto en el rendimiento, y la que se usa a menudo por defecto no es una buena opción.
    El viejo problema de degradación de fuga ocurre, básicamente, porque la propagación hacia atrás involucra una secuencia de multiplicaciones que invariablemente resultan en derivadas más pequeñas para las capas anteriores.
  • Nacimiento del Cerebro de Google

    Nacimiento del Cerebro de Google
    Jeff Dean y Andrew Ng desarrollan la red neuronal mas grande antes vista, con 16000 núcleos de CPU entrenada sin supervisión y con videos de Youtube; aprendiendo a reconocer los objetos mas comunes en esos videos
  • "Clasificación de ImageNet con redes neuronales convolucionales profundas"

    Geoffrey Hinton, Alex Krizhevsky e Ilya Sutskeve. es la combinación de conceptos muy antiguos (una CNN con capas de agrupación y convolución, variaciones en los datos de entrada) con varias nuevas ideas clave (implementación de GPU muy eficiente, neuronas ReLU, deserción
  • "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación"

    Cuatro grupos de investigación: tres de compañías que sin duda podrían beneficiarse de un maletín lleno de patentes sobre la tecnología maravilla emergente del aprendizaje profundo, y el grupo de investigación universitario que popularizó esa tecnología: trabajar juntos y publicar sus resultados en la comunidad de investigación en general . Si alguna vez hubo un escenario ideal para que la industria adoptara una idea de la investigación, esto parece ser así.
  • "Mejorar las redes neuronales mediante la prevención de la coadaptación de detectores de características"

    G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever y R. R. Salakhutdinov. Esta idea directa, llamada Abandono , es un medio muy eficaz para implementar el enfoque enormemente poderoso del aprendizaje en conjunto, lo que significa aprender de muchas maneras diferentes a partir de los datos de capacitación.
  • traducción en tiempo real en Skipe

    traducción en tiempo real en Skipe
    La necesidad de datos se sintió claramente en el laboratorio de Microsoft Research en Beijing , donde el investigador del habla Frank Seide ha ido aumentando gradualmente el número de horas de información conversacional que utiliza para afinar su enfoque de entrenamiento basado en modelos. El trabajo que comenzó con un conjunto de 24 horas de dichos datos ahora ha aumentado significativamente.
  • Deep Dream

    Deep Dream
    Es un algoritmo de procesamiento de imágenes creado por Google, que se basa en la enseñanza a sus computadoras en cuanto a la forma de ver, entender y apreciar nuestro mundo. El algoritmo está formado por una red neuronal artificial, que fue entrenada mostrándole millones de imágenes como ejemplo, para así ajustar poco a poco los parámetros de la red neuronal hasta obtener la identificación de la imagen y clasificarla de la manera adecuada.
  • Giraffe, usar el refuerzo profundo aprendiendo a jugar ajedrez

    Giraffe, un motor de ajedrez que utiliza el juego propio para descubrir todos sus conocimientos específicos de dominio, con un mínimo de conocimientos hechos a mano por el programador. A diferencia de los intentos anteriores que utilizaron el aprendizaje automático solo para realizar ajustes de parámetros en las funciones de evaluación hechas a mano, el sistema de aprendizaje de Giraffe también realiza la extracción automática de características y el reconocimiento de patrones.
  • RankBrain

    RankBrain
    Es un algoritmo que aprende de las búsquedas en Google para ayudar y sugerir a los usuarios las búsquedas más relevantes, básicamente realiza una interpretación de las palabras y frases de cada consulta con el fin de deducir la intención del usuario
  • Michelangelo

    Michelangelo
    Es una plataforma desarrollada por UBER, para proporcionar servicios internos de aprendizaje automático y facilitar la construcción e implementación de estos sistemas a gran escala. Horovod, es el componente de código abierto del kit de herramientas de aprendizaje profundo de Michelangelo que facilita el inicio y la aceleración de proyectos de aprendizaje profundo distribuidos con TensorFlow.
  • AlphaGo Zero

    AlphaGo Zero
    Es la continuación, evolución y mejora del ya famoso proyecto AlphaGo desarrollado por Deepmind, empresa adquirida por Google a comienzos del año 2014. La red neuronal de AlphaGo Zero se entrenó con TensorFlow, con 64 GPU workers, 19 servidores de parámetros de CPU y tan sólo 4 TPU para inferencia.