Timeline: Historia de la RAH

1952

Bell Laboratories creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante

Utilizando frecuencias formantes (frecuencias que se correlacionan con el habla humana para ciertos sonidos) del espectro de potencia del habla. Muchas universidades de investigación construyeron sistemas para reconocer sílabas y vocales específicas para un solo hablante.

1961

Shoebox de IBM

Fue capaz de reconocer no sólo dígitos, sino también palabras como "suma" y "total" y utilizarlos en los cálculos aritméticos para obtener resultados. Los investigadores del University College de Inglaterra pudieron analizar los fonemas para el reconocimiento de vocales y consonantes

1976

Harpy

Un reconocedor de voz de la Universidad Carnegie Mellon, era capaz de reconocer el habla con un vocabulario de 1011 palabras. Uno de los principales logros de este trabajo fue la introducción de la búsqueda gráfica para "decodificar" representaciones léxicas de palabras con un conjunto de reglas y una red de estados finitos

1980

El enfoque fundamental de ASR cambió a una base estadística

HMMS se había convertido en la técnica dominante para ASR (y sigue siendo una de las más destacadas en la actualidad)

1990

IBM creó un sistema de reconocimiento llamado Tangora

Para proporcionar una "máquina de escribir activada por voz". Este esfuerzo introdujo un enfoque en vocabularios grandes y la secuencia de palabras para gramáticas, lo que llevó a la introducción de modelos de lenguaje para el habla.

1990

Software Dragon

tenía un diccionario de 80.000 palabras y la capacidad de adaptar el software a la voz del usuario. Se crearon muchos conjuntos de herramientas para admitir ASR a finales de los años ochenta y noventa, como HTK de Cambridge, un conjunto de herramientas oculto del modelo de Markov.

1990

La red neuronal de retardo de tiempo (TDNN)

Fue una de las primeras aplicaciones del aprendizaje profundo al reconocimiento de voz. Utilizó capas convolucionales 2D apiladas para realizar la clasificación del teléfono. Los beneficios de este enfoque fueron que no variaba el cambio (no requería una segmentación); sin embargo, el ancho de la red limita la ventana de contexto

2009

DNN para reconocimiento del teléfono

Se aplicaron redes de creencias profundas al reconocimiento de teléfonos, logrando un rendimiento de vanguardia en el corpus TIMIT. Estas redes aprenden características no supervisadas para una mejor robustez acústica.

2012

DNN y HMM

Se introdujo un modelo de Markov oculto de DNN híbrido y dependiente del contexto (CD) que amplió los avances de DNN y logró mejoras sustanciales para el reconocimiento de voz de vocabulario extenso.

2014

La investigación de un extremo a otro

Entrándose en mejorar algunas de las dificultades que surgen de los modelos de extremo a extremo; sin embargo, las arquitecturas híbridas tienden a seguir siendo más populares en la producción, debido a la utilidad de los modelos léxicos en la decodificación.

Privacy & Sharing

Dynamic Views

Custom Fields & Grouping

Collaboration

Date Handling

Timeline Templates

Roadmapping

Project Management

History

Education

Biographies

Legal Cases

Help Center

The Timetoast Blog

About

Learn

Contact Us

Search Published Timelines

Timeline Categories

Popular timelines

Historia de la RAH

Bell Laboratories creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante

Shoebox de IBM

Harpy

El enfoque fundamental de ASR cambió a una base estadística

IBM creó un sistema de reconocimiento llamado Tangora

Software Dragon

La red neuronal de retardo de tiempo (TDNN)

DNN para reconocimiento del teléfono

DNN y HMM

La investigación de un extremo a otro

Bell Laboratories creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante

Shoebox de IBM

Harpy

El enfoque fundamental de ASR cambió a una base estadística

IBM creó un sistema de reconocimiento llamado Tangora

Software Dragon

La red neuronal de retardo de tiempo (TDNN)

DNN para reconocimiento del teléfono

DNN y HMM

La investigación de un extremo a otro

Plan projects on a visual timeline