(44-4) 14 * << * >> * Русский * English * Содержание * Все выпуски
  
Автоматическая верификация диктора по произвольной фразе с применением свёрточных глубоких сетей доверия
И.А. Рахманенко 1, А.А. Шелупанов 1, Е.Ю. Костюченко 1
1 Томский государственный университет систем управления и радиоэлектроники,
634050, Россия, Томская область, г. Томск, пр. Ленина, д. 40
 PDF, 1382 kB
  PDF, 1382 kB
DOI: 10.18287/2412-6179-CO-621
Страницы: 596-605.
Аннотация:
Данная статья посвящена применению  свёрточных глубоких сетей доверия в качестве средства извлечения речевых  признаков из аудиозаписей для решения задачи автоматической, текстонезависимой  верификации диктора. В работе описаны область применения и проблемы систем  автоматической верификации диктора. Рассмотрены типы современных систем  верификации диктора, основные типы речевых признаков, используемых в системах  верификации диктора. Описана структура свёрточных глубоких сетей доверия, алгоритм  обучения данной сети. Предложено применение речевых признаков, извлекаемых из  трёх слоёв обученной свёрточной глубокой сети доверия. Данный подход основан на  применении методов анализа изображений как к уже выделенным признакам речевого  сигнала, так и для их выделения из слоёв нейронной сети. Произведены  экспериментальные исследования предложенных признаков на двух речевых корпусах:  собственном речевом корпусе, включающем аудиозаписи 50 дикторов, и речевом  корпусе TIMIT, включающем аудиозаписи 630 дикторов. Была произведена оценка  точности предложенных признаков с применением классификаторов различного типа. Непосредственное применение  данных признаков не дало увеличения точности по сравнению с использованием традиционных  речевых признаков, таких как мел-кепстральные коэффициенты. Однако применение  данных признаков в составе ансамбля классификаторов позволило достичь уменьшения  равной ошибки 1-го и 2-го рода до 0,21% на собственном речевом  корпусе и до 0,23% на речевом корпусе TIMIT.
Ключевые слова:
распознавание диктора,  верификация диктора, Гауссовы смеси, GMM-UBM-система, речевые признаки,  обработка речи, глубокое обучение, нейронные сети, распознавание образов.
Благодарности
Результаты были получены в рамках выполнения базовой части государственного задания Минобрнауки России, проект 8.9628.2017/8.9.
Цитирование:
Рахманенко, И.А. Автоматическая верификация диктора по произвольной фразе с применением  свёрточных глубоких сетей доверия / И.А. Рахманенко, А.А. Шелупанов,  Е.Ю. Костюченко // Компьютерная оптика. – 2020. – Т. 44, № 4. –  С. 596-605. – DOI: 10.18287/2412-6179-CO-621.
Citation:
  Rakhmanenko IA, Shelupanov AA, Kostyuchenko EYu. Automatic text-independent speaker verification using convolutional deep  belief network. Computer Optics 2020; 44(4): 596-605. DOI: 10.18287/2412-6179-CO-621.
Литература:
  - Campbell, J.P. Speaker recognition: a  tutorial / J.P. Campbell // Proceedings of the IEEE. – 1997. –  Vol. 85, Issue 9. – P. 1437-1462.
- Soldatova, O.P. Convolutional neural  network applied to handwritten digits recognition / O.P. Soldatova,  A.A. Garshin // Computer Optics. – 2010. – Vol. 34, Issue 2. –  P. 252-259. 
 
- Lee, H. Convolutional deep belief  networks for scalable unsupervised learning of hierarchical representations /  H. Lee, R. Grosse, R. Ranganath, A.Y. Ng // Proceedings of  the 26th Annual International Conference on Machine Learning. –  2009. – P. 609-616.
 
- Lee, H. Unsupervised feature learning for audio classification using  convolutional deep belief networks / H. Lee, P. Pham,  Y. Largman, A.Y. Ng // Advances in Neural Information Processing  Systems. – 2009. – P. 1096-1104.
 
- Ren, Y. Convolutional deep belief  networks for feature extraction of EEG signal / Y. Ren, Y. Wu // 2014  International Joint Conference on Neural Networks (IJCNN). – 2014. –  P. 2850-2853.
 
- Sahidullah, M. A novel windowing  technique for efficient computation of MFCC for speaker recognition /  M. Sahidullah, G. Saha // IEEE Signal Processing Letters. – 2013. –  Vol. 20, Issue 2. – P. 149-152.
 
- Motlicek, P. Employment of  subspace gaussian mixture models in speaker recognition / P. Motlicek,  S. Dey, S. Madikeri, L. Burget // IEEE International Conference  on Acoustics, Speech and Signal Processing (ICASSP). – 2015. –  P. 4445-4449.
 
- Greenberg, C.S. The NIST 2014  speaker recognition i-vector machine learning challenge / C.S. Greenberg,  D. Bansé, G.R. Doddington, D. Garcia-Romero, J.J. Godfrey,  T. Kinnunen, A.F. Martin, A. McCree, M. Przybocki,  D.A. Reynolds // Odyssey: The Speaker and Language Recognition Workshop. –  2014. – P. 224-230.
 
- Lei, Y. A novel scheme for speaker  recognition using a phonetically-aware deep neural network / Y. Lei,  N. Scheffer, L. Ferrer, M. McLaren // IEEE International  Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2014. –  P. 1695-1699.
 
- Stafylakis, T. Compensation for  phonetic nuisance variability in speaker recognition using DNNs / T. Stafylakis,  P. Kenny, V. Gupta, J. Alam, M. Kockmann // Odyssey: The  Speaker and Language Recognition Workshop. – 2016. – P. 340-345.
 
- Kenny, P. Deep neural networks for  extracting baum-welch statistics for speaker recognition / P. Kenny,  V. Gupta, T. Stafylakis, P. Ouellet, J. Alam // Proceedings  of the Odyssey. – 2014. – P. 293-298.
 
- Xu, L. Rapid Computation of  I-vector / L. Xu, K.A. Lee, H. Li, Z. Yang // Odyssey: The  Speaker and Language Recognition Workshop. – 2016. – P. 47-52.
 
- McLaren, M. Exploring the role of  phonetic bottleneck features for speaker and language recognition /  M. McLaren, L. Ferrer, A. Lawson // IEEE International  Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2016. –  P. 5575-5579.
 
- Richardson, F. Deep neural network  approaches to speaker and language recognition / F. Richardson,  D. Reynolds, N. Dehak // IEEE Signal Processing Letters. – 2015. –  Vol. 22, Issue 10. – P. 1671-1675.
 
- Reynolds, D.A. Speaker  verification using adapted Gaussian mixture models / D.A. Reynolds,  T.F. Quatieri, R.B. Dunn // Digital Signal Processing. – 2000. –  Vol. 10, Issue 1. – P. 19-41.
 
- Sizov, A. Joint speaker  verification and antispoofing in the I-vector space / A. Sizov,  E. Khoury, T. Kinnunen, Z. Wu, S. Marcel // IEEE  Transactions on Information Forensics and Security. – 2015. – Vol. 10,  Issue 4. – P. 821-832.
 
- Variani, E. Deep neural networks  for small footprint text-dependent speaker verification / E. Variani,  X. Lei, E. McDermott, I.L. Moreno, J. Gonzalez-Dominguez //  IEEE International Conference on Acoustics, Speech and Signal Processing  (ICASSP). – 2014. – P. 4052-4056.
 
- Jung, J.W. A complete end-to-end  speaker verification system using deep neural networks: From raw signals to  verification result / J.W. Jung, H.S. Heo, I.H. Yang,  H.J. Shim, H.J. Yu // 2018 IEEE International Conference on  Acoustics, Speech and Signal Processing (ICASSP). – 2018. – P. 5349-5353.
 
- Rohdin, J. End-to-end DNN based  speaker recognition inspired by i-vector and PLDA / J. Rohdin,  A. Silnova, M. Diez, O. Plchot, P. Matějka, L. Burget  // 2018 IEEE International Conference on Acoustics, Speech and Signal  Processing (ICASSP). – 2018. – P. 4874-4878.
 
- Рахманенко, И.А. Анализ идентификационных  признаков в речевых данных с помощью GMM-UBM системы верификации диктора / И.А. Рахманенко, Р.В. Мещеряков // Труды СПИИРАН. –  2017. – Т. 52,  № 3. – С. 22-50. 
 
- Davis, S.B. Comparison of  parametric representations for monosyllabic word recognition in continuously  spoken sentences / S.B. Davis, P. Mermelstein // IEEE Transactions on  Acoustics, Speech and Signal Processing. – 1980. – Vol. 28, Issue 4.  – P. 357-366.
 
- Jurafsky, D. Speech and language  processing / D. Jurafsky, J.H. Martin. – 2nd ed. – New  Jersey: Pearson Education, 2009. – 1026 p.
 
- Eyben, F. Recent developments in  opensmile, the munich  open-source multimedia feature extractor / F. Eyben, F. Weninger,  F. Gross, B. Schuller // Proceedings of the 21st ACM  International Conference on Multimedia. – 2013. – P. 835-838.
 
- Hinton, G.E. A fast learning  algorithm for deep belief nets / G.E. Hinton, S. Osindero,  Y.W. Teh // Neural Computation. – 2006. – Vol. 18, Issue 7. –  P. 1527-1554.
 
- Hinton, G.E. Training products of  experts by minimizing contrastive divergence / G.E. Hinton // Neural  Computation. – 2002. – Vol. 14, Issue 8. – P. 1771-1800.
 
- Sadjadi, S.O. MSR identity toolbox  v1.0: A MATLAB toolbox for speaker-recognition research / S.O. Sadjadi,  M. Slaney, L. Heck // Speech and Language Processing Technical  Committee Newsletter. – 2013. – Vol. 1, Issue 4. – P. 1-32.
 
- Zue, V. Speech database development at MIT: TIMIT and beyond / V. Zue,  S. Seneff, J. Glass // Speech Communication. – 1990. – Vol. 9,  Issue 4. – P. 351-356.
 
- Yoshimura, T. Discriminative feature extraction based on sequential variational  autoencoder for speaker recognition / T. Yoshimura, N. Koike,  K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda // 2018        Asia-Pacific Signal and Information Processing Association Annual Summit and Conference  (APSIPA ASC). – 2018. – P. 1742-1746. 
 
- Zeng, C.Y. Stacked autoencoder  networks based speaker recognition / C.Y. Zeng, C.F. Ma, Z.F. Wang,  J.X. Ye // 2018 International Conference on Machine Learning and  Cybernetics (ICMLC). – 2018. – Vol. 1. – P. 294-299. 
 
- Chorowski, J.K. Attention-based  models for speech recognition / J.K. Chorowski, D. Bahdanau,  D. Serdyuk, K. Cho, Y. Bengio // Advances in Neural Information  Processing Systems. – 2015. – P. 577-585.            
      
- Meriem, F. Robust speaker verification using a new front end based on multitaper  and gammatone filters / F. Meriem, H. Farid, B. Messaoud,  A. Abderrahmene // 2014 Tenth International Conference on Signal-Image  Technology and Internet-Based Systems. – 2014. – P. 99-103.
 
  
  © 2009, IPSI RAS
    Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7  (846)  242-41-24 (ответственный
      секретарь), +7 (846)
      332-56-22 (технический  редактор), факс: +7 (846) 332-56-20