2018년 9월 11일 화요일

180911 CMU 음성인식 ppt 노트 - 15. Backpointer tables, training with continuous speech

Link: http://www.cs.cmu.edu/afs/cs/user/bhiksha/WWW/courses/11-756.asr/spring2013/

세줄 요약. 최대한 세줄로 요약할 수 있도록 노력하자. 손가락 아프다.

  1. 연속음성인식에서 viterbi search를 해보자. table을 다 저장하면 아까우니까 best word가 만들어질 때마다 그걸 엔트리에 저장하자.
  2. n-best를 보고 싶을 수 있으니 경쟁 단어들도 같이 저장해두자.
  3. 트레이닝 발화 각각을 모델링하는 문장 HMM을 준비해서 EM을 하자. silence의 경우 얼마나 나올지 모르니 silence loop를 만들자.

세줄 요약 각각에 또 세줄 요약을 해보자.

1,2. Trellis with Complete Set of Backpointers

  • 특정 시점의 best 단어를 저장할 엔트리의 구조는 (idx, time, score, parent)인 것 같다. (예: (1, t=0, scr1, p=0)) (나중 챕터에 등장한다)
  • 왜 단어만 저장하나? 어차피 목표가 best 문장을 만드는 것이라면 word만 이어 붙이면 되기 때문에 trellis 같은 것은 필요없다.
  • n-best 문장을 구하고 싶은 경우가 있다. 이를 위해 best-word의 경쟁 단어들도 저장하자. 어차피 이렇게 해도 그냥 table 저장보다는 효율적이다.

3. word models from continuous speech recordings and related practical issues

  • 단어 HMM 사이사이에 silence HMM을 추가하여 발화 내 단어 사이의 묵음 구간을 모델링하자.
  • silence HMM은 initial silence HMM이 있으면 더 잘 학습된다.
  • trellis 사이즈 너무 크다. HMM 전체 EM 못한다. 높은 스코어를 가지는 partial path에 해당하는 HMM만 그때그때 남겨서 학습하자.
  • (영원히 낮은 스코어를 가지는 partial path가 생겨버리면 어떡하지?)

댓글 없음:

댓글 쓰기