2018년 9월 12일 수요일

180912 CMU 음성인식 ppt 노트 - 21. Subword units

Link: http://www.cs.cmu.edu/afs/cs/user/bhiksha/WWW/courses/11-756.asr/spring2013/

세줄 요약

  1. 단어 HMM을 그대로 학습시키자니 딱 그 단어에 맞는 데이터가 희소하다. phone HMM을 쓰면 같은 학습 데이터로도 충분하다.
  2. 그냥 phone만 쓰면 될줄 알았더니 좌우 phone에 따라 locus가 달라지는 현상이 있어 n-phone 을 써야한다.
  3. n-phone을 쓰면 데이터가 exponentially 필요해 진다.

세줄 요약 각각의 세줄 요약

1.

  • phone을 어떤 기준으로 정해야 할까? 다 다르다. 언어학자(?)들이 정리한 것을 쓸 수도 있다.
  • Zipf's Law: 일어날 횟수가 적은 event들은 엄청 많고, 일어날 횟수가 많은 event는 엄청 적다.
  • 데이터셋 내 word 분포의 경우 Zipf's Law를 너무 충실히 반영해서 문제다. phone은 덜하다.

2.

  • n-phone을 쓰면 앞/뒤 단어 내 end/start phone HMM 간 의존성이 생긴다. biphone의 경우 앞/뒤 단어 내 end/start phone HMM을 공유한다,
  • 단어 HMM을 만들 때 non-emitting state 끼리 이어 붙일지 생략하고 붙일지의 선택지가 있다. 후자의 경우 앞뒤 phone HMM간의 transition 수가 (아주 많이) 추가로 생긴다.
  • 단어 character는 같은데 phone이 다른 경우는 phone HMM을 병렬로 붙인다. 이 때 각 phone 으로의 transition끼리 normalization을 하는게 수학적으로 타당하지만 안하는게 더 잘된다.

3.

  • biphone의 경우 Zipf's Law를 잘 따르지 않는다. triphone의 경우 아주 잘 따른다.
  • 데이터가 없는 triphone의 경우 back-off를 쓴다.

댓글 없음:

댓글 쓰기