2019년 7월 13일 토요일

음성인식 메모(Kaldi) 12 - (delta feature)

「原作者へ」

連絡先を存じ上げませんでしたので、不本意ながら無断で翻訳しました。 
正式に翻訳を許可されたいです。 
gogyzzz@gmail.comでご連絡ください。

아래 포스트의 번역입니다.

http://work-in-progress.hatenablog.com/entry/2018/05/03/112434


음성 데이터는 시간 축에서의 변화량도 feature로 볼 수 있다.

delta feature의 추가는 「featbin/add-deltas」 커맨드를 사용한다.

원래의 feature(MFCC)가 13차원이라면, 출력 결과는 delta feature 13차원, delta-delta feature 13차원을 더하여 39차원이 된다.

delta feature (앞뒤 5frame을 추가)

각 프레임에는 아래 Scale을 곱한다.

예를 들어 198프레임이 있다고 할 때, 더해진 5프레임은 아래와 같다.

값은 frame offset을 나타낸다(0은 최초 frame을 의미한다)

( )안에는 해당하는 frame이 존재하지 않기 때문에 다시 읽은 프레임을 나타낸다.

계산 예시

mfcc가 아래 그림과 같다면

최초 프레임의 delta feature는 아래와 같이 계산된다.

( -0.2 * 15.22696 ) + ( -0.1 * 15.22696) + ( 0.0 * 15.22696) + ( 0.1 * 13.74839) + ( 0.2 * 12.28543) 
= -0.736165

delta-delta feature (앞뒤 9프레임을 더함)

각 프레임에는 아래 표의 Scale을 곱한다.

예를 들어 198프레임이라고 한다면 더해지는 9프레임은 아래 표와 같다.

계산 예시

최초 프레임의 delta-delta feature는 아래와 같이 계산된다.

( 0.04  * 15.22696) + ( 0.04  * 15.22696) + ( 0.01  * 15.22696) + ( -0.04 * 15.22696) + ( -0.1  * 15.22696) + ( -0.04 * 13.74839) + ( 0.01  * 12.28543) + ( 0.04  * 12.77255) + ( 0.04  * 14.69498)
= -0.089728

댓글 없음:

댓글 쓰기