「原作者へ」
連絡先を存じ上げませんでしたので、不本意ながら無断で翻訳しました。
正式に翻訳を許可されたいです。
gogyzzz@gmail.comでご連絡ください。
아래 포스트의 번역입니다.
http://work-in-progress.hatenablog.com/entry/2018/05/03/112434
음성 데이터는 시간 축에서의 변화량도 feature로 볼 수 있다.
delta feature의 추가는 「featbin/add-deltas」 커맨드를 사용한다.
원래의 feature(MFCC)가 13차원이라면, 출력 결과는 delta feature 13차원, delta-delta feature 13차원을 더하여 39차원이 된다.
delta feature (앞뒤 5frame을 추가)
각 프레임에는 아래 Scale을 곱한다.
예를 들어 198프레임이 있다고 할 때, 더해진 5프레임은 아래와 같다.
값은 frame offset을 나타낸다(0은 최초 frame을 의미한다)
( )안에는 해당하는 frame이 존재하지 않기 때문에 다시 읽은 프레임을 나타낸다.
계산 예시
mfcc가 아래 그림과 같다면
최초 프레임의 delta feature는 아래와 같이 계산된다.
( -0.2 * 15.22696 ) + ( -0.1 * 15.22696) + ( 0.0 * 15.22696) + ( 0.1 * 13.74839) + ( 0.2 * 12.28543)
= -0.736165
delta-delta feature (앞뒤 9프레임을 더함)
각 프레임에는 아래 표의 Scale을 곱한다.
예를 들어 198프레임이라고 한다면 더해지는 9프레임은 아래 표와 같다.
계산 예시
최초 프레임의 delta-delta feature는 아래와 같이 계산된다.
( 0.04 * 15.22696) + ( 0.04 * 15.22696) + ( 0.01 * 15.22696) + ( -0.04 * 15.22696) + ( -0.1 * 15.22696) + ( -0.04 * 13.74839) + ( 0.01 * 12.28543) + ( 0.04 * 12.77255) + ( 0.04 * 14.69498)
= -0.089728
댓글 없음:
댓글 쓰기