VERIFIKASI SUARA MENGGUNAKAN METODE MFCC DAN DTW MENGGUNAKAN METODE MFCC DAN DTW (BAB III METODE DAN PERANCANGAN SISTEM)

BAB III

METODE DAN PERANCANGAN SISTEM

Dalam bab Metode dan Perancangan Sistem ini dipaparkan mengenai perancangan dan pembuatan perangkat lunak verifikasi suara menggunakan metode mfcc dan dtw. Bab ini meliputi tempat dan waktu penelitian, cara penelitian dan gambaran umum mengenai proses pembuatan program.

3.1 Tempat dan Waktu Penelitian

Penelitian dilakukan di Jurusan Teknik Elektro Fakultas Teknik Universitas Udayana dari bulan Oktober 2009 hingga Januari 2009.

3.2 Data

3.2.1 Sumber Data

Data diperoleh dari jurnal dan artikel-artikel dari internet yang berhubungan dengan pembuatan sistem verifikasi suara menggunakan metode mfcc dan dtw serta data suara yang diperoleh langsung dari pengguna sistem. Data kemudian disusun dan diolah agar dapat dipakai sebagai acuan di dalam menyusun tugas akhir ini.

3.2.2 Metode Pengumpulan Data

Metode pengumpulan data menggunakan metode studi literatur, yaitu mengumpulkan data dari buku-buku referensi, modul-modul yang relevan dengan objek permasalahan, serta menggunakan metode studi observasi, yaitu dengan mengumpulkan data suara dari pengguna sistem secara langsung dengan cara mencoba sistem secara langsung.

3.3 Alur Analisis

Alur analisis dari penelitian yang dilakukan adalah sebagai berikut :

1. Pendefinisian permasalahan dari aplikasi yang ingin dibuat untuk menambah pemahaman mengenai hal tersebut.

2. Pengumpulan data yang berhubungan dengan perancangan dan pembuatan sistem, melalui studi literatur.

3. Pemahaman terhadap proses-proses yang terjadi, sehingga dapat dilakukan suatu pemodelan data.

4. Pembuatan perangkat lunak.

5. Pengujian terhadap perangkat lunak yang telah dibuat, dengan cara memasukkan beberapa contoh data.

6. Melakukan analisa terhadap hasil pengujian. Jika aplikasi sudah benar lakukan langkah 7, jika belum benar kembali ke langkah 2.

7. Pengambilan kesimpulan.

Gambar 3.1 Alur analisis perancangan sistem.

3.4 Cara Penelitian

Penelitian ini dilakukan dengan menggunakan file suara dalam bentuk *.wav. File suara diperoleh dengan melakukan perekaman suara melalui aplikasi verifikasi suara yang dibangun.

File suara (*.wav) yang diperoleh akan dicari cirri-cirinya dengan menggunakan metode feature extraction MFCC (Mel Frequency Cepstrum Coefficient). Pengujian sistem akan dilakukan dengan mencocokkan ciri-ciri suara yang telah didaftarkan pada sistem dengan suara yang ingin diuji. Proses pencocokan menggunakan metode DTW (Dynamic Time Warping)

Keberhasilan dari sistem verifikasi suara ini dapat diukur berdasarkan tingkat keberhasilan (hit rate) atau tingkat kesalahan yaitu FAR (False Acceptance Rate) dan FRR (False Rejection Rate). Keputusan sistem diambil dengan menggabungkan skor dari masing-masing klasifikasi berdasarkan biometrik suara.

3.4.1 Materi Penelitian

Materi penelitian yang dilakukan pada sistem verifikasi suara menggunakan metode mfcc dan dtw ini adalah :

- Langkah - langkah proses feature extraction dengan metode MFCC (Mel Frequency Cepstrum Coefficient).

- Langkah – langkah pencocokan suara dengan metode DTW (Dynamic Time Warping)

3.4.2 Alat Penelitian

Alat penelitian yang digunakan dalam perancangan sistem verifikasi suara menggunakan metode mfcc dan dtw, yaitu :

1. Perangkat Lunak :

Perangkat lunak yang digunakan dalam perancangan sistem ini terdiri dari :

· Sistem Operasi Microsoft Windows XP SP3.

· .Net Framework 2.0.

· Editor bahasa pemrograman Microsoft Visual C# Express Editon 2008.

2. Perangkat Keras :

Perangkat keras yang digunakan dalam penelitian ini meliputi :

· Komputer dengan spesifikasi :

· Prosesor Intel Core 2 Duo 1.8 GHz

· RAM 3 GB DDR2

· Hard Disk 120 GB

· VGA internal 384 MB

3.5 Gambaran Umum Sistem

Gambaran umum sistem merupakan gambaran proses yang dilakukan sistem secara keseluruhan serta modul-modul apa saja yang nantinya akan digunakan dalam pembuatan program. Secara umum proses dari sistem verifikasi suara menggunakan metode mfcc dan dtw adalah proses perekaman suara (voice recorder), proses training (training mode) dan proses testing atau testing mode.

Voice Recorder merupakan bagian yang bertugas merekam suara pembicara. Suara direkam dengan menggunakan format PCM (pulse code modulation). Alat yang dibutuhkan untuk proses ini adalah microphone dan audio speaker.

Training Mode adalah bagian yang bertugas mempelajari dan memodelkan suara pembicara. Pembelajaran terhadap suara pembicara dilakukan dengan membuat model dari suara pembicara kemudian menyimpannya ke dalam database.

Testing Mode merupakan bagian yang bertugas mengenali suara pembicara. Pengenalan suara dilakukan dengan melakukan pattern matching input suara terhadap model yang ada dalam database. Pada pattern matching perbandingan yang dilakukan adalah perbandingan 1:1 dimana model suara dari A langsung dibandingkan dengan model suara A yang ada dalam database.

Gambaran umum sistem verifikasi suara menggunakan metode mfcc dan dtw dapat dilihat pada gambar dibawah ini.

Gambar 3.2 Gambaran umum sistem.

3.6 Algoritma Program

Sistem pengenalan suara yang dikembangan terdiri dari beberapa algoritma diantaranya adalah algoritma MFCC (mel frequency cepstrum coefficient) dan algoritma DTW (dynamic time warping). Algoritma MFCC terdiri dari beberapa algoritma lagi yaitu algoritma dc removal, pre-emphasize, frame blocking, windowing, fft, filterbank, dct dan cepstral liftering. Berikut ini adalah perjelasan dari masing-masing algoritma yang digunakan.

3.6.1 Algoritma MFCC

Algoritma yang digunakan dalam proses feature extraction adalah MFCC. Langkah – langkah dari algoritma MFCC adalah :

1. Melakukan proses Dc Removal untuk mendapatkan nilai normal dari sampel signal.

2. Melakukan proses Pre-emphasize untuk memperbaiki signal dari gangguan noise.

3. Melakukan proses Frame Blocking bertujuan untuk membagi sampel signal menjadi beberapa frame.

4. Melakukan proses Windowing untuk mengurangi efek diskontinuitas pada ujung-ujung frame yang dihasilkan oleh proses frame blocking.

5. Melakukan proses FFT sehingga diperoleh sampel signal dalam frequensi domain.

6. Melakukan proses Fileterbank untuk mengetahui ukuran energi dari setiap frequensi band.

7. Melakukan proses DCT untuk mendapatkan mel cepstrums

8. Melakukan proses Cepstral Liftering, bertujuan menhaluskan spectrum signal.

9. Melakukan proses Remove Silence untuk menghilakan signal-signal silence.

flowchart di bawah ini menggambarkan proses MFCC ;

Gambar 3.3 Flowchart MFCC

3.6.2 Algoritma Remove DC Components

Remove DC Components bertujuan untuk menghitung rata-rata dari data sampel suara, dan mengurangkan nilai setiap sampel suara dengan nilai rata-rata tersebut. Tujuannya adalah mendapat normalisasi dari data suara input. Input dari proses ini adalah sample suara dalam bentuk array dan outputnya adalah array sample suara yang sudah dinormalisasi. Langkah-langkah dari algoritma ini adalah :

1. Tentukan variabel i dengan tipe data integer, dan variabel sum dengan tipe data double.

2. Isi variabel i dan sum dengan nilai nol

3. Cek apakah i lebih kecil dari jumlah sampel signal? Jika ya, lakukan langkah 4. Jika tidak, lakukan langkah 6.

4. Tambahkan nilai sampel signal ke- i dengan variabel sum lalu simpan ke dalam variabel sum.

5. Lakukan langkah 3 sampai 4 hingga i sama atau lebih besar dari jumlah sampel signal.

6. Isi variabel sum dengan hasil dari sum dibagi jumlah sampel signal. Proses ini akan menghasilkan nilai rata-rata dari seluruh sampel signal.

7. Set nilai i = 0.

8. Cek apakah nilai i lebih kecil dari jumlah sampel signal. Jika ya, lakukan langkah 9. Jika tidak, lakukan langkah 11.

9. Isi nilai sampel signal ke- i dengan hasil dari nilai sampel signal ke i dikurangi sum.

10. Lakukan langkah 8 sampai 9 hingga i sama atau lebih besar dari jumlah sampel signal.

11. Output dari algoritma ini adalah sampel signal yang sudah dinormalisasi.

Berikut merupakan flowchart dari proses Remove Dc.

Gambar 3.4 Flowchart remove DC components

3.6.3 Algoritma Pre emphasize

Pre-emphasize dilakukan untuk memperbaiki signal dari gangguan noise, sehingga dapat meningkatkan tingkat akurasi dari proses feature extraction. Default nilai alpha yang digunakan dalam proses ini adalah 0.97 . langkah-langkah dari algoritma ini adalah :

1. Tentukan variabel i dengan tipe data integer, dan alpha dengan tipe data double.

2. Isi variabel i dengan nilai panjang signal dikurangi satu, dan alpha dengan nilai 0.97.

3. Cek apakah i lebih besar dari 0. Jika ya lakukan langkah 4, jika tidak, lakukan langkah 6.

4. Isi nilai sampel signal ke-i dengan hasil dari nilai sampel signal ke-i dikurangi nilai sampel signal ke-(i-1) dikalikan dengan alpha.

5. Lakukan langkah 3 sampai 4 hingga nilai i sama atau lebih kecil dari nol.

6. Isi nilai sampel signal ke-i dengan hasil dari signal ke-i dikurangi signal ke-i dikali nilai alpha.

7. Sampel signal yang merupakan output dari algoritma preemphasize.

Berikut merupakan flowchart dari proses pre-emphasize filtering.

Gambar 3.5 Flowchart pre emphasize

3.6.4 Algoritma Frame Blocking

Hasil perekaman suara merupakan sinyal analog yang masih bergantung terhadap waktu atau sering disebut variant time. Oleh karena itu sinyal tersebut harus dipotong - potong dalam slot - slot waktu tertentu agar bisa dianggap invariant.

Frame blocking adalah suatu proses yang bertujuan untuk membagi sampel suara menjadi beberapa frame atau slot dengan panjang tertentu. Pada penelitian yang dilakukan sinyal suara akan dipotong sepanjang 20 ms disetiap pergeseran sepanjang 10 ms. Dibawah ini merupakan langkah-langkah dari algoritma frame blocking :

1. Tentukan variabel M, N, i, j, nFrame dengan tipe data integer.

2. Tentukan variabel arrFrame dengan tipe data double. Variabel ini digunakan sebagai tempat penyimpanan sampel signal hasil dari proses frame blocking.

3. Set nilai M = 128

4. Set nilai N = 256

5. Set nilai nFrame = panjang sampel signal / M-1

6. Set i dan j = 0

7. Cek apakah i lebih kecil dari nFrame. Jika ya, lakukan langkah 8, jika tidak, lakukan langkah 12.

8. Cek apakah j lebih kecil dari N. jika ya, lakukan langkah 9 dan 10, jika tidak, lakukan langkah 11.

9. Isi variabel arrFrame[i,j] dengan sampel signal ke - [M*i+j].

10. Ulangi langkah 8 dan 9 hingga j sama atau lebih besar dari N

11. Ulangi langkah 7 sampai 10 hingga I sama atau lebih besar dari nFrame.

12. Hasil dari algoritma frame blocking disimpan dalam variabel arrFrame.

Berikut merupakan flowchart dari proses frame blocking.

Gambar 3.6 flowchart frame blocking

3.6.5 Algoritma Windowing

Ada banyak fungsi window namun yang digunakan dalam penelitian ini adalah hamming window karena mempunyai hasil yang lebih baik dalam pembatasan sinyal yang akan dianalisa. Proses windowing berfungsi untuk mengurangi efek diskontinuitas pada ujung-ujung frame yang dihasilkan oleh proses frame blocking. Berikut adalah langkah-langkah dari alogoritma ini :

1. Tentukan variabel M, N, i, j, nFrame dengan tipe data integer.

2. Tentukan variabel arrWindow dengan tipe data double. Variabel ini digunakan sebagai tempat penyimpanan sampel signal hasil dari proses Windowing.

3. Set nilai M = 128

4. Set nilai N = 256

5. Set nilai nFrame = panjang sampel signal / M-1

6. Set i dan j = 0

7. Cek apakah i lebih kecil dari nFrame. Jika ya, lakukan langkah 8, jika tidak, lakukan langkah 12.

8. Cek apakah j lebih kecil dari N. jika ya, lakukan langkah 9 dan 10, jika tidak, lakukan langkah 11.

9. Isi variabel arrWindow[i,j] dengan hasil dari arrFrame[i,j]*(0.54 - 0.46 * cos(2*pi*j/(N-1)))

10. Ulangi langkah 8 dan 9 hingga j sama atau lebih besar dari N

11. Ulangi langkah 7 sampai 10 hingga I sama atau lebih besar dari nFrame.

12. Hasil dari algoritma windowing disimpan dalam variabel arrWindow.

Flowchart berikut ini menggambarkan proses windowing.

Gambar 3.7 flowchart Windowing

3.6.6 Algoritma Fast Fourier Transform

Analisa berdasarkan fourier transform sama artinya dengan analisa spektrum, karena fourier transform merubah signal digital dari time domain ke frequency domain. Langkah – langkah yang dilakukan dalam proses ini adalah :

1. Mulai

2. Tentukan n,nu dengan tipe data integer

3. Tentukan variabel x, xre, xim, magnitude, tr, ti, p, arg, c, s, r dengan tipe data double.

4. Tentukan nilai x

5. Isi variabel n dengan panjang x

6. Isi variabel nu dengan hasil log(n) dibagi log(2)

7. Isi variabel n2 dengan hasil n dibagi 2

8. Isi variabel nu1 dengan hasil nu dikurangi 1

9. Set i sama dengan 1

10. Cek apakah i kurang dari n?

11. Jika ya,

11.a Isi variabel xre[i] dengan nilai x[i]

11.b Isi variabel xim[i] dengan nilai 0.0f

11.c Lakukan langkah 11.a dan 11.b sampai I sama dengan atau lebih dari n

12. Set l sama dengan 1

13. Apakah l kurang atau sama dengan nu?

14. Jika ya,

14.a Apakah k kurang dari n?

14.b Jika ya,

(1) Set m sama dengan 1

(2) Apakah m kurang atau sama dengan n2

(3) Jika ya,

(a) Isi variabel p dengan nilai dari prosedure bitreverse(k>>nu1)

(b) Isi nilai arg dengan hasil dari 2+(pi * p/n)

(d) Isi variabel s dengan nilai sin(arg)

(e) Isi nilai tr dengan hasil xre[k+n2]* c + xim[k+n2]*s

(f) Isi ti dengan hasil xim[k+n2] * c – xre[k+n2] *s

(g) Isi variabel xre[k+n2] dengan hasil xre[k] – tr

(h) Isi variabel xim[k+n2] dengan hasil xim[k] – ti

(i) Isi variabel xre[k] dengan hasil xre[k] + tr

(j) Isi variabel xim[k] dengan hasil xre[k] +ti

(k) Lakukan langkah a sampai j hingga m lebih besar dari n2

(4) Jika tidak,

(5) Isi variabel k denga hasil k di tambah n2

(6) Lakukan langkah 2 sampai 5 hingga k lebih besar atau sama dengan n

14.c Jika tidak,

14.d Set k sama dengan nol

14.e Isi variabel nu1 dengan hasil nu1 dikurangi 1

14.f Isi n2 dengan hasil n2 dibagi 2

14.g Lakukan langkah 14.a sampai 14.f hingga l lebih dari nu

15. Set k sama dengan nol

16. apakah k kurang dari n?

17. jika ya,

(1) isi variabel r dengan hasil dari prosedure bitreverse(k)

(2) apakah r lebih besar dari k

(3) jika ya,

(a) isi variabel tr dengan nilai xre[k]

(b) isi variabel ti dengan nilai xim[k]

(d) isi variabel xim[k] dengan xim[r]

(e) isi variabel xer[r] dengan nilai tr

(f) isi variabel xim[r] dengan nilai ti

(g) lakukan proses a sampai f hingga r kurang atau sama

dengan k

(4) set I sama dengan nol

(5) apakah I kurang dari n dibagi dua

(6) jika ya,

(1) isi variabel magnitude[i] dengan hasil akar dari (xre[i])² + (xim[i])²

(2) lakukan langkah 1 hingga I lebih atau sama dengan n dibagi 2

18. hasil dari fft adalah magnitude

(19) selesai.

Berikut ini adalah flowchart fast fourier transform.

Gambar 3.8 Flowchart Fast Fourier Transform

3.6.7 Algoritma Mel Frequency Warping (Mel-Filterbank)

Magnitude hasil dari proses FFT selanjutnya akan melalui tahap filterbank. Untuk dapat melakukan tahap filterbank ini, maka terlebih dahulu harus dicari nilai-nilai koefisien dari filterbank. Berikut ini adalah langkah-langkahnya :

1. Mulai

2. Siapkan variabel numChannels, fftlength, samplingrate, m_melWeight, freq, bin, mel, start, center, end, sumWeight, dan melWeight.

3. Set numChannels = banyaknya channel.

4. Set samplingrate = frekuensi sampling.

5. Set fftlength = panjang FFT

6. Set freq[0] = 0

7. Set bin[0] = 0

8. Isi variabel freq[numChannels + 1] dengan hasil dari samplingrate dibagi 2

9. Isi varibael mel dengan hasil dari (2595 * log10(1 + (samplingrate / 2) / 700))

10. Isi variabel bin[numChannels+1] dengan hasil dari (round(fftlength * freq[numChannels+1] / samplingrate))

11. Set variabel k = 0

12. Cek apakah k lebih kecil atau sama dengan numChannels ? jika ya lakukan langkah 13 sampai 16, jika tidak, lanjutkan dengan langkah 17

13. Isi variabel freq[k] dengan hasil dari (700 * pow(10, (k / (numChannesl + 1) * mel / 2595)) - 1)

14. Isi variabel bin[k] dengan hasil dari (round(fftlength * freq[k] / samplingrate))

15. Isi variabel k dengan k +1

16. Lakukan langkah 12

17. Set variabel start[0] = 0

18. Set variabel central[0] = bin[0]

19. Set variabel end[0] = bin[1] – 1

20. Set variabel k = 0

21. Cek apakah k lebih kecil atau sama dengan numChannels ? jika ya, lakukan langkah 22 sampai 26. Jika tidak, lanjutkan ke langkah 27.

22. Isi variabel start[k] dengan nilai dari bin[k-1] +1

23. Isi variabel center[k] dengan nilai dari bin[k]

24. Isi variabel end[k] dengan nilai dari bin[k + 1] -1

25. Isi variabel k dengan k ditambah 1

26. Lakukan langkah 21

27. Isi variabel start[numChannels + 1] dengan nilai dari bin[numChannels] +1

28. Isi variabel center[numChannels + 1] dengan nilai dari bin[numChannels + 1]

29. Isi variabel end[numChannels + 1] dengan nilai dari bin[numChannels + 1]

30. Set k = 1

31. Apakah k lebih kecil atau sama dengan numChannels ditambah 1 ? jika ya, lakukan langkah 32 sampai 38. Jika tidak, lanjutkan ke langkah 39

32. Set i = bin[k-1]

33. Cek apakah i lebik kecil dari k ? jika ya, lakukan langkah 34 sampai 36. Jika tidak, lakukan langkah

34. Isi variabel melWeight[i] dengan hasil dari ((i - bin[k - 1]) / (bin[k] - bin[k - 1]))

35. Isi variabel i dengan I di tambah 1

36. Lakukan langkah 33

37. Tambahkan variabel i dengan 1

38. Lakukan langkah 31

39. Isi variabel melWeight[bin[numChanel + 1]] dingan 0

40. Isi variabel sumWeight[0] dengan hasil dari (bin[1] - bin[0] + 1) / 2

41. Set k = 1

42. Cek apakah k lebih kecil atau sama dengan numChannels ? jika ya, lakukan langkah 43 sampai 45. Jika tidak, lakukan langkah 46

43. Isi variabel sumWeight[k] dengan hasil dari (bin[k + 1] - bin[k - 1]) / 2

44. Tambahkan variabel k dengan 1

45. Lakukan kembali langkah 42

46. Isi variabel sumWeight[numChannels + 1] dengan hasil dari (bin[numChannels + 1] - bin[numChannels] + 1) / 2

47. Hasil dari proses ini adalah nilai-nilai awal dari filterbank yang disimpan dalam variabel sumWeight, start, center, end, dan melWeight.

48. Selesai.

Berikut ini adalah flowchart yang menunjukkan proses generate filterbank coefficients.

Gambar 3.9 Flowchart Generate Filterbank Coefficients

Setelah berhasil memperoleh koefisien filterbank, maka proses konvolusi filterbank dapat dilaksanakan. Langkah-langkah dari proses ini adalah :

1. Mulai

2. Tentukan variabel fftlength, sigFFT, nFrame, sum, start, end, melWeight, numChannels dan sigFB.

3. Isi variabel fftlength dengan panjang FFT

4. Isi variabel koef dengan panjang filterbank yang diinginkan

5. Isi variabel sigFFT dengan spektrum hasil dari proses fft

6. Isi variabel nFrame dengan jumlah frame

7. Isi variabel start, center, end dan melWeight dengan start, center, end dan melWeight hasil dari proses generate filterbank coefficients yang telah dilakukan sebelumnya.

8. Set I = 0

9. Cek apakah I lebih kecil dari nFrame ? jika ya, lakukan langkah 10 sampai 27. Jika tidak, lakukan langkah 28

10. Set k = 0

11. Cek apakah k lebih kecil atau sama dengan numChannels + 1 ? jika ya, lakukan langkah 12 sampai 25. Jika tidak, lanjutkan dengan langkah 26

12. Isi variabel sum dengan nilai dari sigFFT[i, center[k]]

13. Set varibel j sama dengan nilai dari start[k]

14. Cek apakah j lebih kecil dari nilai center[k] ? jika ya, lakukan langkah 15 sampai 17. Jika tidak, lakukan langkah 18

15. Isi variabel sum dengan sum + melWeight[j] * sigFFT[i, j]

16. Tambahkan variabel j dengan 1

17. Lakukan langkah 14

18. Set j sama dengan nilai dari center[k] + 1

19. Cek apakah j lebih kecil atau sama dengan end[k] ? jika ya, lakukan langkah 20 sampai 22. Jika tidak, lakukan langkah 23

20. Isi variabel sum dengan (sum + (1 - melWeight[j]) * sigFFT[i, j])

21. Tambahkan variabel j dengan 1

22. Lakukan langkah 19

23. Isi variabel sigFB[i, k] dengan hasil dari (sum / sumWeight[k])

24. Tambahkan variabel k dengan 1

25. Lakukan kembali langkah 11

26. Tambahkan variabel I dengan 1

27. Lakukan kembali langkah 9

28. Hasil dari proses ini adalah mel spectrums yang disimpan dalam variabel sigFB.

29. Selesai.

Berikut ini adalah flowchart yang menunjukkan proses konvolusi filterbank.

Gambar 3.10 Flowchart Konvolusi Filterbank

3.6.8 Algoritma Descrete Cosine Transform (DCT)

Proses DCT adalah langkah terakhir dari proses feature extraction. Melalui proses ini akan diperoleh beberapa nilai yang merupakan dimensi dari vector yang bersangkutan. Langkah-langkah dari algoritma ini adalah :

1. Tentukan nFrame, koef, i, j dengan tipe data integer, sigFb dan sigDCT dengan tipe data double.

2. Isi variabel nFrame dengan jumlah frame. Isi variabel koef dengan 10

3. Isi variabel i dan j dengan nol.

4. Isi variabel sigFb dengan sampel signal hasil dari proses filterbank

5. Cek apakah i lebih kecil dari nFrame ?

6. Jika ya,

6.a Cek apakah j lebih kecil dari koef?

6.b Jika ya,

a. Cek apakah k lebih kecil dari koef ?

b. Jika ya,

b.1 Isi variabel sigDCT[i, j] dengan hasil dari sigDCT[i, j] +

log(sigFb[i, k]) * cos(j * (k - 0.5) * (pi / koef)).

b.2 Isi variabel k dengan hasil dari k ditambah 1

b.3 Lakukan langkah a sampai b.2 hingga nilai k sama atau lebih besar

dari nilai koef

c. Jika tidak,

c.1 Tambahkan variabel j dengan satu.

c.2 Lakukan langkah 6.a sampai 6.b(a, b, c) hingga j sama atau lebih besar dari koef.

6.c Jika tidak,

a. Tambahkan nilai i dengan satu

b. Lakukan langkah 5 sampai 6.c hingga i sama atau lebih besar dari nFrame.

7. Jika tidak,

8. Hasil dari algorithma ini adalah mel frequency cepstrum coefficients

Berikut ini adalah flowchart dari proses DCT.

Gambar 3.11 Flowchart DCT

3.6.9 Algoritma Cepstral Liftering

Hasil dari proses DCT adalah cepstrums yang sebenarnya sudah merupakan hasil akhir dari proses feature extraction. Tetapi seperti yang telah dijelaskan pada bab sebelumnya, bahwa untuk dapat meningkatkan kualitas pengenalan, maka cepstrums hasil dari proses DCT harus melewati proses cepstral liftering. Langkah-langkah dari algoritma ini adalah :

1. Mulai

2. Tentukan variabel nFrame, koef, i dan j dengan tipe data integer, variabel sigLif dan sigDCT dengan tipe data double.

3. Set nilai variabel nFrame sama dengan jumlah frame

4. Set nilai variabel koef sama dengan 10.

5. Set nilai variabel i sama dengan nol

6. Set nilai variabel j sama dengan nol

7. Cek apakah i lebih kecil dari nFrame ?

8. Jika ya,

9. Cek apakah j lebih kecil dari koef dikurangi 1

10. Jika ya,

11. Isi variabel sigLif[i, j] dengan hasil dari sigDCT[i, j+1] * (1+(koef-1) / 2 * sin((j+1) * pi / (koef-1) ).

12. Tambahkan variabel j dengan satu.

13. Lakukan langkah 9 sampai 12 hingga j sama atau lebih besar dari koef dikurangi 1.

14. Jika tidak,

15. Tambahkan variabel i dengan satu.

16. Lakukan langkah 7 sampai 15 hingga i sama atau lebih besar dari nFrame

17. Jika tidak,

18. Hasil dari algoritma ini adalah mel cepstrum.

19. Selesai.

Berikut adalah flowchart yang menunjukkan proses cepstral liftering.

Gambar 3.12 Flowchart Cepstral Liftering.

3.6.10 Remove Silence

cepstral liftering mengakhiri proses feature extraction, namum hasilnya masih mengandung frame-frame silence. Frame semacam ini tentunya sangat mengganggu proses pengenalan pembicara. Oleh karena itu frame-frame seperti ini harus dihilangkan. Langkah-langkah dari algoritma ini adalah :

1. Mulai

2. Tentukan variabel rasio,threshold dengan tipe data double

3. Set nilai rasio sama dengan 1.0

4. Tentukan nilai rata-rata (mean) dari setiap frame

5. Tentukan nilai rata-rata (mean) dari seluruh frame

6. Isi variabel threshold dengan hasil dari nilai rata-rata seluruh frame dikali dengan rasio.

7. Hapus frame dengan mean lebih kecil dari threshold karena itu merupakan frame silence.

8. Hasilnya adalah frame-frame yang sudah tidak mengandung silence.

9. Selesai.

Berikut adalah flowchart dari proses remove silence.

Gambar 3.13 Flowchart Remove Silence.

3.7 Pemrograman

Implementasi dari pengenalan suara ini menggunakan .Net Framework 2.0 dengan Microsoft Visual Studio 2008 untuk pembuatan aplikasi dengan bahasa pemrograman C#. Bahasa Pemrograman ini menggunakan konsep pemrograman berbasis objek. Berikut ini adalah beberapa kelas utama yang digunakan dalam sistem pengenalan suara :

3.7.1 Kelas MFCC (Mel Frequency Cepstrum Coefficients)

Kelas MFCC (mel frequency cepstrum coefficients) berfungsi untuk mencari feature ciri dari suara yang diinputkan. Kelas ini terdiri dari beberapa langkah yang berurutan. Langkah-langkah tersebut terdiri dari Remove DC, Preemphasize, Frame blocking, Windowing, Fast Fourier Transform, Filterbank, Discrete Cosine Transform, Cepstral Liftering, dan Remove Silence. Berikut adalah kode program dari masing-masing langkah.

3.7.1.1 Remove DC

Remove DC merupakan proses yang bertujuan untuk melakukan normalisasi terhadap data sampel suara yang diinputkan. Berikut adalah kode program dari proses ini.

Fungsi : Normalisasi data sampel suara

Input : Data sampel suara

Output : Data sampel suara yang sudah normal

static private double[] RemoveDC()

{

try

{

double sum = 0.0;

for (int i = 0; i < length; i++)

sum += sample[i];

sum = sum / length;

for (int i = 0; i < length; i++)

sample[i] = sample[i] - sum;

return sample;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

Kode Program 3.1 Proses Remove DC

3.7.1.2 Pre-emphasize Filtering

Fungsi ini berguna untuk mengurangi noise pada signal dan menyeimbangkan spektrum pada voiced sound. Berikut adalah kode program dari fungsi pre-emphasize filtering :

Fungsi : Mengurangin noise dan menyeimbangkan spektrum

Input : Data sampel suara

Output : Data sampel suara dengan spektrum yang lebih seimbang dan

mengandung sedikit noise

static private double[] Preemphasize()

{

try

{

double[] sigDataTemp = new double[length];

for (int i = (int)length - 1; i > 0; i--)

sigDataTemp[i] = sample[i] - 0.97 * sample[i –

1];

sigDataTemp[0] = sample[0] - 0.97 * sample[0];

return sigDataTemp;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

Kode Program 3.2 Proses fre-emphasize filtering

3.7.1.3 Frame Blocking dan Windowing

Frame blocking berfungsi untuk mebagi sampel suara menjadi beberapa frame. Windowing berfungsi untuk mengurangi efek discontinuitas pada ujung-ujung data sampel hasil dari proses frame blocking. Berikut adalah kode program dari proses ini :

Fungsi : frame blocking : membagi signal menjadi beberapa frame.

Windowing : mengurangi efek discontinuitas akibat proses

frame blocking.

Input : Data sampel suara

Output : Data sampel suara yang sudah tersimpan dalam beberapa

frame

//frame blocking dan windowing

int N = samplingrate * panjangFrame / 1000;//

=>banyaknya sample dalam 1 frame kuranglebih 20-

30ms dan merupakan kelipatan 2

int M = samplingrate * pergeseranFrame / 1000;//

int nFrame = 0;

nFrame = (int)length / M - 1;

double[,] arrFrame = new double[nFrame, N];

double[,] arrWindow = new double[nFrame, N];

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < N; j++)

{

arrFrame[i, j] = sample[M * i + j];

//frame blocking

arrWindow[i, j] = arrFrame[i, j] * (0.54 –

0.46 * Math.Cos(2 * Math.PI * j / (N -

1))); //windowing

}

Kode Program 3.3 Proses frame blocking dan windowing

3.7.1.4 FFT

Kelas fast fourier transform berfungsi untuk mengubah data sampel suara dari time domain ke frequency domain. Berikut adalah kode program dari kelas FFT :

Kelas : FourierTransform.cs

Fungsi : Mengubah signal suara dari time domain ke frequency

domain.

Input : Data sampel suara dengan panjang data merupakan kelipatan

Output : Signal suara dalam domain frekuensi.

public class FourierTransform

{

static private int n, nu;

static private int BitReverse(int j)

{

int j2;

int j1 = j;

int k = 0;

for (int i = 1; i <= nu; i++)

{

j2 = j1 / 2;

k = 2 * k + j1 - 2 * j2;

j1 = j2;

}

return k;

}

static public double[] FFT(ref double[] x)

{

// Assume n is a power of 2

n = x.Length;

nu = (int)(Math.Log(n) / Math.Log(2));

int n2 = n / 2;

int nu1 = nu - 1;

double[] xre = new double[n];

double[] xim = new double[n];

double[] magnitude = new double[n2];

double[] decibel = new double[n2];

double tr, ti, p, arg, c, s;

for (int i = 0; i < n; i++)

{

xre[i] = x[i];

xim[i] = 0.0f;

}

int k = 0;

for (int l = 1; l <= nu; l++)

{

while (k < n)

{

for (int i = 1; i <= n2; i++)

{

p = BitReverse(k >> nu1);

arg = 2 * (double)Math.PI * p / n;

c = (double)Math.Cos(arg);

s = (double)Math.Sin(arg);

tr = xre[k + n2] * c + xim[k + n2] * s;

ti = xim[k + n2] * c - xre[k + n2] * s;

xre[k + n2] = xre[k] - tr;

xim[k + n2] = xim[k] - ti;

xre[k] += tr;

xim[k] += ti;

k++;

}

k += n2;

}

k = 0;

nu1--;

n2 = n2 / 2;

}

k = 0;

int r;

while (k < n)

{

r = BitReverse(k);

if (r > k)

{

tr = xre[k];

ti = xim[k];

xre[k] = xre[r];

xim[k] = xim[r];

xre[r] = tr;

xim[r] = ti;

}

k++;

}

for (int i = 0; i < n / 2; i++)

magnitude[i] = (float)(Math.Sqrt((xre[i] * xre[i])

+ (xim[i] * xim[i])));

//decibel[i] = 10.0 *

Math.Log10((float)(Math.Sqrt((xre[i] * xre[i]) +

(xim[i] * xim[i]))));

return magnitude;

//return decibel;

}

Kode Program 3.4 Proses fast fourier transform

3.7.1.5 Filterbank

Filterbank bertujuan untuk mengetahui ukuran energi pada frequency band tertentu dalam signal suara. Berikut adalah kode program dari proses inisialisasi koefisien-koefisien filterbank :

Fungsi : Mencari koefisien-koefisien filterbank.

Input : Data sampel suara dalam domain frequency

Output : koefisien-koefisien filterbank.

static private melFB[] initFB(int fftLength)

{

try

{

//-- constant for calculations --//

m_melWeight = new double[fftLength + 1];//fft/2+1

double[] freq = new double[numChanel + 2];

int[] bin = new int[numChanel + 2];

double mel;

m_MelFb = new melFB[numChanel + 2];

// m_MelFB1 = new double[numChanel +

2];

freq[0] = 0;

bin[0] = (int)(Math.Round(fftLength * freq[0] /

samplingrate));

freq[numChanel + 1] = (double)(samplingrate /

2.0);

mel = (double)(2595.0 * Math.Log10(1 +

(samplingrate / 2.0) / 700));

bin[numChanel + 1] = (int)(Math.Round(fftLength *

freq[numChanel + 1] / samplingrate));

/* Calculating mel-scaled frequency and the

corresponding FFT-bin */

/* number for the lower edge of the band

for (int k = 1; k <= numChanel; k++)

{

freq[k] = (double)(700.0 * (Math.Pow(10.0,

((double)k / (numChanel + 1) * mel / 2595.0))

- 1.0));

bin[k] = (int)(Math.Round(fftLength * freq[k]

/ samplingrate));

}

m_MelFb[0].m_lowX = 0;

m_MelFb[0].m_centerX = bin[0];

m_MelFb[0].m_highX = bin[1] - 1;

for (int k = 1; k <= numChanel; k++)

{

m_MelFb[k].m_lowX = bin[k - 1] + 1;

m_MelFb[k].m_centerX = bin[k];

m_MelFb[k].m_highX = bin[k + 1] - 1;

}

m_MelFb[numChanel + 1].m_lowX = bin[numChanel] +

m_MelFb[numChanel + 1].m_centerX = bin[numChanel +

1];

m_MelFb[numChanel + 1].m_highX = bin[numChanel +

1];

for (int k = 1; k <= numChanel + 1; k++)

{

for (int i = bin[k - 1]; i < bin[k]; i++)

{

m_melWeight[i] = (i - bin[k - 1]) /

(double)(bin[k] - bin[k - 1]);

}

m_melWeight[bin[numChanel + 1]] = 0;

m_MelFb[0].m_sumWeight = (bin[1] - bin[0] + 1) /

(double)2; //m_sumWeight

for (int k = 1; k <= numChanel; k++)

{

m_MelFb[k].m_sumWeight = (bin[k + 1] - bin[k –

1]) / (double)2;

}

m_MelFb[numChanel + 1].m_sumWeight =

(bin[numChanel + 1] - bin[numChanel] + 1) /

(double)2;

return m_MelFb;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

Kode Program 3.5 Proses initialize filterbank

Kode program berikut adalah proses konvolusi filterbank yaitu dengan melakukan multiplikasi antara spektrum signal hasil FFT dengan koefisien filterbank.

Fungsi : Mengetahui ukuran energi pada frequency band tertentu.

Input : Data sampel suara dalam domain frequency dan koefisien

filterbank

Output : Ukuran energi signal suara.

//filter bank

int fftLength = outFFT;

int koef = 10;

double[,] H2mel = new double[nFrame, numChanel +

2];

melFB[] m_MelFB3 = new melFB[numChanel + 2];

m_MelFB3 = initFB(fftLength);

for (int i = 0; i < nFrame; i++)

{

for (int k = 0; k <= numChanel + 1; k++)

{

double sum = arrFFT[i,

(int)m_MelFB3[k].m_centerX]; /* The center

weight is always 1 */

for (int j = (int)m_MelFB3[k].m_lowX; j <

m_MelFB3[k].m_centerX; j++)

{

sum += m_melWeight[j] * arrFFT[i, j];

}

for (int j = (int)m_MelFB3[k].m_centerX +

1; j <= m_MelFB3[k].m_highX; j++)

{

sum += (1 - m_melWeight[j]) *

arrFFT[i, j];

}

H2mel[i, k] = sum /

m_MelFB3[k].m_sumWeight;

}

Kode Program 3.6 Proses konvolusi filterbank

3.7.1.6 Discrete Cosine Transform

Discrete cosine transform berfungsi untuk mendekorelasi mel spectrum sehingga didapatkan representasi yang baik dari spektral lokal. DCT merupakan langkah terakhir dari proses utama MFCC. Berikut ini adalah kode program dari proses DCT :

Fungsi : Mencari mel cepstrum.

Input : mel spectrum

Output : mel cepstrum.

//DCT

double[,] arrDCT = new double[nFrame, koef];

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < koef; j++)

{

for (int k = 0; k < koef; k++)

{

arrDCT[i, j] += Math.Log10(H2mel[i,

k]) * Math.Cos(j * (k - 0.5) *

(Math.PI / koef));

}

Kode Program 3.7 Proses DCT

3.7.1.7 Cepstral Liftering

Cepstral liftering berfungsi untuk menghaluskan spektrum hasil dari proses utama MFCC. Berikut adalah kode program dari proses ini :

Fungsi : menghaluskan spektrum.

Input : mel cepstrum

Output : mel cepstrum yang lebih halus.

//cepstral liftering

double[,] arrLif = new double[nFrame, koef - 1];

//double[] hasil = new double[nFrame * (koef –

1)];

//int counter=0;

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < koef - 1; j++)

{

arrLif[i, j] = arrDCT[i, j + 1] * (1 +

(koef - 1) / 2 * Math.Sin((j + 1) *

Math.PI / (koef - 1)));

}

Kode Program 3.8 Proses cepstral liftering

3.7.1.8 Remove Silence

Remove silence berfungsi untuk menghilangkan frame-frame yang mengandung silence sehingga diharapkan dapat meningkatkan akurasi dari aplikasi pengenalan suara yang dibuat. Berikut adalah kode program dari proses remove silence :

Fungsi : Menghilangkan frame yang mengandung silence.

Input : mel frequency cepstral coefficents

Output : mel cepstrum tanpa frame silence.

//silence removal

double[] mean = new double[nFrame];

double mAllFr = 0;

double ratio = 1.0;

double threshold;

double[,] slnFrame = new double[nFrame, koef - 1];

for (int i = 0; i < nFrame; i++)

{

for (int j = 0; j < koef - 1; j++)

{

mean[i] += arrLif[i, j] / (koef - 1);

}

mAllFr += mean[i] / nFrame;

}

threshold = mAllFr * ratio;

int m = 0;//banyak frame dikurangi frame silence

for (int i = 0; i < nFrame; i++)

{

if (mean[i] < threshold)

{

for (int j = 0; j < koef - 1; j++)

{

slnFrame[m, j] = arrLif[i, j];

}

m++;

}

double[,] newFrame = new double[m, koef - 1];

double[] outMFCC = new double[m * (koef - 1)];

int w = 0;

for (int i = 0; i < m; i++)

{

for (int j = 0; j < koef - 1; j++)

{

newFrame[i, j] = slnFrame[i, j];

outMFCC[w] = newFrame[i, j];

w++;

}

Kode Program 3.9 Proses remove silence

Berikut ini adalah kode program dari kelas MFCC secara keseluruhan :

Kelas : MFCC.cs

Fungsi : Mencari feature ciri dari suara.

Input : Data sampel signal.

Output : mel frequency cepstrum coefficients.

namespace VeriVoice

{

public class MFCC

{

static public long length;

static public double[] sample;

static private int numChanel = 23;//panjang koefisien

hasil filterbank yang diinginkan

static private int samplingrate =

Properties.Settings.Default.SettingSamplesPerSecond;

static private melFB[] m_MelFb;

static private double[] m_melWeight;

static private int panjangFrame =

Properties.Settings.Default.SettingFrameLength;

//milimeter/second

static private int pergeseranFrame =

Properties.Settings.Default.SettingFrictionFrame;

//milimeter/second

static private int inFFT = 0;//panjang input FFT yang

diinginkan, harus merupakan kelipatan 2

static public double[] mfcc(double[] data, long nData)

{

sample = data;

length = nData;

try

{

sample = RemoveDC();//remove DC

sample = Preemphasize();//preemphasize

//frame blocking dan windowing

int N = samplingrate * panjangFrame / 1000;//

=>banyaknya sample dalam 1 frame kuranglebih 20-

30ms dan merupakan kelipatan 2

int M = samplingrate * pergeseranFrame / 1000;//

int nFrame = 0;

nFrame = (int)length / M - 1;

double[,] arrFrame = new double[nFrame, N];

double[,] arrWindow = new double[nFrame, N];

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < N; j++)

{

arrFrame[i, j] = sample[M * i + j];

//frame blocking

arrWindow[i, j] = arrFrame[i, j] * (0.54 –

0.46 * Math.Cos(2 * Math.PI * j / (N -

1))); //windowing

}

//fft

if (N <= 256) { inFFT = 256; } else { inFFT = 512;

} //set input length for FFT

int outFFT = inFFT / 2;

double[,] arrFFT = new double[nFrame, outFFT];

double[] arrTempFFT1 = new double[inFFT];

double[] arrTempFFT2 = new double[outFFT];

for (int i = 0; i < nFrame; i++)

{

for (int j = 0; j < N; j++)

arrTempFFT1[j] = arrWindow[i, j];

arrTempFFT2 = FourierTransform.FFT(ref

arrTempFFT1);

for (int j = 0; j < outFFT; j++)

{

arrFFT[i, j] = arrTempFFT2[j];

}

//filter bank

int fftLength = outFFT;

int koef = 10;

double[,] H2mel = new double[nFrame, numChanel +

2];

melFB[] m_MelFB3 = new melFB[numChanel + 2];

m_MelFB3 = initFB(fftLength);

for (int i = 0; i < nFrame; i++)

{

for (int k = 0; k <= numChanel + 1; k++)

{

double sum = arrFFT[i,

(int)m_MelFB3[k].m_centerX]; /* The center

weight is always 1 */

for (int j = (int)m_MelFB3[k].m_lowX; j <

m_MelFB3[k].m_centerX; j++)

{

sum += m_melWeight[j] * arrFFT[i, j];

}

for (int j = (int)m_MelFB3[k].m_centerX +

1; j <= m_MelFB3[k].m_highX; j++)

{

sum += (1 - m_melWeight[j]) *

arrFFT[i, j];

}

H2mel[i, k] = sum /

m_MelFB3[k].m_sumWeight;

}

//DCT

double[,] arrDCT = new double[nFrame, koef];

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < koef; j++)

{

for (int k = 0; k < koef; k++)

{

arrDCT[i, j] += Math.Log10(H2mel[i,

k]) * Math.Cos(j * (k - 0.5) *

(Math.PI / koef));

}

//cepstral liftering

double[,] arrLif = new double[nFrame, koef - 1];

//double[] hasil = new double[nFrame * (koef –

1)];

//int counter=0;

for (int i = 0; i < nFrame; i++)

for (int j = 0; j < koef - 1; j++)

{

arrLif[i, j] = arrDCT[i, j + 1] * (1 +

(koef - 1) / 2 * Math.Sin((j + 1) *

Math.PI / (koef - 1)));

}

//silence removal

double[] mean = new double[nFrame];

double mAllFr = 0;

double ratio = 1.0;

double threshold;

double[,] slnFrame = new double[nFrame, koef - 1];

for (int i = 0; i < nFrame; i++)

{

for (int j = 0; j < koef - 1; j++)

{

mean[i] += arrLif[i, j] / (koef - 1);

}

mAllFr += mean[i] / nFrame;

}

threshold = mAllFr * ratio;

int m = 0;//banyak frame dikurangi frame silence

for (int i = 0; i < nFrame; i++)

{

if (mean[i] < threshold)

{

for (int j = 0; j < koef - 1; j++)

{

slnFrame[m, j] = arrLif[i, j];

}

m++;

}

double[,] newFrame = new double[m, koef - 1];

double[] outMFCC = new double[m * (koef - 1)];

int w = 0;

for (int i = 0; i < m; i++)

{

for (int j = 0; j < koef - 1; j++)

{

newFrame[i, j] = slnFrame[i, j];

outMFCC[w] = newFrame[i, j];

w++;

}

return outMFCC; // mel frequency cepstral

coefficient

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

static private double[] RemoveDC()

{

try

{

double sum = 0.0;

for (int i = 0; i < length; i++)

sum += sample[i];

sum = sum / length;

for (int i = 0; i < length; i++)

sample[i] = sample[i] - sum;

return sample;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

static private double[] Preemphasize()

{

try

{

double[] sigDataTemp = new double[length];

for (int i = (int)length - 1; i > 0; i--)

sigDataTemp[i] = sample[i] - 0.97 * sample[i –

1];

sigDataTemp[0] = sample[0] - 0.97 * sample[0];

return sigDataTemp;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

/*--------------------------------------------------------

Initialize data structure for FFT windows (mel filter

bank).

Computes start (bin[k-1]), center (bin[k]) and end

(bin[k+1]) points

of each mel filter to FFT index.

Input:

m_sampleRate Sampling frequency

fftLength FFT length

numChannel Number of channels

Output:

Initialized weights and mel filters

*---------------------------------------------------------

------------------*/

static private melFB[] initFB(int fftLength)

{

try

{

//-- constant for calculations --//

m_melWeight = new double[fftLength + 1];//fft/2+1

double[] freq = new double[numChanel + 2];

int[] bin = new int[numChanel + 2];

double mel;

m_MelFb = new melFB[numChanel + 2];

// m_MelFB1 = new double[numChanel +

2];

freq[0] = 0;

bin[0] = (int)(Math.Round(fftLength * freq[0] /

samplingrate));

freq[numChanel + 1] = (double)(samplingrate /

2.0);

mel = (double)(2595.0 * Math.Log10(1 +

(samplingrate / 2.0) / 700));

bin[numChanel + 1] = (int)(Math.Round(fftLength *

freq[numChanel + 1] / samplingrate));

/* Calculating mel-scaled frequency and the

corresponding FFT-bin */

/* number for the lower edge of the band

for (int k = 1; k <= numChanel; k++)

{

freq[k] = (double)(700.0 * (Math.Pow(10.0,

((double)k / (numChanel + 1) * mel / 2595.0))

- 1.0));

bin[k] = (int)(Math.Round(fftLength * freq[k]

/ samplingrate));

}

m_MelFb[0].m_lowX = 0;

m_MelFb[0].m_centerX = bin[0];

m_MelFb[0].m_highX = bin[1] - 1;

for (int k = 1; k <= numChanel; k++)

{

m_MelFb[k].m_lowX = bin[k - 1] + 1;

m_MelFb[k].m_centerX = bin[k];

m_MelFb[k].m_highX = bin[k + 1] - 1;

}

m_MelFb[numChanel + 1].m_lowX = bin[numChanel] +

m_MelFb[numChanel + 1].m_centerX = bin[numChanel +

1];

m_MelFb[numChanel + 1].m_highX = bin[numChanel +

1];

for (int k = 1; k <= numChanel + 1; k++)

{

for (int i = bin[k - 1]; i < bin[k]; i++)

{

m_melWeight[i] = (i - bin[k - 1]) /

(double)(bin[k] - bin[k - 1]);

}

m_melWeight[bin[numChanel + 1]] = 0;

m_MelFb[0].m_sumWeight = (bin[1] - bin[0] + 1) /

(double)2; //m_sumWeight

for (int k = 1; k <= numChanel; k++)

{

m_MelFb[k].m_sumWeight = (bin[k + 1] - bin[k –

1]) / (double)2;

}

m_MelFb[numChanel + 1].m_sumWeight =

(bin[numChanel + 1] - bin[numChanel] + 1) /

(double)2;

return m_MelFb;

}

catch (Exception err)

{

MessageBox.Show(err.Message);

return null;

}

Kode Program 3.10 Proses MFCC

3.7.2 Kelas DTW (Dynamic Time Warping)

Kelas ini berfungsi untuk membandingkan antara feature sampel acuan dengan feature sampel uji. Berikut adalah kode program dari kelas DTW :

Kelas : DTW.cs

Fungsi : Membandingkan feature acuan dengan feature uji.

Input : Data feature sampel.

Output : Skor hasil perbandingan.

class DynamicTimeWarping

{

static public double DTW(double[] acuan, double[] sample)

{

int i, j = 0;

double[,] dtw = new double[acuan.Length,

sample.Length];

//string a = "";

for (i = 0; i < acuan.Length; i++)

{

for (j = 0; j < sample.Length; j++)

{

if (i + j == 0)

{

dtw[0, 0] = (double)Math.Pow((acuan[0] –

sample[0]), 2);

}

else if (i == 0)

{

dtw[i, j] = (double)Math.Pow((acuan[i] -

sample[j]), 2) + dtw[i, j - 1];

}

else if (j == 0)

{

dtw[i, j] = (double)Math.Pow((acuan[i] –

sample[j]), 2) + dtw[i - 1, j];

}

else

{

dtw[i, j] = (double)(Math.Pow((acuan[i] –

sample[j]), 2) + (Math.Min(dtw[i - 1, j –

1], Math.Min(dtw[i - 1, j], dtw[i, j –

1]))));

}

double resDtw = dtw[i-1,j-1];

return resDtw;

}

Kode Program 3.11 Proses DTW

3.8 Antarmuka Aplikasi

Antarmuka aplikasi dari sistem pengenalan suara ini terdiri dari beberapa form yang akan dijelaskan pada sub bab berikut ini.

3.8.1 Form Utama

Form utama merupakan tampilan awal yang terdiri dari menustrip pada bagian atas form, navBarControl terletak pada bagian sebelah kiri, serta statusStrip pada bagian bawah form. Menu yang terdapat pada bagian kiri dan atas berfungsi untuk memanggil form lain yang diperlukan dalam aplikasi pengenalan suara yang dirancang. Form yang akan dipanggil dari form utama antara lain : form Step by step Feature Extraction, form Enrollment from file, form Enrollment from mic, form Matching from file, form Matching from mic, form Database Control, form Simulation, dan form Data User. Gambar dibawah ini merupakan rancangan dari form utama.

Gambar 3.14 Form utama.

3.8.2 Form Step by Step Feature Extraction

Form ini akan menampilkan tahapan-tahapan dari feature extraction menggunakan metode MFCC. Dimulai dari menekan tombol Browse untuk membuka file .wav yang ingin dicari featurenya. Kemudian dilanjutkan dengan memilih menu MFCC untuk melakukan ekstraksi feature secara bertahap. Gambar berikut ini adalah form Step by step feature extraction.

Gambar 3.15 Form Step by step feature extraction.

3.8.3 Form Offline Enrollment

Form ini berfungsi untuk melakukan pendaftaran user baru secara offline. Tekan tombol Open File untuk membuka file .wav yang akan didaftarkan ke dalam sistem. Kemudian lanjutkan dengan menekan tombol Get Feature. Tekan tombol Cancel untuk keluar dari form ini. Berikut adalah gambar dari form Offline Enrollment.

Gambar 3.16 Form Offline Enrollment.

3.8.4 Form Input New Speaker

Form ini akan muncul ketika ditekan sub menu Add a sound from mic dari menu Feature Extraction pada form utama. Pada form ini user diminta untuk memasukkan username sebagai tanda pengenal dari suara yang diinputkan pada proses selanjutnya. Gambar dibawah ini merupakan form New Speaker.

Gambar 3.17 Form New Speaker.

3.8.5 Form Enrollment

Form Enrollment merupakan tampilan yang muncul setelah ditekan tombol Next pada form New Speaker. Form ini berfungsi untuk melakukan pendaftaran user baru dengan menginputkan suara langsung dari mic. Tekan tombol Start untuk mengaktifkan sistem perekaman otomatis dari aplikasi ini. Setelah sistem perekaman aktif maka aplikasi ini akan merekam suara yang diucapkan secara otomatis. Aplikasi ini juga sekaligus mengolah dan mencari fitur ciri dari suara tadi kemudian menyimpannya dalam database sebagai sampel acuan. Gambar berikut merupakan rancangan dari form Enrollment.

Gambar 3.18 Form Enrollment

Ketika tombol start pada form Enrollment ditekan maka akan muncul kotak informasi seperti pada gambar di bawah. Pada kotak pesan tersebut user diminta agar dapat mengucapkan kata yang terdapat dalam textbox Word dengan baik dan benar.

Gambar 3.19 Form MessageBox Information

Kotak pesan dibawah ini akan muncul setelah fitur cirri dari user berhasil disimpan ke dalam database.

Gambar 3.20 Form MessageBox

3.8.6 Form Offline Matching

Form Matching merpukan form yang bertugas untuk melakukan pencocokan secara offline. Pilih file yang ingin dicocokkan dengan menekan tombol Open File kemudian lanjutkan dengan menekan tombol Verify. Sistem akan mencocokkan fitur ciri dari file .wav yang diinputkan dengan fitur ciri yang tersimpan dalam database sesuai dengan username dan kata yang diucapkan. Gambar dibawah ini merupakan rancangan dari form Offline Matching.

Gambar 3.21 Form Offline Matching

3.8.7 Form New User

Form ini akan muncul saat user menekan sub menu Add a sound from mic pada menu Matching pada form utama. User diminta untuk memasukkan usernamenya agar bisa melanjutkan ke proses selanjutnya.

Gambar 3.22 Form New User

3.8.8 Form Matching

Form Matching berfungsi sebagai tempat untuk melakukan proses pencocokan antara fitur ciri dari sampel suara yang telah didaftarkan sebelumnya dengan fitur suara yang diucapkan user setelah menekan tombol start pada form Matching di bawah ini.

Gambar 3.23 Form Matching

3.8.9 Form Database Control

Form Database Control berfungsi mengatur database yang akan digunakan oleh sistem. Masukkan host address, username dan password sesuai dengan yang digunakan pada database. Disini user bisa membuat database baru sesuai kebutuhan dengan cara memberi centang pada checkbox New Database dilanjutkan dengan mengetik nama database pada textbox yang terletak di sebelah kanannya. Berikut merupakan rancangan gambar dari form Database Control.

Gambar 3.24 Form Database Control

3.8.10 Form Simulation

Form Simulation adalah form yang dirancang khusus untuk melakukan simulasi guna mengetahui unjuk kerja dari aplikasi yang dirancang. Pada form ini terdapat dua buah kurva,yaitu :

a. Kurva karakteristik kinerja sistem

Sumbu x dari kurva ini menyatakan nilai ambang (t) dan sumbu y menyatakan FMR (false match rate) dan FNMR (false non match rate) sehingga dari kurva ini akan diketahui tingkat kesuksesan dari aplikasi yang dirancang.

b. Kurva distribusi pengguna genuine dan impostor.

Sumbu x dari kurva ini merupakan skor hasil pencocokan sedangkan sumbu y adalah persentase(%) dari setiap skor. Berikut adalah rancangan gambar dari form Simulation.

Gambar 3.25 Form Simulation

3.8.11 Form Data User

Form Data User dirancang agar user dapat melihat data yang telah diinputkan seperti username, word atau kata yang diucapkan saat proses Enrollment, feature serta direktori tempat file .wav disimpan. Gambar dibawah ini merupakan rancangan form Data User.

Gambar 3.26 Form Data User

3.8.12 Form Settings

Pada form ini user dapat melakukan pengaturan terhadap panjang frame dan panjang pergeseran frame pada proses fitur ekstraksi dilakukan. Nilai default untuk panjang frame adalah 20 ms dan panjang pergeseran frame adalah 10 ms.

Gambar 3.27 Form Settings

*file lengkapnya dapat di dowload DISINI

Comments

SAIJuly 14, 2012 at 4:54 AM
This comment has been removed by the author.
MashuriDecember 19, 2012 at 8:18 AM
Kak, boleh minta program nya buat belajar?
mashuri.hasan@gmail.com
UnknownAugust 5, 2016 at 2:00 AM
terima kasih bang file.nya ..
TA sya juga berhubungan dengan ini ...
boleh minta file programnya gak bang ..
lagi stuck nih ..
Syahembolantang@ymail.com
AnonymousApril 8, 2017 at 10:14 PM
Siang kak,
Penjelasannya sangat membantu,
Apakah untuk gambar flowchartnya boleh minta diupload/diupdate juga?
Karena beberapa bagian sudah tidak muncul..
Terima kasih banyak :)
Budi PrabhawaMay 10, 2017 at 6:52 AM
hallo kak
saya junior di elektro
kebetulan saya membuat skripsi yg mirip dengan kakak
bisa minta refrensinya?
thx
email: budi_prabhawa@icloud.com

Search This Blog

notes of my days...

VERIFIKASI SUARA MENGGUNAKAN METODE MFCC DAN DTW MENGGUNAKAN METODE MFCC DAN DTW (BAB III METODE DAN PERANCANGAN SISTEM)

Comments

Post a Comment

Popular posts from this blog

VERIFIKASI SUARA MENGGUNAKAN METODE MFCC DAN DTW MENGGUNAKAN METODE MFCC DAN DTW (BAB II TINJAUAN PUSTAKA)

flexigrid + php with add and edit button

Data Flow Diagram (DFD)