Voice Command Device,Perpaduan Sempurna Ilmu Akustik dan Teknologi Informasi

May 12, 2009

Voice Command Device adalah suatu peralatan (device) yang dikontrol melalui suara manusia (human voice). Teknologi voice command tersebut menggabungkan teknologi akustik dan teknologi informasi. Jika teknologi voice command tersebut dapat dikembangkan dengan baik dan memenuhi prinsip ergonomi, jenis teknologi tersebut akan banyak membantu pekerjaan manusia. Pada tahun 2008 kemarin jenis teknologi ini sedang berkembang di Indonesia.Telkom Research & Development Center  bekerjasama dengan Badan Pengkajian dan Penerapan Teknologi (BPPT), Advance Telecomunication Research (ATR) Labs Jepang dan Asia Pacific Telecommunity (APT) mengadakan riset untuk mengembangkan suatu prototype layanan kepada masyarakat yang memungkinkan mereka yang memiliki keterbatasan fisik menjalankan berbagai aplikasi komputer secara lebih mudah. Bagi seseorang dengan kondisi tubuh yang sehat dan lengkap akan dengan mudah menjalankan aplikasi komputer,namun bagi sebagian saudara kita yang memiliki keterbatasan dalam menggunakan kedua tangannya,menjalankan aplikasi komputer adalah hal yang tidak mudah. Riset tersebut berjudul  “RESEARCH ON IGOS LINUX VOICE COMMAND IN BAHASA INDONESIA TO AID PEOPLE WITH DIFFERENT ABILITIES AND ILLITERACY”.

perpaduan ilmu akustik dan teknologi informasi

perpaduan ilmu akustik dan teknologi informasi

Dengan aplikasi tersebut,pengguna komputer  cukup memerintahkan komputer dengan suaranya untuk menjalankan komputer, seperti mematikan, menyalakan, dan menjalankan perintah-perintah yang ingin dioperasikan di layar komputernya melalui headset microphone yang dikenakannya. Aplikasi gabungan teknologi akustik dan teknologi informasi  “Voice Command” dikembangkan dalam lima tahap, yaitu :

Data Preparation

Pada riset,diperlukan banyak contoh data  suara untuk referensi sistem.Data suara terdiri dari 50 pria dan 50 wanita dengan masing-masing mengucapkan 367 kalimat. Total kata yang digunakan adalah 351. Data suara kemudian divalidasi dan diverifikasi untuk mendapatkan ketepatan, kecepatan dan kekuatan pelafalan serta transkripsinya.

Acoustic dan Language Model

Data  yang berupa gelombang akustik (suara) tersebut  diproses untuk menghasilkan model akustik bahasa Indonesia. Pendekatan segmentasi dan pelabelan otomatis dilakukan karena data suara tidak memiliki label. Tata bahasa (language model) dalam domain perintah komputer harus dibuat agar sistem mempunyai acuan dalam mengenali input suara. Tata bahasa yang digunakan berbasis Deterministic Finite Automata (DFA). Salah satu contoh metoda yang digunakan untuk mensintesa ucapan adalah teknik Diphone Concatenation. Diphone concatenation engine atau unit pemroses diphone akan menerima masukan berupa daftar fonem yang ingin diucapkan, masing-masing disertai oleh durasi pengucapannya, serta pitch atau frekuensinya. Berdasarkan daftar fonem yang diterima, unit ini akan menentukan susunan diphone yang sesuai. Selanjutnya, unit ini akan melakukan smoothing sambungan antar diphone, melakukan manipulasi durasi pengucapan serta manipulasi pitch. Pada akhirnya, diphone concatenation engine akan menghasilkan sinyal ucapan yang sesuai.

Decoding dan Analysis

Decoding dilakukan untuk mengetahui akurasi sistem. Hasil decoding kemudian dianalisis akurasinya dalam mengenali kata maupun kalimat yang diinputkan. Namun akurasi yang dijanjikan dalam speech recognition tersebut dapat menjadi tidak tepat karena beberapa sebab, seperti :

  • Microphone yang digunakan kurang baik sehingga banyak noise yang masuk dan mengganggu sistem
  • Lingkungan sekitar gaduh atau background noise besar
  • Logat daerah yang sangat kental dan berbeda jauh dengan data preparation

Pemilihan dan penggunaan  microphone speech recognition yang baik merupakan salah satu solusi untuk mengatasi masalah pertama dan kedua.Berikut merupakan salah satu contoh microphone yang mempunyai akurasi tinggi, noise cancelling, serta performa  konsisten pada aplikasi speech recognition.microphone

Interprocess Communication

Perangkat komunikasi antar proses dikembangkan untuk menjembatani sistem pengenal wicara dengan lapisan aplikasi komputer agar dapat dikendalikan dengan suara.

Referensi :

www.telkom.co.id

http://teknologibahasa.wordpress.com/2008/03/18/speech-recognition-masih-kalah-jauh-dari-kemampuan-telinga-dan-otak-manusia

http://en.wikipedia.org/wiki/Speech_recognition

* maaf jika tulisan ini masih banyak kesalahan ^___^

Entry Filed under: Uncategorized. .

Leave a Comment

Required

Required, hidden

Some HTML allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <pre> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Trackback this post  |  Subscribe to the comments via RSS Feed


Categories

 

May 2009
M T W T F S S
« Dec    
 123
45678910
11121314151617
18192021222324
25262728293031

Blogroll

friends

Archives