.:: CHATBOX ::.

Sabtu, 21 November 2009

PTSI 1C - BIOMETRICS SPEECH PROCESSING


Pendahuluan

Pembicara, atau suara, pengakuan adalah suatu modalitas biometrik yang menggunakan suara individu untuk tujuan pengenalan. (Ini perbedaan teknologi dari "speech recognition", kata-kata yang mengakui mereka diartikulasikan, yang bukan biometrik.) Pembicara proses pengakuan bergantung pada fitur-fitur dipengaruhi oleh baik struktur fisik individu vokal dan perilaku karakteristik individu. Sebuah pilihan populer untuk otentikasi jauh karena ketersediaan perangkat untuk mengumpulkan pidato sampel (misalnya, jaringan telepon komputer dan mikrofon) dan kemudahan integrasi, pembicara pengakuan ini berbeda dengan metode biometrik lain dalam contoh pidato itu ditangkap secara dinamis atau selama periode waktu, seperti beberapa detik. Analisis terjadi pada model yang berubah dari waktu ke waktu yang dipantau, yang mirip dengan perilaku biometrik yang seperti tanda tangan yang dinamis, gaya berjalan, dan keystroke recognition.


Sejarah

Speaker verifikasi telah bersama-sama berkembang dengan teknologi pidato, speech recognition dan speech synthesis karena kemiripan kerakteristik dan tantangan yang saling berkaitan. Pada tahun 1960, Gunnar Fant, seorang profesor dari Swedia, menerbitkan sebuah model yang menggambarkan komponen fisiologis akustik produksi dari produksi acoustic speech, didasarkan pada analisis x-ray setiap individu membuat phonic speech tertentu. Pada tahun 1970, Dr Yusuf Perkell menggunakan x-ray bergerak (motion x-ray) dan termasuk lidah dan rahang, untuk memperluas model dari Fant. Sistem pengenalan pembicaraan asli menggunakan output rata-rata,beberapa analog penyaring untuk melakukan pencocokan, biasanya dengan bantuan manusia "dalam lingkaran". Pada tahun 1976, Texas Instruments membangun sebuah sistem prototipe yang diuji oleh Angkatan Udara AS dan The Mitre Corporation. Pada pertengahan tahun 1980-an, National Institute of Standards and Technology (NIST) mengembangkan NIST Speech Group untuk mempelajari dan mempromosikan penggunaan teknik speech processing. sejak 1996, di bawah pendanaan dari National Security Agency, NIST Speech Group telah menyelenggarakan evaluasi tahunan, The NIST Speaker Recognition Evaluation Workshop, untuk mendorong terus kemajuan speech recognition masyarakat.


Pendekatan

Komponen fisiologis pengenalan suara terkait dengan bentuk fisik individu sistem vokal, yang terdiri dari sebuah napas dan jaringan lunak rongga dari mana suara-suara vokal berasal. Untuk menghasilkan speech, komponen ini bekerja dikombinasikan dengan gerakan fisik rahang, lidah, dan pangkal tenggorokan dan resonansi di bagian hidung. Pola akustik dari Speech berasal dari karakteristik fisik saluran pernapasan. Gerakan mulut dan [engucapan adalah perilaku komponen biometrik ini.
Ada dua bentuk pengakuan pembicara : text dependent (constrained mode) and text independent (unconstrained mode). Dalam sistem menggunakan "text dependent" speech, masing-masing menyajikan baik yang tetap (password) atau diminta ("Silakan ucapkan angka '33-54-63' "). Frase yang diprogram ke dalam sistem dan dapat meningkatkan kinerja khususnya dengan pengguna-pengguna yang koperatif. Sebuah "text independent" sistem tidak memiliki pengetahuan tentang kemajuan ungkapan presenter dan jauh lebih fleksibel dalam situasi dimana masing-masing mengirimkan sampel yang mungkin tidak menyadari pengumpulan atau tidak mau bekerja sama, dimana yang menyajikan tantangan yang lebih sulit.
Sampel Speech adalah berbentuk gelombang dengan waktu pada sumbu horizontal dan kenyaringan pada akses vertikal. The speaker recognition menganalisis sistem isi frekuaensi berbicara dan membandingkan karakteristik seperti kualitas, durasi, intesitas, dinamika, dan nada dari sinyal.


Speaker Recognition

Dalam "text dependent" sistem, selama pengumpulan atau pendaftaran fase, individu mengatakan sebuah kata atau frase pendek (ucapan), biasanya ditangkap menggunakan mikrofon yang dapat yang sederhana seperti telepon. Sampel suara diubah dari format analog ke format digital, fitur dari suara individu yang diekstrak, dan kemudian model dibuat. Kebanyakan "text dependent" speaker sistem verrifikasi menggunakan konsep Hidden Markov Model (HMMs), acak berdasarkan model-model yang menyediakan statistik representasi dari suara yang dihasilkan oleh individu. HMM mewakili variasi dan temporal yang mendasari perubahan dari waktu ke waktu ditemukan di dalam The Speech States menggunakan kualitas/durasi/intesitas dinamika/pitch karakteristik yang telah disebutkan sebelumnya. Metode lain adalah Gaussian Mixture Model, model states-mapping berkaitan erat dengan HMM, itu sering digunakan untuk yang tanpa "text independent" aplikasi. Seperti HMM< metode ini menggunakan suara untuk menciptakan sejumlah vektor "menyatakan" mewakili suara berbagai bentuk, yaitu karakteritik fisiologi dan perilaku individu. Metode ini semua membandingkan persamaan dan perbedaan antara suara input dan suara disimpan "states" untuk menghasilkan pengakuan keputusan.
Setelah pendaftaran, selama fase pengakuan, sama kualitas/durasi/kenyaringan/pitch fitur yang diambil dari sampel yang diserahkan dan dibandingkan dengan model yang diklaim atau hipotesis identitas dan untuk model dari pembicaraan lain. iThe other-speaker (atau "anti-speaker") model berisi "states" dari berbagai individu, tidak termasuk dari yang diklaim atau hipotesis identitas. Sampel suara input dan model-model terdaftar dibandingkan untuk menghasilkan sebuah "likelihood ratio", menunjukan kemungkinan bahwa input sampel berasal dari yang diklaim atau dihipotesiskan pembicara. Jika input suara milik identitas diklaim atau dihipotesis, nilai akan mencerminkan sampel yang akan lebih mirip dengan yang diklaim atau identitas model yang dihipotesikan daripada model "anti-speaker".


Pelaksanaan yang tampaknya mudah dari speaker recognition system berkontribusi pada proses kelemahan utama -- kerentanan terhadap saluran transmisi dan mikrofon variabilitas dan kebisingan. Sistem dapat menghadapi masalah ketika pengguna akhir telah mendaftarkan pada telepon jalur darat yang bersih dan upaya verifikasi dengan menggunakan telepon selular yang bising. Ketidakmampuan untuk mengendalikan faktor-faktor mempengaruhi sistem input secara signifikan dapat menurunkan kinerja. Speaker sistem verifikasi, kecuali itu semua menggunakan frase yang diminta, juga rentan terhadap serangan spoofing melalui penggunaan rekaman suara. Anti-spoofing langkah-langkah yang membutuhkan ucapan tertentu dan acak kata atau frase dilaksanakan untuk mengatasi kelemahan ini. Sebagai contoh, sistem mungkin meminta frase yang dihasilkan secara acak, seperti "33-54-63", untuk mencegah serangan dari pra-sampel suara yang direkam. Pengguna tidak dapat mengantisipasi sampel acak yang akan dibutuhkan dan karena itu tidak dapat berhasil melakukan "playback" spoofing serangan terhadap sistem.
Penelitian terkini dalam bidang "text independent" speaker recognition ini terutama berfokus pada bergerak melampaui tingkat rendah analisis spektral yang dibahas sebelumnya. Meskipun spektral tingkat informasi masih merupakan kekuatan pendorong di belakang the recognitions, sumbu karakteristik tingkat tinggi dengan tingkat renda informasi spektral menjadi teknik laboratorium yang populer. Contoh karakteristik yang lebih tinggi meliputi : prosodic charachteristics seperti ritme, kecepatan, modulasi dan intonasi, didasarkan pada tipe kepribadian dan pengaruh orang tua; dan semantik, idiolects, pengucapan dan keistimewaan, berkaitan dengan tempat lahir, status sosial-ekonomi, dan tingkat pendidikan. Karakteristik tingkat yang lebih tinggi dapat dikombinasikan dengan mendasari tingkat rendah spektral informasi untuk meningkatkan kinerja dari "text independent" sistem pengenalan pembicara.

Evaluasi Pemerintah Amerika Serikat

Sejak tahun 1996, National Institute of Standards dan Technology (NIST) telah melakukan serangkaian berkelanjutan evaluasi tahunan disebut NIST Speaker Recognition Evaluations, yang berfungsi sebagai dasar-dasar uji untuk membandingkan dan berkolaborasi pada upaya penelitian di seluruh masyarakat. Tujuan dari evaluasi adalah untuk menentukan situasi seni saat ini, untuk memupuk perkembangan teknologi, dan untuk mengidentifikasi pendekatan algoritmik yang paling dominan dan menjanjikan terhadap masalah-masalah yang dihadapi oleh Speech Recognition.

Kesimpulan

Berkat komitmen peneliti dan dukungan dari NSA dan NIST, speaker recognition akan terus berkembang sebagai kemajuan komunikasi dan teknologi komputasi. Mereka bertekad akan membantu untuk lebih mengembangan teknologi sehingga menjadi dapat diandalkan dan konsisten sarana identifikasi untuk digunakan dalam remote recognition.

sumber : www.biometrics.gov/Documents/SpeakerRec.pdf

1 komentar on "PTSI 1C - BIOMETRICS SPEECH PROCESSING"

Anonim mengatakan...

kq g blh klik kanan seh??????????????

Posting Komentar

 

.::FEEL THE SUMMER BREEZE::. Copyright 2008 All Rights Reserved Baby Blog Designed by Ipiet and s.Z.c.H.a | All Image Presented by Tadpole's Notez