Advanced search options

Advanced Search Options 🞨

Browse by author name (“Author name starts with…”).

Find ETDs with:

in
/  
in
/  
in
/  
in

Written in Published in Earliest date Latest date

Sorted by

Results per page:

Sorted by: relevance · author · university · dateNew search

You searched for subject:(avtomatsko razpoznavanje govora). Showing records 1 – 3 of 3 total matches.

Search Limiters

Last 2 Years | English Only

No search limiters apply to these results.

▼ Search Limiters

1. Grašič, Matej. Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora.

Degree: 2010, Univerza v Mariboru

V doktorski disertaciji obravnavamo problem segmentacije in grozdenja govorcev znotraj pogovornih, radijskih in televizijskih oddaj za sisteme avtomatskega razpoznavanja spontanega govora. Cilj predstavljene doktorske disertacije je definicija, implementacija in vrednotenje uspešnosti novega postopka za segmentacijo in grozdenje govorcev (diarizacijo govorcev). V okviru disertacije smo najprej realizirali referenčni online sistem za diarizacijo govorcev, ki temelji na postopku Bayesovega informacijskega kriterija (ang. »Bayesian Information Criterion« - BIC). Za referenčni sistem smo nato definirali akustične značilke z boljšo razločljivostjo govorcev v akustičnem prostoru. Nato smo dodali v postopek segmentacije statistični kriterij, kjer smo za normalizacijo rezultata kriterija uporabili univerzalni model govorca (ang. »Universal Background Model« - UBM). Ta postopek je predvsem uporaben v primerih, ko je akustične informacije znotraj segmentov premalo, da bi lahko zgradili popoln model govorca. V doktorski disertaciji smo vrednotili dva statistična kriterija in sicer razmerje križne verjetnosti (ang. »Cross Likelihood Ratio« - CLR) in normalizirano razmerje križne verjetnosti (ang. »Normalized Cross Likelihood Ratio« - NCLR). Oba kriterija izvirata s področja verifikacije govorcev, pri čemer je bila pokazana boljša uspešnost kriterija NCLR. V postopku segmentacije smo statistični kriterij uporabili kot dodatni pogoj, s katerim smo lahko izločili nepravilne prehode govorcev. Po določitvi najboljšega statističnega kriterija za področje segmentacije smo podoben pristop uporabili tudi za grozdenje. V primeru grozdenja smo kriterij BIC iz osnovnega sistema zamenjali s statističnim kriterijem za določitev grozdov. Pri tem smo vpeljali modeliranje govorca z več grozdi. Na tak način smo zajeli spreminjanje glasu govorca v posnetku. Na koncu smo optimirali celoten sistem z normalizacijo rezultata izbranega kriterija z referenčno vrednostjo kriterija

postopek je olajšal izbiro pragovne vrednosti ter izboljšal uspešnost. Prav tako smo izboljšali pravilno zaznavo kratkih segmentov govorca. To smo izvedli z adaptacijo statističnega kriterija glede na dolžino okna analize, kar je izboljšalo linearnost kriterija v primerih kratkega okna analize. V zadnji fazi smo izvedli končno ocenjevanje uspešnosti uporabljenih segmentacijskih algoritmov. Oceno uspešnosti predlaganega online sistema za diarizacijo govorcev smo izvedli na osnovi primerjave z osnovnim sistemom za diarizacijo govorcev, temelječim na postopku BIC. V drugi fazi smo primerjavo razširili na offline sisteme, kjer smo uporabili prosto dostopni offline diarizacijski sistem mClust . Za gradnjo univerzalnega modela splošnega govorca ter za določitev optimalnih vrednosti parametrov segmentacijskih postopkov smo uporabili učni del slovenske baze BNSI Broadcast News. Vrednotenje online in offline postopkov smo opravili na testnem delu slovenske in angleške govorne baze Broadcast News.

The doctoral thesis addresses the problem of speaker segmentation and clustering of…

Advisors/Committee Members: Kačič, Zdravko.

Subjects/Keywords: segmentacija govorcev; grozdenje govorcev; online diarizacija govorcev; avtomatsko razpoznavanje spontanega govora; procesiranje govornega signala; akustične značilke; statistični kriteriji; razpoznavanje govorcev; speaker segmentation; speaker clustering; on-line speaker diarization; automatic speech recognition; speaker recognition; info:eu-repo/classification/udc/004.934

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Grašič, M. (2010). Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora. (Doctoral Dissertation). Univerza v Mariboru. Retrieved from https://dk.um.si/IzpisGradiva.php?id=14624 ; https://dk.um.si/Dokument.php?id=15685&dn= ; https://plus.si.cobiss.net/opac7/bib/251660288?lang=sl

Chicago Manual of Style (16th Edition):

Grašič, Matej. “Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora.” 2010. Doctoral Dissertation, Univerza v Mariboru. Accessed November 13, 2019. https://dk.um.si/IzpisGradiva.php?id=14624 ; https://dk.um.si/Dokument.php?id=15685&dn= ; https://plus.si.cobiss.net/opac7/bib/251660288?lang=sl.

MLA Handbook (7th Edition):

Grašič, Matej. “Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora.” 2010. Web. 13 Nov 2019.

Vancouver:

Grašič M. Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora. [Internet] [Doctoral dissertation]. Univerza v Mariboru; 2010. [cited 2019 Nov 13]. Available from: https://dk.um.si/IzpisGradiva.php?id=14624 ; https://dk.um.si/Dokument.php?id=15685&dn= ; https://plus.si.cobiss.net/opac7/bib/251660288?lang=sl.

Council of Science Editors:

Grašič M. Segmentacija in grozdenje govorcev za sisteme avtomatskega razpoznavanja spontanega govora. [Doctoral Dissertation]. Univerza v Mariboru; 2010. Available from: https://dk.um.si/IzpisGradiva.php?id=14624 ; https://dk.um.si/Dokument.php?id=15685&dn= ; https://plus.si.cobiss.net/opac7/bib/251660288?lang=sl

2. Donaj, Gregor. AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO.

Degree: 2015, Univerza v Mariboru

V nalogi smo se posvetili jezikovnemu modeliranju za avtomatsko razpoznavanje govora z velikim slovarjem besed. Pri takšnem razpoznavanju je še vedno velika težava pravilnost razpoznavanja izgovorjenih besed. Ta je še posebej izrazita pri morfološko kompleksnejših jezikih, kot je slovenščina. Za delovanje sistema razpoznavanja tekočega govora potrebujemo jezikovne modele. Da lahko zgradimo primeren jezikovni model, potrebujemo ustrezno velike učne množice podatkov, ki morajo pri morfološko kompleksnejših jezikih biti še večje. Sodobni razpoznavalniki govora za slovenščino delajo več napak kot razpoznavalniki za druge jezike. Pogost problem so napačno razpoznane končnice besed. To kaže, da je smiselno razmišljati o vključevanju oblikoskladenjskih informacij v jezikovno modeliranje, če hočemo zmanjšati število napak. V doktorski nalogi predstavljamo zasnovo sistema, ki ob običajnih n-gramskih besednih jezikovnih modelih uporablja tudi modele, ki vključujejo informacije o besedni vrsti in slovničnih kategorijah prepoznanih besed. Imenujemo jih morfološki modeli. Razvili smo algoritem, ki na osnovi rezultatov perpleksnosti na razvojni množici določa najprimernejšo strukturo takšnih modelov glede na besedne vrste konteksta besede, ki jo ocenjujemo. Pravimo, da imajo modeli kontekstno odvisno strukturo. Implementirali smo jih kot faktorizirane jezikovne modele. V teh modelih se soočamo z veliko množico različnih možnih kontekstov besede in za vsak kontekst gradimo strukturo modelov ločeno. Pri tem lahko uporabimo le majhen del učne množice. Zato prihaja tudi tukaj do pomanjkanja učnih podatkov, kljub temu da imamo manjše zahteve po velikosti učne množice. Zato smo razvili pristope združevanja različnih kontekstov. Zaradi velikega števila možnih kontekstov in veliko različnih možnosti struktur modelov smo razvili tudi pristope za omejeno iskanje možnih struktur modelov na podlagi postopne gradnje njihovih struktur in sprotnega ocenjevanja. Sistem razpoznavanja je zasnovan v obliki dvoprehodnega algoritma, kjer v drugem prehodu uporabljamo v okviru doktorske disertacije razvite modele. Razvili smo tudi postopek za hitro optimizacijo uteži modelov in postopek dinamičnega uteževanja glede na kontekst besede. Uspešnost razpoznavanja z razvitimi modeli in brez njih smo testirali na slovenski govorni bazi Broadcast News.

In this thesis, we are focused on language modelling for automatic speech recognition in large vocabulary applications, where we are still experiencing the problem of insufficient recognition accuracy. This problem is more present in morphologically complex languages, for example Slovene. For such a system to work properly we need language models. State of the art speech recognition systems for Slovene still produce a hidher number of recognition errors that recognizers for other langauges. We see many sentences that are still understandable, but which contain syntactical errors. Often errors are present in the word endings. Therefore it seems reasonable to include morphosyntactic information into language…

Advisors/Committee Members: Kačič, Zdravko.

Subjects/Keywords: avtomatsko razpoznavanje govora z velikim slovarjem; jezikovno modeliranje; faktorizirani jezikovni modeli; perpleksnost; oblikoskladenjske oznake; dvoprehodni iskalni algoritmi; large vocabulary automatic speech recognition; language modelling; factored language models; perplexity; morphosyntactic description tags; two-pass search algorithms; info:eu-repo/classification/udc/004.934:81'366-047.58(043.3)

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Donaj, G. (2015). AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO. (Doctoral Dissertation). Univerza v Mariboru. Retrieved from https://dk.um.si/IzpisGradiva.php?id=47775 ; https://dk.um.si/Dokument.php?id=71787&dn= ; https://plus.si.cobiss.net/opac7/bib/18693910?lang=sl

Chicago Manual of Style (16th Edition):

Donaj, Gregor. “AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO.” 2015. Doctoral Dissertation, Univerza v Mariboru. Accessed November 13, 2019. https://dk.um.si/IzpisGradiva.php?id=47775 ; https://dk.um.si/Dokument.php?id=71787&dn= ; https://plus.si.cobiss.net/opac7/bib/18693910?lang=sl.

MLA Handbook (7th Edition):

Donaj, Gregor. “AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO.” 2015. Web. 13 Nov 2019.

Vancouver:

Donaj G. AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO. [Internet] [Doctoral dissertation]. Univerza v Mariboru; 2015. [cited 2019 Nov 13]. Available from: https://dk.um.si/IzpisGradiva.php?id=47775 ; https://dk.um.si/Dokument.php?id=71787&dn= ; https://plus.si.cobiss.net/opac7/bib/18693910?lang=sl.

Council of Science Editors:

Donaj G. AVTOMATSKO RAZPOZNAVANJE GOVORA ZA PREGIBNI JEZIK Z UPORABO MORFOLOŠKIH JEZIKOVNIH MODELOV S KONTEKSTNO ODVISNO STRUKTURO. [Doctoral Dissertation]. Univerza v Mariboru; 2015. Available from: https://dk.um.si/IzpisGradiva.php?id=47775 ; https://dk.um.si/Dokument.php?id=71787&dn= ; https://plus.si.cobiss.net/opac7/bib/18693910?lang=sl

3. Kos, Marko. AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS.

Degree: 2010, Univerza v Mariboru

V doktorski disertaciji obravnavamo problematiko klasifikacije in segmentacije akustičnih signalov v domeni radijskih vsebin in televizijskih informativnih oddaj. Cilj predstavljene doktorske disertacije je zasnovati sistem za online akustično segmentacijo, ki bo podpiral tri vrste akustične segmentacije. To so: segmentacija govor/negovor (kjer smo velik poudarek dali segmentaciji govor/glasba, saj predstavlja glasba v domeni broadcast news večino negovornega materiala), segmentacija po spolu govorcev in segmentacija po pasovni širini signala. Za vsako vrsto akustične segmentacije, ki jo obravnavamo v doktorski nalogi, smo analizirali diskriminatorne sposobnosti nekaterih značilk, kako uspešne so te značilke pri razločevanju med posameznimi akustičnimi razredi. Za segmentacijo govor/negovor smo predlagali tudi nov vektor značilk VEFB (varianca energije filtrske banke). Značilke VEFB smo predlagali kot uspešen diskriminator za razločevanje predvsem med govorom in peto glasbo, izkazale pa so se tudi kot dober diskriminator med govorom in negovorom na splošno. Za analizo diskriminatornih sposobnosti značilk za razločevanje govornega in negovornega akustičnega razreda smo uporabili slovensko bazo BNSI Broadcast News, za analizo diskriminatornih sposobnosti razločevanja med govorom in glasbo pa smo uporabili bazo radijskih posnetkov. Za segmentacijo po spolu govorcev smo analizirali diskriminatorne sposobnosti značilk za razločevanje med moškimi govorci in ženskimi govorkami. Ker osnovna harmonska frekvenca ni zanesljiv diskriminator med moškimi in ženskimi glasovi, ob tem pa je sam postopek izločanja osnovne harmonske komponente občutljiv na slabše akustične razmere (šum, popačenje), smo razločevanje med moškimi in ženskimi glasovi izvedli s splošnimi akustičnimi značilkami. Značilke MFCC (mel-frekvenčni kepstralni koeficienti) so se v preteklosti že izkazale kot dober diskriminator med moškimi govorci in ženskimi govorkami. Da bi zmanjšali vpliv kratkočasovnih značilnosti govora in bolj poudarili splošne značilnosti govorca, smo izračunavali povprečne vrednosti značilk. Na ta način nam je uspelo poudariti tudi razlike med moškimi govorci in ženskimi govorkami, kar je prispevalo k večji diskriminatorni sposobnosti značilk. Za segmentacijo po pasovni širini signala smo prav tako analizirali diskriminatorne sposobnosti nekaterih splošnih akustičnih značilk in nekaterih bolj specifičnih značilk. Ob tem smo predlagali tudi tri nove značilke za razločevanje med širokopasovnim studijskim govorom in ozkopasovnim telefonskim govorom, med katerimi se je kot najboljša izkazala značilka PMSU (povprečna vrednost modificiranega spektralnega upada). Ob značilki PMSU smo predlagali še značilki VPVFB (varianca povprečne vrednosti frekvenčnih binov) in VEVF (varianca energije višjih frekvenc). Značilki PMSU in VEVF sta se obnesli kot dober diskriminator med studijskim in telefonskim govorom, še posebej značilka PMSU, ki je dosegla dovolj dober rezultat, da bi jo lahko uporabili kot samostojni diskriminator. Zaradi enostavnosti… Advisors/Committee Members: Kačič, Zdravko.

Subjects/Keywords: akustična segmentacija; akustična klasifikacija; segmentacija govor/negovor; segmentacija govor/glasba; segmentacija po spolu govorca; segmentacija po pasovni širini signala; online segmentacija; procesiranje govora; avtomatsko razpoznavanje govora; This thesis covers the issues of classification and segmentation of acoustic signals in the domain of broadcast radio and television. The goal of doctoral thesis is to devise a system for online acoustic segmentation; which will support three kinds of acoustic segmentation: speech/nonspeech segmentation (where we will also deal with speech/music segmentation; because music represents much of the nonspeech material in Broadcast News domain); gender segmentation and bandwidth segmentation. For each kind of acoustic segmentation the discriminative abilities of selected features were analyzed. Features’ abilities to discriminate between individual acoustic classes were tested. For speech/nonspeech segmentation a new feature vector called VEFB (energy variance of filter bank) was proposed. The VEFB features were proposed to be a successful discriminator between speech acoustic class and music acoustic class; but they also prove to be successful in discriminating between speech and nonspeech in general. We used; info:eu-repo/classification/udc/004.934

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Kos, M. (2010). AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS. (Doctoral Dissertation). Univerza v Mariboru. Retrieved from https://dk.um.si/IzpisGradiva.php?id=14593 ; https://dk.um.si/Dokument.php?id=15611&dn= ; https://plus.si.cobiss.net/opac7/bib/251662336?lang=sl

Chicago Manual of Style (16th Edition):

Kos, Marko. “AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS.” 2010. Doctoral Dissertation, Univerza v Mariboru. Accessed November 13, 2019. https://dk.um.si/IzpisGradiva.php?id=14593 ; https://dk.um.si/Dokument.php?id=15611&dn= ; https://plus.si.cobiss.net/opac7/bib/251662336?lang=sl.

MLA Handbook (7th Edition):

Kos, Marko. “AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS.” 2010. Web. 13 Nov 2019.

Vancouver:

Kos M. AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS. [Internet] [Doctoral dissertation]. Univerza v Mariboru; 2010. [cited 2019 Nov 13]. Available from: https://dk.um.si/IzpisGradiva.php?id=14593 ; https://dk.um.si/Dokument.php?id=15611&dn= ; https://plus.si.cobiss.net/opac7/bib/251662336?lang=sl.

Council of Science Editors:

Kos M. AKUSTIČNA SEGMENTACIJA ZVOČNIH SIGNALOV V DOMENI BROADCAST NEWS. [Doctoral Dissertation]. Univerza v Mariboru; 2010. Available from: https://dk.um.si/IzpisGradiva.php?id=14593 ; https://dk.um.si/Dokument.php?id=15611&dn= ; https://plus.si.cobiss.net/opac7/bib/251662336?lang=sl

.