Advanced search options

Advanced Search Options 🞨

Browse by author name (“Author name starts with…”).

Find ETDs with:

in
/  
in
/  
in
/  
in

Written in Published in Earliest date Latest date

Sorted by

Results per page:

You searched for subject:(klasifikacija besedil). One record found.

Search Limiters

Last 2 Years | English Only

No search limiters apply to these results.

▼ Search Limiters

1. Pečnik, Špela. Vpliv priprave nestrukturiranih podatkov na klasifikacijo.

Degree: 2019, Univerza v Mariboru

V vsakdanjem življenju se v večini primerov srečujemo z nestrukturiranimi podatki v obliki besedil iz različnih virov. Število teh iz dneva v dan narašča, zato obstaja vse večja potreba po njihovi organizaciji in kategorizaciji. Pri teh podatkih je najpomembnejša njihova predpriprava na uporabo v algoritmih strojnega učenja. Za ustrezno pripravo besedila lahko uporabimo različne metode/tehnike predprocesiranja – besedilo pretvorimo v male črke, iz njega odstranimo stop-besede, nad posameznimi besedami uporabimo krnjenje, lematizacijo, besede sestavljamo v fraze različnih dolžin (uni-grame, bi-grame, tri-grame) ali pa jih na primer pretvorimo v vektorsko obliko (ang. word embedding). S pomočjo laboratorijskega eksperimenta smo ugotovili, da nekatere tehnike predobdelave bolj vplivajo na uspešnost klasifikacije kot druge, poleg tega pa ima velik vpliv na uspešnost klasifikacije sam jezik in količina besedila, ter klasifikator, ki ga uporabimo za strojno učenje.

In everyday life, in most cases we encounter unstructured data in the form of texts from different sources. The number of these is growing every day, so there is an increasing need for their organization and categorization. For these data, the most important part is their pre-preparation for use in machine learning algorithms. Various methods/techniques of pre-processing can be used for the proper preparation of the text - we can convert the text into lower case letters, remove the stop-words from it, use stemming, lemmatization, compose words in phrases of different lengths (unigrams, bigrams, trigrams), or convert them into word embedding. With the help of a laboratory experiment, we found out that some pre-preparation techniques have a greater impact on the performance of the classification than others, and in addition, the language and quantity of the text, as well as the classifier used for machine learning, have a great influence on the success of the classification.

Advisors/Committee Members: Podgorelec, Vili.

Subjects/Keywords: nestrukturirani podatki; klasifikacija besedil; vektorska predstavitev besedil; krnjenje; lematizacija; unstructured data; text classification; word embedding; stemming; lemmatization; info:eu-repo/classification/udc/004.94:004.83(043.2)

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Pečnik, . (2019). Vpliv priprave nestrukturiranih podatkov na klasifikacijo. (Masters Thesis). Univerza v Mariboru. Retrieved from https://dk.um.si/IzpisGradiva.php?id=73712 ; https://dk.um.si/Dokument.php?id=134369&dn= ; https://plus.si.cobiss.net/opac7/bib/22489366?lang=sl

Chicago Manual of Style (16th Edition):

Pečnik, Špela. “Vpliv priprave nestrukturiranih podatkov na klasifikacijo.” 2019. Masters Thesis, Univerza v Mariboru. Accessed August 11, 2020. https://dk.um.si/IzpisGradiva.php?id=73712 ; https://dk.um.si/Dokument.php?id=134369&dn= ; https://plus.si.cobiss.net/opac7/bib/22489366?lang=sl.

MLA Handbook (7th Edition):

Pečnik, Špela. “Vpliv priprave nestrukturiranih podatkov na klasifikacijo.” 2019. Web. 11 Aug 2020.

Vancouver:

Pečnik . Vpliv priprave nestrukturiranih podatkov na klasifikacijo. [Internet] [Masters thesis]. Univerza v Mariboru; 2019. [cited 2020 Aug 11]. Available from: https://dk.um.si/IzpisGradiva.php?id=73712 ; https://dk.um.si/Dokument.php?id=134369&dn= ; https://plus.si.cobiss.net/opac7/bib/22489366?lang=sl.

Council of Science Editors:

Pečnik . Vpliv priprave nestrukturiranih podatkov na klasifikacijo. [Masters Thesis]. Univerza v Mariboru; 2019. Available from: https://dk.um.si/IzpisGradiva.php?id=73712 ; https://dk.um.si/Dokument.php?id=134369&dn= ; https://plus.si.cobiss.net/opac7/bib/22489366?lang=sl

.