Advanced search options

Advanced Search Options 🞨

Browse by author name (“Author name starts with…”).

Find ETDs with:

in
/  
in
/  
in
/  
in

Written in Published in Earliest date Latest date

Sorted by

Results per page:

Sorted by: relevance · author · university · dateNew search

You searched for subject:(Stanford NER). Showing records 1 – 2 of 2 total matches.

Search Limiters

Last 2 Years | English Only

No search limiters apply to these results.

▼ Search Limiters


KTH

1. Chau, Ting-Hey. Translation Memory System Optimization : How to effectively implement translation memory system optimization.

Degree: Computer Science and Communication (CSC), 2015, KTH

Translation of technical manuals is expensive, especially when a larger company needs to publish manuals for their whole product range in over 20 different languages. When a text segment (i.e. a phrase, sentence or paragraph) is manually translated, we would like to reuse these translated segments in future translation tasks. A translated segment is stored with its corresponding source language, often called a language pair in a Translation Memory System. A language pair in a Translation Memory represents a Translation Entry also known as a Translation Unit. During a translation, when a text segment in a source document matches a segment in the Translation Memory, available target languages in the Translation Unit will not require a human translation. The previously translated segment can be inserted into the target document. Such functionality is provided in the single source publishing software, Skribenta developed by Excosoft. Skribenta requires text segments in source documents to find an exact or a full match in the Translation Memory, in order to apply a translation to a target language. A full match can only be achieved if a source segment is stored in a standardized form, which requires manual tagging of entities, and often reoccurring words such as model names and product numbers. This thesis investigates different ways to improve and optimize a Translation Memory System. One way was to aid users with the work of manual tagging of entities, by developing Heuristic algorithms to approach the problem of Named Entity Recognition (NER). The evaluation results from the developed Heuristic algorithms were compared with the result from an off the shelf NER tool developed by Stanford. The results shows that the developed Heuristic algorithms is able to achieve a higher F-Measure compare to the Stanford NER, and may be a great initial step to aid Excosofts’ users to improve their Translation Memories.

Översättning av tekniska manualer är väldigt kostsamt, speciellt när större organisationer behöver publicera produktmanualer för hela deras utbud till över 20 olika språk. När en text (t.ex. en fras, mening, paragraf) har blivit översatt så vill vi kunna återanvända den översatta texten i framtida översättningsprojekt och dokument. De översatta texterna lagras i ett översättningsminne (Translation Memory). Varje text lagras i sitt källspråk tillsammans med dess översättning på ett annat språk, så kallat målspråk. Dessa utgör då ett språkpar i ett översättningsminnessystem (Translation Memory System). Ett språkpar som lagras i ett översättningsminne utgör en Translation Entry även kallat Translation Unit. Om man hittar en matchning när man söker på källspråket efter en given textsträng i översättningsminnet, får man upp översättningar på alla möjliga målspråk för den givna textsträngen. Dessa kan i sin tur sättas in i måldokumentet. En sådan funktionalitet erbjuds i publicerings programvaran Skribenta, som har utvecklats av Excosoft. För att utföra en översättning…

Subjects/Keywords: NER; Named Entity Recognition; TM; Translation Memory; Stanford NER; Language Technology (Computational Linguistics); Språkteknologi (språkvetenskaplig databehandling)

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Chau, T. (2015). Translation Memory System Optimization : How to effectively implement translation memory system optimization. (Thesis). KTH. Retrieved from http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-169218

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

Chicago Manual of Style (16th Edition):

Chau, Ting-Hey. “Translation Memory System Optimization : How to effectively implement translation memory system optimization.” 2015. Thesis, KTH. Accessed July 14, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-169218.

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

MLA Handbook (7th Edition):

Chau, Ting-Hey. “Translation Memory System Optimization : How to effectively implement translation memory system optimization.” 2015. Web. 14 Jul 2020.

Vancouver:

Chau T. Translation Memory System Optimization : How to effectively implement translation memory system optimization. [Internet] [Thesis]. KTH; 2015. [cited 2020 Jul 14]. Available from: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-169218.

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

Council of Science Editors:

Chau T. Translation Memory System Optimization : How to effectively implement translation memory system optimization. [Thesis]. KTH; 2015. Available from: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-169218

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

2. Afram, Gabriel. Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression.

Degree: Information Systems and Technology, 2018, Mid Sweden University

The new General Data Protection Regulation (GDPR) Act will apply to all companies within the European Union after 25 May. This means stricter legal requirements for companies that in some way store personal data. The goal of this project is therefore to make it easier for companies to meet the new legal requirements. This by creating a tool that searches file systems and visually shows the user in a graphical user interface which files contain personal data. The tool uses Named entity recognition with the Linear chain conditional random field algorithm which is a type of supervised learning method in machine learning. This algorithm is used in the project to find names and addresses in files. The different models are trained with different parameters and the training is done using the stanford NER library in Java. The models are tested by a test file containing 45,000 words where the models themselves can predict all classes to the words in the file. The models are then compared with each other using the measurements of precision, recall and F-score to find the best model. The tool also uses Regular Expression to find emails, IP numbers, and social security numbers. The result of the final machine learning model shows that it does not find all names and addresses, but that can be improved by increasing exercise data. However, this is something that requires a more powerful computer than the one used in this project. An analysis of how the Swedish language is built would also need to be done to apply the most appropriate parameters for the training of the model.

Den nya lagen General data protection regulation (GDPR) började gälla för alla företag inom Europeiska unionen efter den 25 maj. Detta innebär att det blir strängare lagkrav för företag som på något sätt lagrar personuppgifter. Målet med detta projekt är därför att underlätta för företag att uppfylla de nya lagkraven. Detta genom att skapa ett verktyg som söker igenom filsystem och visuellt visar användaren i ett grafiskt användargränssnitt vilka filer som innehåller personuppgifter. Verktyget använder Named Entity Recognition med algoritmen Linear Chain Conditional Random Field som är en typ av ”supervised” learning metod inom maskininlärning. Denna algoritm används för att hitta namn och adresser i filer. De olika modellerna tränas med olika parametrar och träningen sker med hjälp av biblioteket Stanford NER i Java. Modellerna testas genom en testfil som innehåller 45 000 ord där modellerna själva får förutspå alla klasser till orden i filen. Modellerna jämförs sedan med varandra med hjälp av mätvärdena precision, recall och F-score för att hitta den bästa modellen. Verktyget använder även Regular expression för att hitta e- mails, IP-nummer och personnummer. Resultatet på den slutgiltiga maskininlärnings modellen visar att den inte hittar alla namn och adresser men att det är något som kan förbättras genom att öka träningsdata. Detta är dock något som kräver en kraftfullare dator än den som användes i detta projekt. En undersökning på hur det…

Subjects/Keywords: GDPR; Linear chain conditional random field; Machine learning; Stanford NER; Precision; Recall; F-score; Regular expression; GDPR; Linear chain conditional random field; Maskininlärning; Stanford NER; Precision; Recall; F-score; Regular expression; Software Engineering; Programvaruteknik

…tecken innan och efter ett snabel-a. 2.7 Stanford NER Stanford NER är en named entity… …Stanford NER använder sig av linear chain conditional random field för att märka ut entiteter i… …träna named entity recognizer modellen i Stanford NER. Alla bibliotek som nämns i sektion… …2.11.1 - 2.11.6 användes i detta projekt. ”Stanford NER” biblioteket användes för att träna en… …med Stanford NER modellen och Regular expression för att se ifall några eventuella… 

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Afram, G. (2018). Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression. (Thesis). Mid Sweden University. Retrieved from http://urn.kb.se/resolve?urn=urn:nbn:se:miun:diva-34069

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

Chicago Manual of Style (16th Edition):

Afram, Gabriel. “Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression.” 2018. Thesis, Mid Sweden University. Accessed July 14, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:miun:diva-34069.

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

MLA Handbook (7th Edition):

Afram, Gabriel. “Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression.” 2018. Web. 14 Jul 2020.

Vancouver:

Afram G. Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression. [Internet] [Thesis]. Mid Sweden University; 2018. [cited 2020 Jul 14]. Available from: http://urn.kb.se/resolve?urn=urn:nbn:se:miun:diva-34069.

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

Council of Science Editors:

Afram G. Genomsökning av filsystem för att hitta personuppgifter : Med Linear chain conditional random field och Regular expression. [Thesis]. Mid Sweden University; 2018. Available from: http://urn.kb.se/resolve?urn=urn:nbn:se:miun:diva-34069

Note: this citation may be lacking information needed for this citation format:
Not specified: Masters Thesis or Doctoral Dissertation

.