You searched for +publisher:"Universidade Federal do Amazonas" +contributor:("24303925268")
.
Showing records 1 – 15 of
15 total matches.
No search limiters apply to these results.
1.
Toda, Guilherme Alves.
Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados.
Degree: 2010, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2892
► A solução mais comum atualmente para usuários interagirem com aplicações que utilizam banco de dados na Web é através do uso de formulários compostos por…
(more)
▼ A solução mais comum atualmente para usuários interagirem com aplicações que utilizam banco de dados na Web é através do uso de formulários compostos por vários campos de entrada, como caixas de texto, listas de seleção e caixas de marcação. Apesar destes formulários serem efetivos e populares, em muitos casos, aplicações onde informações são fornecidas através de texto livre são geralmente preferidas pelos usuários. Neste trabalho apresentaremos a proposta, a implementação e a avaliação de um novo método para preencher automaticamente formulários Web utilizando um texto rico em dados. Nossa solução toma como entrada um texto livre rico em dados (por exemplo, um anúncio), extrai seus dados implícitos e preenche os campos apropriados do formulário utilizando estes dados. Para essa tarefa, utilizamos o conhecimento obtido a partir de
valores utilizados previamente pelos usuários para preencher os formulários. Nossa abordagem, chamada de iForm, utiliza características relacionadas ao conteúdo e ao estilo desses valores, que são combinadas através de uma Rede Bayesiana. Em nossos experimentos, mostramos que nossa abordagem é viável e efetiva, funcionando bem mesmo quando poucas submissões foram feitas ao formulário.
On the Web of today the most prevalent solution for users to interact with data-intesive applications is the use of form-based interfaces composed by several data input fields, such as text boxes, radio buttons, pull-down lists and check boxes. Although these interfaces are popular and effectiver, in many cases, free text interfaces are preferred over form based ones. In this work we present, the implementation and the evaluation of a novel method for automatically filling form-based input interfaces using data-rich text. Our solution takes a data-rich free text as input (e.g, an ad), extracts implicit data values from it and fills appropriate fields using them. For this task, we rely on knowledge obtained from values of previous submissions for each field, which are freely obtained from the usage of the interfaces. Our approach, called iForm, exploits features related to the content and the style of these values, which are combined through a Bayesian framework. Through extensive experimentation, we show that our approach is feasible and effective, and it works well even when only a few previous submissions to the input interface are available.
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Extração de dados; Banco de dados; Recuperação de informação; Data extraction; Data Base; Information retrieval; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Toda, G. A. (2010). Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2892
Chicago Manual of Style (16th Edition):
Toda, Guilherme Alves. “Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados.” 2010. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2892.
MLA Handbook (7th Edition):
Toda, Guilherme Alves. “Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados.” 2010. Web. 20 Jan 2021.
Vancouver:
Toda GA. Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2010. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2892.
Council of Science Editors:
Toda GA. Um método probabilístico para o preenchimento automático de formulários Web a partir de textos ricos em dados. [Masters Thesis]. Universidade Federal do Amazonas; 2010. Available from: http://tede.ufam.edu.br/handle/tede/2892
2.
Pedralho, André de Souza.
Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis.
Degree: 2011, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2897
► Existe uma grande quantidade de informação na World Wide Web em páginas compostas por objetos similares. Web sites de comércio eletrônico e catálogos online, em…
(more)
▼ Existe uma grande quantidade de informação na World Wide Web em páginas compostas por objetos similares. Web sites de comércio eletrônico e catálogos online, em geral, são exemplos destes repositórios de dados. Apesar destes dados serem
apresentados em porções de texto semi-estruturados, são projetados para serem interpretados e utilizados por humanos e não processados por máquinas. A identificação destes objetos em páginas Web é feita por aplicações externas chamadas extratores ou wrappers. Neste trabalho propomos e avaliamos um método automático para o problema de extrair e estruturar registros e valores de seus atributos presentes em páginas Web
ricas em dados. O método utiliza um Algoritmo de Alinhamento de Árvores para encontrar nestas páginas exemplos de registros que correspondem a objetos de interesse. Em seguida, o método gera expressões regulares para extrair objetos similares aos exemplos dados usando o Algoritmo de Alinhamento de Múltiplas Sequências. Em um passo final, o método decompõe os registros em sequências de texto aplicando a expressão regular criada e formatações e delimitadores comuns, com o intuito de identificar os valores dos atributos dos registros. Experimentos utilizando uma coleção composta por 128 páginasWeb de diferentes domínios demonstram a viabilidade do nosso método de extração. O método foi avaliado em relação à identificação de blocos de código HTML que contêm os registros e quanto à extração dos registros e dos valores de seus atributos. Obtivemos precisão de 83% e revocação de 80% na
extração de valores de atributos. Estes valores significam um ganho na precisão de 43,37% e na revocação de 68,75%, em relação a propostas similares
There is a huge amount of information in the World Wide Web in pages composed by similar objects. E-commerce Web sites and on-line catalogs, in general, are examples of such data repositories. Although this information usually occurs in semi-structured texts, it is designed to be interpreted and used by humans and not processed by machines. The identification of these objects inWeb pages is performed by external applications called extractors or wrappers. In this work we propose and evaluate an automatic approach to the problem of generating wrappers capable of extracting and structuring data records and the values of their attributes. It uses the Tree Alignment Algorithm to find in the Web page examples of objects of interest. Then, our method generates regular expressions for extracting objects similar to the examples given using the Multiple Sequence Alignment Algorithm. In a final step, the method decomposes the objects in sequences of text using the regular expression and common formats and delimiters, in order to identify the value of the attributes of the data records. Experiments using a collection
composed by 128 Web pages from different domains have demonstrated the feasibility of our extraction method. It is evaluated regarding the identification of blocks of HTML source code that contain data records and regarding record extraction…
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Extração de dados Web; Alinhamento em dois níveis; Distância de edição de árvores; Geração automática de extratores; Web Data extraction; Two-level alignment; Tree edit distance; Automatic Wrapper generation; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Pedralho, A. d. S. (2011). Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2897
Chicago Manual of Style (16th Edition):
Pedralho, André de Souza. “Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis.” 2011. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2897.
MLA Handbook (7th Edition):
Pedralho, André de Souza. “Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis.” 2011. Web. 20 Jan 2021.
Vancouver:
Pedralho AdS. Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2011. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2897.
Council of Science Editors:
Pedralho AdS. Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis. [Masters Thesis]. Universidade Federal do Amazonas; 2011. Available from: http://tede.ufam.edu.br/handle/tede/2897
3.
Porto, André Luiz Lopes.
Extração não supervisionada de dados da web utilizando abordagem independente de formato.
Degree: 2015, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5113
► Nessa dissertação de mestrado propomos um novo método para extração em páginas Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso…
(more)
▼ Nessa dissertação de mestrado propomos um novo método para extração em páginas
Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso
método, chamado de FIEX (Format Independent Web Data Extraction), é baseado
em técnicas de extração de informação por segmentação de texto, e consegue extrair
dados de páginas Web nas quais métodos do estado-da-arte baseados em técnicas de
alinhamento de dados não conseguem devido à inconsistência entre a estrutura lógica
das páginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX,
diferentemente dos métodos previamente propostos na literatura, é capaz de extrair
dados apenas utilizando o conteúdo textual de uma página Web em cenários desa adores
como casos severos de elementos textuais compostos, nos quais diversos valores de
interesse para extração estão representados por apenas um elemento HTML. Para realizar
a extração dos dados de páginas Web, o FIEX, é baseado em técnicas de eliminação
de ruídos por redundância de informação e um método de extração de informação por
segmentação de texto conhecido na literatura como ONDUX (On-Demand Unsupervised
Learning for Information Extraction). Em nossos experimentos, utilizamos várias
coleções de páginas Web de diferentes domínios de produtos e de lojas de comércio eletr
ônico com objetivo de extrair dados de descrições de produtos. A escolha desse tipo
de página Web, deve-se à grande quantidade de dados destas páginas estarem contidos
em casos severos de elementos textuais compostos. De acordo com os resultados obtidos
em nossos experimentos em diferentes domínios de produtos e lojas de comércio
eletrônico, validamos a hipótese de que a extração baseada em apenas características
textuais é possível e e caz.
In this thesis we propose a new method for extraction data in rich Web pages that
uses only the textual content of these pages. Our method, called FIEX (Format
Independent Web Data Extraction), is based on information extraction techniques
for text segmentation, and can extract data from Web pages where methods of state
of the art based on data alignment techniques fail due to inconsistency between the
logical structure of Web pages and the conceptual structure of the data represented
in them. The FIEX, unlike the methods previously proposed in the literature, is able
to extract data using only the textual content of a Web pages in challenging scenarios
such as severe cases of textual elements compounds, in which various values of interest
for extraction are represented by only one HTML element. To perform the extraction
data of the web pages, FIEX is based on techniques of elimination noise by information
redundancy and an information extraction method for text segmentation known
in the literature as ONDUX (On-Demand Unsupervised Learning for Information Extraction).
In our experiments, we used various Web pages collections of di erent areas
of products and e-commerce stores with goal to extract data from product descriptions.
The choose of this type of…
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Extração de dados; Comércio Eletrônico; Descrições de Produtos; Alinhamento de dados; Data Extraction; E-commerce; Product Description; Data Alignment; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Porto, A. L. L. (2015). Extração não supervisionada de dados da web utilizando abordagem independente de formato. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5113
Chicago Manual of Style (16th Edition):
Porto, André Luiz Lopes. “Extração não supervisionada de dados da web utilizando abordagem independente de formato.” 2015. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5113.
MLA Handbook (7th Edition):
Porto, André Luiz Lopes. “Extração não supervisionada de dados da web utilizando abordagem independente de formato.” 2015. Web. 20 Jan 2021.
Vancouver:
Porto ALL. Extração não supervisionada de dados da web utilizando abordagem independente de formato. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2015. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5113.
Council of Science Editors:
Porto ALL. Extração não supervisionada de dados da web utilizando abordagem independente de formato. [Masters Thesis]. Universidade Federal do Amazonas; 2015. Available from: http://tede.ufam.edu.br/handle/tede/5113
4.
Nascimento, Leonardo Fontes do.
Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação.
Degree: 2016, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5162
► Uma preocupação frequente entre os pesquisadores é que os resultados de suas pesquisas sejam publicados em veículos de impacto na comunidade científica. Geralmente, os índices…
(more)
▼ Uma preocupação frequente entre os pesquisadores é que os resultados de suas pesquisas sejam publicados em veículos de impacto na comunidade científica. Geralmente, os índices de impacto são obtidos através de métricas baseadas no número de citações que seus artigos recebem. Instituições tais como o SCImago e Thomson Reuters fornecem índices de impacto precisos para os principais periódicos internacionais. Embora isso seja suficiente para a maioria das áreas, para a área de Ciência da Computação as conferências e outros eventos científicos são igualmente importantes como veículos de publicação. No entanto, atualmente não existe nenhuma solução que seja universalmente aceita para se obter índices precisos sobre conferências, pois as ferramentas mais utilizadas para esse fim apresentam divergências entre os índices gerados para uma mesma conferência e ano. Neste trabalho propomos uma ferramenta denominada Live SHINE, cujo objetivo é gerar índices de impacto de alta precisão de conferências de Ciência da Computação a partir de dados fornecidos pelo Google Scholar. Nossa ferramenta utiliza um método baseado em técnicas de aprendizagem de máquina que filtra automaticamente os metadados fornecidos pelo Google Scholar e considera no cálculo dos índices de impacto apenas os dados de citações de artigos que de fato pertencem a conferência. Os experimentos realizados indicam que nosso método é eficaz, alcançando uma métrica F1 média acima de 0.9 considerando 30 conferências analisadas. Além disso, desenvolvemos também uma nova estratégia distribuída e colaborativa de coleta de citações, na qual as consultas enviadas ao Google Scholar para recuperar os valores atualizados de citações de artigos são disparadas pela própria interface do usuário, evitando problemas como sobrecarga da rede, demora na atualização das citações e bloqueio frequente por parte do Google Scholar. Assim, essa estratégia faz com que a comunidade de usuários colabore para manter os dados de citações atualizados para o benefício de todos.
A common concern among researchers is that the results of their research are published in venues of impact in the scientific community. In general, the impact indices are obtained through metrics based on the number of citations that your articles receive. Institutions such as the SCImago and Thomson Reuters provide precise impact indices for major international journals. While this is sufficient for most areas, in Computer Science conferences and other scientific events are also important as publishing venues. However, currently, there is no solution that is universally accepted to obtain accurate indices on conferences, because the tools most commonly used for this purpose have differences between the indices generated for the same conference and year. In this dissertation, we propose a tool called Live SHINE, whose goal is to generate high-precision impact indices of Computer Science Conferences from data provided by Google Scholar. Our tool uses a method based on machine learning techniques that automatically filters…
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Live Shine; Bibliotecas Digitais; Coleta Colaborativa; Índices de Impacto; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Nascimento, L. F. d. (2016). Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5162
Chicago Manual of Style (16th Edition):
Nascimento, Leonardo Fontes do. “Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação.” 2016. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5162.
MLA Handbook (7th Edition):
Nascimento, Leonardo Fontes do. “Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação.” 2016. Web. 20 Jan 2021.
Vancouver:
Nascimento LFd. Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2016. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5162.
Council of Science Editors:
Nascimento LFd. Live Shine - Uma ferramenta para suporte à avaliação de impacto de eventos científicos em computação. [Masters Thesis]. Universidade Federal do Amazonas; 2016. Available from: http://tede.ufam.edu.br/handle/tede/5162
5.
Barros, Diego de Azevedo.
Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos.
Degree: 2016, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5291
► Um problema bastante relevante para a análise de comentários postados por usuários em redes sociais é a identificação das entidades que são o alvo destes…
(more)
▼ Um problema bastante relevante para a análise de comentários postados por usuários em
redes sociais é a identificação das entidades que são o alvo destes comentários. No
entanto, identificar corretamente as entidades mencionadas em textos produzidos pelos
usuários é uma tarefa desafiadora, visto que uma mesma entidade pode ser mencionada
de várias maneiras diferentes, dependendo do usuário e de como a menção está sendo
feita. Além disso, esses comentários são caracterizados por texto com baixa qualidade
de escrita, erros ortográficos, gramaticais, etc. Neste trabalho, apresentamos um estudo
de caso sobre o problema de identificação e desambiguação de menções a entidades em
conteúdo gerado por usuários, voltado para o domínio de jogos. A escolha deste domínio
deve-se à importância econômica e cultural deste tipo de conteúdo e também ao fato de a
maioria dos trabalhos na literatura relacionada recente abordar este problema no contexto
de produtos eletrônicos (televisores, smartphones, etc.). Como estratégia para a realização
deste estudo de caso, desenvolvemos uma ferramenta chamada GameSpotter, que
utiliza métodos de reconhecimento de entidades nomeadas (named entity recognition -
NER) e de desambiguação de entidades nomeadas (named entity disambiguation - NED)
para identificar e desambiguar as menções a jogos nos comentários postados em um fórum
real daWeb. Para tanto, desenvolvemos dois métodos alternativos NER e um método
de NED voltados ao domínio de jogos. Nossos resultados experimentais mostraram que
nossos métodos de NER e NED são efetivos, tendo alcançado em média uma precisão de
0,93 e 0,83 em relação ao reconhecimento e desambiguação de menções a jogos, respectivamente.
A very important issue for the analysis of comments posted by users in social networks is
the identification of the entities that are the target of these comments. However, correctly
identifying the entities mentioned in texts produced by users is a challenging task, since
the same entity can be mentioned in several different ways, depending on the user and on
how the mention is being made. In addition, these comments are characterized by text
with low-quality writing, misspellings, grammatical errors, etc. In this work, we present a
case study on the problem of identification and disambiguation of mentions to entities in
user-generated content, focused on the domain of games. The choice of this domain is due
to the economic and cultural importance of this type of content and also because most of
the work in recent literature related to this problems focuses on the context of electronics
(televisions, smartphones, etc.). As a strategy for carrying out this case study, we have
developed a tool called GameSpotter, which uses methods of named entity recognition
- NER and named entity disambiguation - NED to identify and disambiguate mentions
to games in comments posted on a real Web forum. Therefore, we have developed two
alternative NER methods and one NED method focused on the domain of games. Our
…
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Ferramenta GameSpotter; Domínio de Jogo; Regras de Desambiguação; Método de Desambiguação; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Barros, D. d. A. (2016). Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5291
Chicago Manual of Style (16th Edition):
Barros, Diego de Azevedo. “Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos.” 2016. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5291.
MLA Handbook (7th Edition):
Barros, Diego de Azevedo. “Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos.” 2016. Web. 20 Jan 2021.
Vancouver:
Barros DdA. Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2016. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5291.
Council of Science Editors:
Barros DdA. Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos. [Masters Thesis]. Universidade Federal do Amazonas; 2016. Available from: http://tede.ufam.edu.br/handle/tede/5291
6.
Almeida, Urique Hoffmann de Souza.
Learning to recommend similar alternative products in e-Commerce catalogs.
Degree: 2016, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5402
► Nesse trabalho, descrevemos um novo método que projetamos, implementamos e testamos para a tarefa de encontrar produtos que são alternativas similares a um dado produto…
(more)
▼ Nesse trabalho, descrevemos um novo método que projetamos, implementamos e testamos para a tarefa de encontrar produtos que são alternativas similares a um dado produto em um catálogo de um site de comércio eletrônico. Nesse trabalho, consideramos como alternativas similares produtos que, apesar de não serem idênticos a um produto de interesse, têm características que os tornam boas alternativas a esse produto. Nossa motivação para esse trabalho é poder recomendar produtos similares com base apenas nas suas características, sem a necessidade da utilização do histórico de compras dos usuários. Assim, nesse trabalho lidamos com o chamado problema de cold start, que é comumente encontrado em abordagens de recomendação, e que pode levar a perda de lucro em sites de comércio eletrônico. Nosso método, chamado GPClerk, utiliza Programação Genética (GP) para aprender funções que comparam dois produtos, e dizem se estes são similares ou não. Essas funções são chamadas nesse trabalho de product comparison functions. Para tornar nosso método viável em um cenário típico de comércio eletrônico, propomos também uma estratégia não supervisionada para gerar exemplos de treino a serem utilizados no processo de aprendizagem. Resultados de experimentos que executamos e descrevemos nessa dissertação indicam que nosso método é capaz de gerar funções adequadas, e que nossa estratégia para geração automática de dados de treino é efetiva para essa tarefa.
In this work, we describe a novel method we designed, implemented and tested to finding products that are similar alternatives to a given product in the catalog of an e-commerce site. By similar alternatives, we mean products that, although are not identical to a product of interest, have features that make them suitable alternatives for customers that look for it. Our motivation is to enable the recommendation of alternativeproductsbasedsolelyontheproduct’sfeatures,withoutrelyingonhistorical purchase data. By doing so, we address the so-called cold start problem, which is often found in product recommendation approaches, and that may lead to profit loss in ecommerce sites. Our method, we call GPClerk, uses Genetic Programming (GP) to learn functions for comparing two products and telling whether two products are similar alternatives or not. These functions are termed here as product comparison functions. To make our method feasible in typical e-commerce settings, we also propose an unsupervised strategy to generate training examples to be used in the learning process. Results of experiments we carried out and report here indicate that our method is capable of generating suitable product comparison functions and that our strategy for automatically generating training data is effective for this task.
FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Product comparison functions; E-Commerce; Recommender systems; Genetic programming; Sistemas de recomendação; Programação genética; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Almeida, U. H. d. S. (2016). Learning to recommend similar alternative products in e-Commerce catalogs. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5402
Chicago Manual of Style (16th Edition):
Almeida, Urique Hoffmann de Souza. “Learning to recommend similar alternative products in e-Commerce catalogs.” 2016. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5402.
MLA Handbook (7th Edition):
Almeida, Urique Hoffmann de Souza. “Learning to recommend similar alternative products in e-Commerce catalogs.” 2016. Web. 20 Jan 2021.
Vancouver:
Almeida UHdS. Learning to recommend similar alternative products in e-Commerce catalogs. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2016. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5402.
Council of Science Editors:
Almeida UHdS. Learning to recommend similar alternative products in e-Commerce catalogs. [Masters Thesis]. Universidade Federal do Amazonas; 2016. Available from: http://tede.ufam.edu.br/handle/tede/5402
7.
Oliveira, Péricles Silva de.
Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases.
Degree: 2017, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5806
► Sem resumo.
Several systems proposed for processing keyword queries over relational databases rely on the generation and evaluation of Candidate Networks (CNs), i.e., networks of…
(more)
▼ Sem resumo.
Several systems proposed for processing keyword queries over relational databases rely on the
generation and evaluation of Candidate Networks (CNs), i.e., networks of joined database relations
that, when processed as SQL queries, provide a relevant answer to the input keyword
query. Although the evaluation of CNs has been extensively addressed in the literature, problems
related to efficiently generating meaningful CNs have received much less attention. To
generate useful CNs is necessary to automatically locating, given a handful of keywords, relations
in the database that may contain relevant pieces of information, and determining suitable
ways of joining these relations to satisfy the implicit information need expressed by a user when
formulating her query. In this thesis, we present two main contributions related to the processing
of Candidate Networks. As our first contribution, we present a novel approach for generating
CNs, in which possible matchings of the query in database are efficiently enumerated at first.
These query matches are then used to guide the CN generation process, avoiding the exhaustive
search procedure used by current state-of-art approaches. We show that our approach allows
the generation of a compact set of CNs that leads to superior quality answers, and that demands
less resources in terms of processing time and memory. As our second contribution, we initially
argue that the number of possible Candidate Networks that can be generated by any algorithm
is usually very high, but that, in fact, only very few of them produce answers relevant to the
user and are indeed worth processing. Thus, there is no point in wasting resources processing
useless CNs. Then, based on such an argument, we present an algorithm for ranking CNs, based
on their probability of producing relevant answers to the user. This relevance is estimated based
on the current state of the underlying database using a probabilistic Bayesian model we have
developed. By doing so we are able do discard a large number of CNs, ultimately leading to
better results in terms of quality and performance. Our claims and proposals are supported by a
comprehensive set of experiments we carried out using several query sets and datasets used in
previous related work and whose results we report and analyse here.
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994, [email protected].
Subjects/Keywords: Keyword-search; Match graph; Relational database; Ranking Candidate networks; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Oliveira, P. S. d. (2017). Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases. (Doctoral Dissertation). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5806
Chicago Manual of Style (16th Edition):
Oliveira, Péricles Silva de. “Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases.” 2017. Doctoral Dissertation, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5806.
MLA Handbook (7th Edition):
Oliveira, Péricles Silva de. “Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases.” 2017. Web. 20 Jan 2021.
Vancouver:
Oliveira PSd. Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases. [Internet] [Doctoral dissertation]. Universidade Federal do Amazonas; 2017. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5806.
Council of Science Editors:
Oliveira PSd. Generation and Ranking of Candidate Networks of Relations for Keyword Search over Relational Databases. [Doctoral Dissertation]. Universidade Federal do Amazonas; 2017. Available from: http://tede.ufam.edu.br/handle/tede/5806
8.
Santos, Gilberto Eduardo.
Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais.
Degree: 2018, Universidade Federal do Amazonas
URL: https://tede.ufam.edu.br/handle/tede/6367
► Durante muitos anos, vários pesquisadores propuseram métodos para capacitar os usuários leigos, sem qualquer conhecimento em linguagens de consulta ou sobre os bancos de dados,…
(more)
▼ Durante muitos anos, vários pesquisadores propuseram métodos para capacitar os
usuários leigos, sem qualquer conhecimento em linguagens de consulta ou sobre
os bancos de dados, a realizar consultas em Sistemas Gerenciadores de Bancos de
Dados - SGBD usando palavras-chave. Sistemas que processam consultas baseadas
em palavras-chaves em SGBDs, comumente chamados de Relational Keyword-Search
- R-KwS, enfrentam a tarefa de determinar automaticamente, a partir de algumas
palavras-chave, quais informações devem ser recuperadas do banco de dados, e como
essas informações podem ser combinadas para fornecer uma resposta relevante, e
de qualidade, para o usuário. Porém, uma característica comum, na grande maioria
dos atuais sistemas R-KwS, é que a implementação desses sistemas é feita geralmente
fora do ambiente do SGBD. Isso exige, para o seu funcionamento, uma infraestrutura
de software separada, com instalação complexa e posterior dificuldade para realizar
manutenções. O objetivo principal desta dissertação é integrar um mecanismo de
busca por palavras-chave em um SGBD, implementando o método Lathe, proposto
no grupo de Banco de Dados e Recuperação da Informação do ICOMP, no ambiente
do SGBD PostgreSQL. Experimentos realizados, e cujo os resultados apresentamos
nessa dissertação, mostram que a implementação do Lathe-DB, como um mecanismo
de busca por palavras-chaves dentro do ambiente do SGBD, geram resultados bem
próximos aos do trabalho original, e que é uma forma bem prática, de baixo custo e
que agrega valor, para o uso da busca por palavras-chave em SGBDs.
For many years, several researchers have proposed methods to empower the naive
users, without any knowledge about query languages or database details, to perform
queries in RDBMS using keywords.ystems that process queries based on keywords
in RDBMS, commonly called Relational Keyword-Search - R-KwS , face the task of
automatically determine, from some keywords, what information should be retrieved
from the database, and how this information can be combined to provide a relevant
and quality answer to the user. However a common feature, in the vast majority
of current R-KwS systems, is that the implementation of these systems is usually
done outside the RDBMS environment. This requires, for its operation, a separate
software infrastructure, with complex installation and subsequent hard to perform
maintenance. The main objective of this dissertation is integrate a search engine for
keyword in a RDBMS, implementing the Lathe method, proposed in the database
and information retrieval group of ICOMP, inside PostgreSQL RDBMS environment.
Experiments show that the implementation of Lathe-DB, as a search engine inside
the RDBMS environment, generate results very close to those of the original work,
and that is a very practical, low cost, and adds value, for use the keyword search in
RDBMS.
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994, [email protected].
Subjects/Keywords: Busca por palavras-chave; Banco de Dados; SGBD; Esquema Relacional; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Santos, G. E. (2018). Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from https://tede.ufam.edu.br/handle/tede/6367
Chicago Manual of Style (16th Edition):
Santos, Gilberto Eduardo. “Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais.” 2018. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
https://tede.ufam.edu.br/handle/tede/6367.
MLA Handbook (7th Edition):
Santos, Gilberto Eduardo. “Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais.” 2018. Web. 20 Jan 2021.
Vancouver:
Santos GE. Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2018. [cited 2021 Jan 20].
Available from: https://tede.ufam.edu.br/handle/tede/6367.
Council of Science Editors:
Santos GE. Lathe-DB - integrando um mecanismo de busca por palavras-chave em SGBDs relacionais. [Masters Thesis]. Universidade Federal do Amazonas; 2018. Available from: https://tede.ufam.edu.br/handle/tede/6367
9.
Menezes Júnior, Aurélio Andrade de.
Um método para busca de competências a partir de currículos lattes.
Degree: 2012, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2891
► Grandes bases de dados tem sido muito comum hoje em dia e tem permitido o acesso a uma grande quantidade de informação. Por outro lado,…
(more)
▼ Grandes bases de dados tem sido muito comum hoje em dia e tem permitido o acesso a uma grande quantidade de informação. Por outro lado, esse cenário torna dificil a
tarefa de encontrar uma informação específica no meio de uma grande quantidade de informação. Sistemas de Recuperação de Informação (RI) têm sido largamente empregados para a solucionar este tipo de problema. Dentre os problemas ocasionados pela grande quantidade de informação disponível em bases de dados, existe o problema da busca de competências. Este problema ocorre no seguinte contexto, dado um perfil, descrito na forma de um conjunto de competências, procura-se descobrir pesquisadores com perfis similares. Este trabalho descreve um método de RI que fornece apoio à
busca de pesquisadores a partir de informações sobre competências extraídas de uma base de currículos Lattes. Assim, dada uma consulta especificando um perfil de competência desejada, são selecionados os currículos com maior grau de similaridade com este perfil. Após a execução de experimentos em três estratégias propostas: Soma de
Similaridades, Produção e Contagem de Borda, os resultados indicam o sucesso do método proposto
Large databases have been very common nowadays. These databases allow access to a huge amount of information. However, this scenario leads the task of finding a specific
information among such a large amount of information, become very difficult. Systems of Information Retrieval (IR) have been widely used to sole this kind of problem. Among the many problems caused by the large amount of information available on
databases, there is the problem related to competence searching. This problem occurs in the following context, given a profile, described as a set of competencies, one looks for finding researchers with similar profiles. In this work, we describe an IR method which provides support to find researchers taking into account competence information retrieved from a database a desired competency profile, the proposed method provides the curriculums more similar to the desired profile. The experiments were conducted using three proposed strategies: Sum of Similarities, Production and Borda Count. The results achieved
show that the proposed successfully accomplishes its objective
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994, Santos, Eulanda Miranda dos, http://lattes.cnpq.br/0119406107080087.
Subjects/Keywords: Método para busca; Competências de pesquisadores; Currículo lattes; Search method; Competences researchers; Curriculum lattes; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Menezes Júnior, A. A. d. (2012). Um método para busca de competências a partir de currículos lattes. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2891
Chicago Manual of Style (16th Edition):
Menezes Júnior, Aurélio Andrade de. “Um método para busca de competências a partir de currículos lattes.” 2012. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2891.
MLA Handbook (7th Edition):
Menezes Júnior, Aurélio Andrade de. “Um método para busca de competências a partir de currículos lattes.” 2012. Web. 20 Jan 2021.
Vancouver:
Menezes Júnior AAd. Um método para busca de competências a partir de currículos lattes. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2012. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2891.
Council of Science Editors:
Menezes Júnior AAd. Um método para busca de competências a partir de currículos lattes. [Masters Thesis]. Universidade Federal do Amazonas; 2012. Available from: http://tede.ufam.edu.br/handle/tede/2891
10.
Silva, Luísa dos Reis e.
Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico.
Degree: 2017, Universidade Federal do Amazonas
URL: https://tede.ufam.edu.br/handle/tede/7210
► Integração de dados é a tarefa de combinar dados de diversas fontes e representá-los em um único conjunto de dados. Uma tarefa fundamental para integração…
(more)
▼ Integração de dados é a tarefa de combinar dados de diversas fontes e representá-los em um único conjunto de dados. Uma tarefa fundamental para integração de dados é o casamento de esquemas, definido como a tarefa de encontrar correspondências semânticas entre elementos de dois esquemas distintos. Recentemente, esse problema tem sido estudado no domínio de comércio eletrônico, por ser um domínio de grande importância prática no dia-a-dia das pessoas. Vários métodos têm sido propostos na literatura com o objetivo de automatizar essa tarefa. Os métodos utilizam diferentes tipos de informação, como informação dos nomes e da estrutura dos elementos dos esquemas analisados. Neste trabalho, procuramos identificar se as informações de instâncias são mais significativas para os métodos de casamento de esquemas no domínio de comércio eletrônico. Para tanto, verificamos o comportamento de três métodos de casamento de esquemas ao adicionarmos essas informações: COMA, que utiliza heurísticas fixas para combinação de matchers; ALMa, que utiliza Aprendizado Ativo; e RFSM, que utiliza aprendizado de máquina supervisionado. Nos experimentos, percebemos que ao utilizar informação de instância os métodos apresentaram melhorias nos seus resultados, principalmente na precisão e medida-f. Verificamos também que os métodos não necessitam ter uma frequência alta dessa informação para que elas contribuam com os resultados.
The Data integration task seeks to combine data from various sources and represent them in a single data set. Schema Matching is a key task to solve this problem, and is defined as the task of finding semantic correspondences between elements of two distinct schemes. Recently, this problem have been studied in the e-commerce domain, since it has great practical importance in people’s daily lives. Several methods have been proposed in the literature aiming to automate the schema matching task. These methods use different types of information, such as information on the names and structure of the elements of the analyzed schemas. In this research, we try to identify if the information of instances are more significant to the schema matching methods in the e-commerce domain. With this purpose, we verify the behavior of three schema matching methods by adding the instances information: COMA, which uses fixed heuristics to match matchers; ALMa, which uses Active Learning; And RFSM, which uses supervised machine learning. In the experiments, we noticed that by using instances information all methods presents improvements, mainly in precision and measure-f. We also verify that the methods do not require a high frequency of this information to contribute with the results.
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994, Conte, Tayana Uchôa, http://lattes.cnpq.br/6682919653508224, Carvalho, Moisés Gomes de, http://lattes.cnpq.br/1840067885522796, Moreira, Viviane Pereira, http://lattes.cnpq.br/5885575084085406, [email protected].
Subjects/Keywords: Comércio eletrônico; Integração de dados (Computação); Aprendizado do computador; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Silva, L. d. R. e. (2017). Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from https://tede.ufam.edu.br/handle/tede/7210
Chicago Manual of Style (16th Edition):
Silva, Luísa dos Reis e. “Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico.” 2017. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
https://tede.ufam.edu.br/handle/tede/7210.
MLA Handbook (7th Edition):
Silva, Luísa dos Reis e. “Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico.” 2017. Web. 20 Jan 2021.
Vancouver:
Silva LdRe. Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2017. [cited 2021 Jan 20].
Available from: https://tede.ufam.edu.br/handle/tede/7210.
Council of Science Editors:
Silva LdRe. Um estudo sobre o uso de informações de instâncias para o casamento de esquemas no domínio de comércio eletrônico. [Masters Thesis]. Universidade Federal do Amazonas; 2017. Available from: https://tede.ufam.edu.br/handle/tede/7210
11.
Silva, Davi Guimarães da.
Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros.
Degree: 2016, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/5552
► O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de…
(more)
▼ O volume de informação em formato digital tem aumentado consideravelmente nas
últimas décadas, e isso tem causado preocupação entre os administradores de grandes
repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma
eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a
existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade
de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção
de registros replicados é uma tarefa que exige muito tempo e poder de processamento
computacional.
Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo
de remoção de registros replicados é a Programação Genética (PG). Uma das
principais características dessa técnica é que ela exige exemplos para a realização da
etapa de treinamento. Outra característica importante é que a PG exige um alto custo
computacional para ser aplicada, além do esforço para gerar os exemplos do treino.
No problema de deduplicação um dos maiores custos durante a etapa de treino é causado
pela necessidade de comparar cada um dos registros com todos os outros registros
existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações
durante o treino é muito grande.
A partir desse problema, esta dissertação propõe uma abordagem baseada na
combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a
quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando
dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento
em até 70%, sem uma redução significativa na qualidade das soluções geradas.
The amount of information available through digital media has increased considerably
in recent decades. This fact causes concern among managers of large data repositories.
Dealing with this growth and protect the data effectively is an even greater challenge.
In many repositories, one of the main problems is the existence of replicated data.
This can impact the quality of data and the ability to provide services able to meet the
demands of its customers. However, the removal of replicated records is a task that
requires a lot of time and processing effort.
Nowadays, one of the techniques that has been effectively applied in the task of
identify records that are replicated is the Genetic Programming (GP). One of the main
requirements of this technique is the use examples (usually created manually) in its
training step. Another GP major requirement is its processing time. This happens
because during the training step each record is compared to all other existing ones in
the data repository. Thus, the time required to perform all these comparisons during
the GP training step can be very costly, even for small repositories.
For those reasons, this dissertation proposes a novel approach based in a strategy
the combines a clustering technique with a sliding window, aiming at minimize the
number of comparisons required in the PG…
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/1840067885522796, Silva, Altigran Soares da, Oliveira, David Braga Fernandes de, Carvalho, Moisés Gomes de, Galante, Renata de Matos.
Subjects/Keywords: Programação Genética; Aprendizagem de Máquina; Repositório de dados; Técnicas de Agrupamento; Deduplicação de Registros; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Silva, D. G. d. (2016). Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/5552
Chicago Manual of Style (16th Edition):
Silva, Davi Guimarães da. “Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros.” 2016. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/5552.
MLA Handbook (7th Edition):
Silva, Davi Guimarães da. “Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros.” 2016. Web. 20 Jan 2021.
Vancouver:
Silva DGd. Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2016. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/5552.
Council of Science Editors:
Silva DGd. Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros. [Masters Thesis]. Universidade Federal do Amazonas; 2016. Available from: http://tede.ufam.edu.br/handle/tede/5552
12.
Rodrigues, Diego de Azevedo.
A Study on Machine Learning Techniques for the Schema Matching Networks Problem.
Degree: 2018, Universidade Federal do Amazonas
URL: https://tede.ufam.edu.br/handle/tede/6801
► Casamento de Esquemas é a tarefa de encontrar correpondências entre elementos de diferentes esquemas de bancos de dados. É um problema desafiador, uma vez que…
(more)
▼ Casamento de Esquemas é a tarefa de encontrar correpondências entre elementos de diferentes esquemas de bancos de dados. É um problema desafiador, uma vez que o mesmo conceito geralmente é representado de maneiras distintas nos esquemas.Tradicionalmente, a tarefa envolve um par de esquemas a serem mapeados. Entretanto, houve um crescimento na necessidade de mapear vários esquemas ao mesmo tempo, tarefa conhecida como Casamento de Esquemas em Rede, onde o objetivo é identificar elementos de vários esquemas que correspondem ao mesmo conceito. Este trabalho propõe uma famı́lia de métodos para o problema do casamento de esquemas em rede baseados em aprendizagem de máquina, que provou ser uma alternativa viável para o problema do casamento tradicional em diversos domı́nios. Para superar obstáculo de obter bastantes instâncias de treino, também é proposta uma técnica de bootstrapping para gerar treino automático. Além disso, o trabalho considera restrições de integridade que ajudam a nortear
o processo de casamento em rede. Este trabalho também propõe uma estratégia para receber avaliações do usuário, com o propósito de melhorar o resultado final. Experimentos mostram que o método proposto supera outros métodos comparados alcançando valor F1 até 0.83 e sem utilizar muitas avaliações do usuário.
Schema Matching is the problem of finding semantic correspondences between elements from different schemas. This is a challenging problem, since the same concept is often represented by disparate elements in the schemas. The traditional instances of this problem involved a pair of schemas to be matched. However, recently there has been a increasing interest in matching several related schemas at once, a problem known as Schema Matching Networks, where the goal is to identify elements from several schemas that correspond to a single concept. We propose a family of methods for schema matching networks based on machine learning, which proved to be a competitive alternative for the traditional matching problem in several domains. To overcome the issue of requiring a large amount of training data, we also propose a bootstrapping procedure to automatically generate training data. In addition, we leverage constraints that arise in network scenarios to improve the quality of this data. We also propose a strategy for receiving user feedback to assert some of the matchings generated, and, relying on this feedback, improving the quality of the final result. Our experiments show that our methods can outperform baselines reaching F1-score up to 0.83.
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Advisors/Committee Members: Silva, Altigran Soares da, 24303925268, http://lattes.cnpq.br/3405503472010994, Cavalcanti, João Marcos Bastos, Macêdo, José Antônio Fernandes de, Salgado, Ana Carolina Brandão, Hara, Carmem Satie, [email protected].
Subjects/Keywords: Casamento de Esquemas em Rede; Reconciliação de Esquemas em Rede; Integração de Dados; Aprendizagem de Máquina; Banco de Dados; Schema Matching Networks; Schema Reconciliation Networks; Data Integration; Machine Learning; Databases; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO: METODOLOGIA E TÉCNICAS DA COMPUTAÇÃO: BANCO DE DADOS
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Rodrigues, D. d. A. (2018). A Study on Machine Learning Techniques for the Schema Matching Networks Problem. (Doctoral Dissertation). Universidade Federal do Amazonas. Retrieved from https://tede.ufam.edu.br/handle/tede/6801
Chicago Manual of Style (16th Edition):
Rodrigues, Diego de Azevedo. “A Study on Machine Learning Techniques for the Schema Matching Networks Problem.” 2018. Doctoral Dissertation, Universidade Federal do Amazonas. Accessed January 20, 2021.
https://tede.ufam.edu.br/handle/tede/6801.
MLA Handbook (7th Edition):
Rodrigues, Diego de Azevedo. “A Study on Machine Learning Techniques for the Schema Matching Networks Problem.” 2018. Web. 20 Jan 2021.
Vancouver:
Rodrigues DdA. A Study on Machine Learning Techniques for the Schema Matching Networks Problem. [Internet] [Doctoral dissertation]. Universidade Federal do Amazonas; 2018. [cited 2021 Jan 20].
Available from: https://tede.ufam.edu.br/handle/tede/6801.
Council of Science Editors:
Rodrigues DdA. A Study on Machine Learning Techniques for the Schema Matching Networks Problem. [Doctoral Dissertation]. Universidade Federal do Amazonas; 2018. Available from: https://tede.ufam.edu.br/handle/tede/6801
13.
Oliveira, Daniel Pereira de.
Geração semi-automática de extratores de dados da web
considerando contextos fracos.
Degree: 2006, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2936
► Hoje em dia a Web se apresenta como o maior repositório de informações da humanidade. Contudo, essa imensa gama de informação é formada principalmente por…
(more)
▼ Hoje em dia a Web se apresenta como o maior repositório de informações da humanidade. Contudo, essa imensa gama de informação é formada principalmente por conteúdo textual e
necessariamente requer interpretação humana para se tornar útil. Por outro lado, existe uma grande quantidade de páginas na Web que são, na verdade, formadas por um conjunto implícito de objetos. Isso ocorre, por exemplo, em páginas oriundas de sites de catálogos on-line, bibliotecas
digitais e comércio eletrônico em geral. A extração desse conteúdo e a identificação da estrutura dos objetos disponíveis permite uma forma mais sofisticada de processamento além da tradicional navegação por hiperlinks e consultas por palavras-chave. A tarefa de extrair dados de páginas Web é executada por progamas chamados extratores ou wrappers. Neste trabalho propomos uma nova abordagem para o desenvolvimento de extratores. Nessa abordagem o usuário se restringe a fornecer exemplos de treinamento para os atributos que constituem os objetos de interesse. Baseado nesses exemplos, são gerados automaticamente padrões para extrair dados inseridos em contextos similares áqueles fornecidos como exemplos. Em seguida, esses dados são automaticamente organizados segundo uma estrutura plausível. Nosso método de geração de padrões de extração utiliza técnicas herdadas de soluções para o problema do alinhamento múltiplo de seqüências. O método é capaz de produzir padrões de extração que podem ser facilmente transformados em expressões regulares. A tarefa de inferir
uma estrutura plausível para os objetos extraídos é realizada pelo algoritmo HotCycles, que foi previamente proposto e que foi revisto e ampliado neste trabalho. O algoritmo constrói um grafo de adjacências para esses dados, e realiza nele, uma análise estrutural em busca de padrões que indiquem construtores estruturais como tuplas e listas. A partir de tais construtores, é associado um tipo aninhado aos dados que foram extraídos da página. Experimentos realizados em 21 coleções de páginas reais da Web demonstram a viabilidade
do método de extração de valores atômicos, obtendo um desempenho superior a 94% e utilizando no máximo 10 exemplos de treinamento por atributo. O algoritmo HotCycles foi capaz de inferir uma estrutura plausível para os objetos em todas as coleções utilizadas. Seu desempenho combinado
com o método de extração de valores atômicos chegou a 97% de estruturas corretamente inferidas com a utilização também até 10 exemplos por atributo. A combinação desses dois métodos demonstrou-se extremamente viável. Os altos índices de estruturas corretamente inferidas juntamente com os elevados índices de precisão e revocação do processo de extração demonstram que esta é sem dúvida uma abordagem promissora.
In the current days, the Internet has become the largest information repository available. However, this huge variety of information is mostly represented in textual format and it necessarily requires human intervention to be effectively used. On the other hand, there exists a large set of Web pages…
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Geração semi-automática; Extratores de dados; Contextos fracos; Geração Semi-automática; Extratores de Dados; Semi-automatic generation; Data extractors; Weak contexts; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Oliveira, D. P. d. (2006). Geração semi-automática de extratores de dados da web
considerando contextos fracos. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2936
Chicago Manual of Style (16th Edition):
Oliveira, Daniel Pereira de. “Geração semi-automática de extratores de dados da web
considerando contextos fracos.” 2006. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2936.
MLA Handbook (7th Edition):
Oliveira, Daniel Pereira de. “Geração semi-automática de extratores de dados da web
considerando contextos fracos.” 2006. Web. 20 Jan 2021.
Vancouver:
Oliveira DPd. Geração semi-automática de extratores de dados da web
considerando contextos fracos. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2006. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2936.
Council of Science Editors:
Oliveira DPd. Geração semi-automática de extratores de dados da web
considerando contextos fracos. [Masters Thesis]. Universidade Federal do Amazonas; 2006. Available from: http://tede.ufam.edu.br/handle/tede/2936
14.
Vidal, Márcio Luiz Assis.
Geração automática de padrões de navegação para web
sites de conteúdo dinâmico.
Degree: 2006, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2940
► Um crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito…
(more)
▼ Um crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito de informações valiosas que estas páginas implicitamente contêm para realizar tarefas como consulta, busca, extração de dados, mineração de dados e análise de características de uso e popularidade. Para algumas destas aplicações os critérios para determinar quando uma página deve estar presente na coleção estão relacionados a características do conteúdo da página. Contudo, exitem muitas outras importantes situações em que características inerentes à estrutura das páginas, ao invés de seu conteúdo, provêm um critério melhor para guiar a coleta de páginas. Motivados por este problema, propomos nesta dissertação uma nova abordagem para geração de coletores guiados por estrutura que requer um esforço mínimo do usuário, pois são necessário apenas um exemplo das páginas a coletar e um ponto de entrada no Web site. Uma outra característica importante
de nossa abordagem, é o fato de ser capaz de lidar com sites onde as páginas a serem coletadas são geradas dinamicamente através do preenchimento de formulários. Ao contrário dos métodos existentes na literatura, no nosso caso não é necessária a existência de um banco de dados de
amostra para auxiliar no processo de preenchimento do formulário, nem tão pouco é necessária grande iteração com o usuário. Resultados obtidos em experimento com nossa abordagem demonstraram um valor de 100% de precisão em coletas realizadas sobre 17 Web sites reais de conteúdo estático e dinâmico, e pelo menos 95% de revocação para 11 sites estáticos utilizados nos experimentos.
A growing number of Web applications need to process collection of similar pages obtained from Web sites. These applications have the ultimate goal of taking advantage of the valuable information implicitly available in these pages to perform such tasks as querying, searching, data extraction and mining. For some of these applications, the criteria to determine when a Web page must be present in a collection are related to features of the content of the page. However, there are many other important applications in which the inherent structure of the pages, instead of its content, provides a better criterion for gathering the pages. Motivated by this problem, we propose in this work a new approach for generating structure-driven crawlers that requires a minimum effort from the user, since it only require an example of the page to be crawled and an entry point to the Web site. Another important feature in our approach is that it is capable of dealing with Web sites in which the pages to be collected are dynamically generated through the filling of forms. Contrary to existing methods in the literature, our approach does not require a sample database to help in the process of filling out forms and it also does not demand a great interaction with users. Results obtained in experiments with our approach demonstrate a 100% value of precision in craws performed…
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Geração Automática; Padrões de Navegação; Conteúdo Dinâmico; Geração Automática; Padrões de Navegação; Conteúdo Dinâmico; Automatic generation; Search patterns; Dynamic contents; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Vidal, M. L. A. (2006). Geração automática de padrões de navegação para web
sites de conteúdo dinâmico. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2940
Chicago Manual of Style (16th Edition):
Vidal, Márcio Luiz Assis. “Geração automática de padrões de navegação para web
sites de conteúdo dinâmico.” 2006. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2940.
MLA Handbook (7th Edition):
Vidal, Márcio Luiz Assis. “Geração automática de padrões de navegação para web
sites de conteúdo dinâmico.” 2006. Web. 20 Jan 2021.
Vancouver:
Vidal MLA. Geração automática de padrões de navegação para web
sites de conteúdo dinâmico. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2006. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2940.
Council of Science Editors:
Vidal MLA. Geração automática de padrões de navegação para web
sites de conteúdo dinâmico. [Masters Thesis]. Universidade Federal do Amazonas; 2006. Available from: http://tede.ufam.edu.br/handle/tede/2940
15.
Vilarinho, Eli Cortez Custódio.
Uma abordagem flexível para extração de metadados em citações bibliográficas.
Degree: 2009, Universidade Federal do Amazonas
URL: http://tede.ufam.edu.br/handle/tede/2947
► Nesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de…
(more)
▼ Nesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de página, etc. Tal método não se baseia em padrões específicos de codificação de delimitadores de um determinado estilo de citação que nos dá um alto grau de automação e flexibilidade e permite a extração de metadados a partir de citações em qualquer estilo. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o reconhecimento de componentes em uma citação, no nosso caso, o método baseia-se em uma base de conhecimento automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, Ciências Sociais, etc. Tal conjunto de registros com metadados pode ser facilmente obtido na Web ou através de outros repositórios de dados. Para demonstrar a eficácia e aplicabilidade do método proposto, apresentamos uma serie de experimentos que visam extrair dados de citações bibliográficas de artigos. Os resultados destes experimento apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte de extração de informação, o FLUX-CiM produziu resultados superiores sem a fase de treino que é exigida por esse método. Por fim, apresentamos uma estratégia para a utilização de dados bibliográficos resultante do processo de extração com FLUX-CIM para automaticamente atualizar e expandir a base de conhecimento de um determinado domínio. Mostramos que esta estratégia pode ser usada para alcançar bons resultados de extração mesmo quando apenas uma pequena amostra inicial de registros bibliográficos está disponível para a construção da base de conhecimento.
In this dissertation, we present FLUX-CiM, a novel method for extracting components (e.g., author names, article titles, venues, page numbers) from bibliographic citations. Our method does not rely on patterns encoding specific delimiters used in a particular citation style. This feature yields a high degree of automation and flexibility and allows FLUX-CiM to extract from citations in any given format. Differently from previous
methods that are based on models learned from user-driven training, our method relies on a knowledge-base automatically constructed from an existing set of sample metadata records from a given field (e.g., computer science, health sciences, social science, etc). These records are usually available on the Web or other public data repositories. To demonstrate the effectiveness and applicability of our proposed method we present a serie of experiments in which we apply it to extract bibliographic data from citations in articles of different fields. Results of these experiments exhibit precision and recall levels above 94% for all fields as well as perfect extraction for the large majority of citations tested. Also, in a…
Advisors/Committee Members: Silva, Altigran Soares da, CPF:24303925268, http://lattes.cnpq.br/3405503472010994.
Subjects/Keywords: Gerenciamento de citações; Extração de metadados; Citation management; Metadata extraction; CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Record Details
Similar Records
Cite
Share »
Record Details
Similar Records
Cite
« Share





❌
APA ·
Chicago ·
MLA ·
Vancouver ·
CSE |
Export
to Zotero / EndNote / Reference
Manager
APA (6th Edition):
Vilarinho, E. C. C. (2009). Uma abordagem flexível para extração de metadados em citações bibliográficas. (Masters Thesis). Universidade Federal do Amazonas. Retrieved from http://tede.ufam.edu.br/handle/tede/2947
Chicago Manual of Style (16th Edition):
Vilarinho, Eli Cortez Custódio. “Uma abordagem flexível para extração de metadados em citações bibliográficas.” 2009. Masters Thesis, Universidade Federal do Amazonas. Accessed January 20, 2021.
http://tede.ufam.edu.br/handle/tede/2947.
MLA Handbook (7th Edition):
Vilarinho, Eli Cortez Custódio. “Uma abordagem flexível para extração de metadados em citações bibliográficas.” 2009. Web. 20 Jan 2021.
Vancouver:
Vilarinho ECC. Uma abordagem flexível para extração de metadados em citações bibliográficas. [Internet] [Masters thesis]. Universidade Federal do Amazonas; 2009. [cited 2021 Jan 20].
Available from: http://tede.ufam.edu.br/handle/tede/2947.
Council of Science Editors:
Vilarinho ECC. Uma abordagem flexível para extração de metadados em citações bibliográficas. [Masters Thesis]. Universidade Federal do Amazonas; 2009. Available from: http://tede.ufam.edu.br/handle/tede/2947
.