Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais (2016)
- Authors:
- Autor USP: FALEIROS, THIAGO DE PAULO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: APRENDIZADO COMPUTACIONAL; MINERAÇÃO DE DADOS; TEORIA DOS GRAFOS
- Keywords: Aprendizado em grafos bipartidos; Dimensionality reduction; Extração de tópicos; Fluxo de dados textuais; Learning in bipartite graphs; Redução de dimensionalidade; Text data stream; Topic extraction
- Language: Português
- Abstract: Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que anaise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensÃæes latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descobertade padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado
- Imprenta:
- Publisher place: São Carlos
- Date published: 2016
- Data da defesa: 08.06.2016
-
ABNT
FALEIROS, Thiago de Paulo. Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais. 2016. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2016. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112016-105854/. Acesso em: 04 jun. 2024. -
APA
Faleiros, T. de P. (2016). Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112016-105854/ -
NLM
Faleiros T de P. Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais [Internet]. 2016 ;[citado 2024 jun. 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112016-105854/ -
Vancouver
Faleiros T de P. Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais [Internet]. 2016 ;[citado 2024 jun. 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112016-105854/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas