Exportar registro bibliográfico


Metrics:

Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models (2023)

  • Authors:
  • Autor USP: SANTOS, BRUCCE NEVES DOS - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • DOI: 10.11606/T.55.2023.tde-25032024-112903
  • Subjects: APRENDIZADO COMPUTACIONAL; TEORIA DOS GRAFOS; PROCESSAMENTO DE LINGUAGEM NATURAL; SISTEMAS EMBUTIDOS; SISTEMAS DE RECOMENDAÇÃO; ANÁLISE DE TEXTO
  • Keywords: Aprendizado de representação; Embedding space unificado; Heterogeneous networks; Language models; Mineração de opiniões; Modelos de linguagem; Opinion mining; Redes heterogêneas; Representation learning; Unified embedding space
  • Agências de fomento:
  • Language: Inglês
  • Abstract: A representação de dados por meio de grafos é fundamental para analisar relacionamentos complexos em áreas como ciência da computação e biologia. Em cenários do mundo real, os relacionamentos entre vértices nem sempre seguem um padrão uniforme, criando a necessidade de grafos heterogêneos, capazes de representar diferentes tipos de vértices e uma ampla variedade de relacionamentos em sistemas complexos. No entanto, os grafos heterogêneos apresentam desafios. A complexidade inerente dessas estruturas, devido à diversidade de vértices e tipos de relacionamentos, torna a compreensão e análise mais complexas em comparação com grafos homogêneos. Para enfrentar esse desafio, existem diversos modelos de aprendizado de máquina específicos para grafos heterogêneos que foram desenvolvidos, buscando compreender a semântica dos relacionamentos entre entidades. A representação de texto em grafos heterogêneos é também desafiadora devido à falta de estrutura nos dados textuais, podendo levar à perda de informações. Além disso, os grafos heterogêneos têm dificuldade em capturar informações semânticas detalhadas presentes em textos, pois são projetados principalmente para representar estruturas formais e relacionamentos estruturais. A resolução de ambiguidades textuais também é complexa para os grafos heterogêneos, exigindo uma compreensão profunda do contexto textual. Embora os modelos de linguagem sejam bons na compreensão textual, podem não ser adequados para representar entidades erelacionamentos complexos em sistemas do mundo real. A identificação precisa de entidades mencionadas em textos e suas relações com entidades do mundo real pode ser um desafio. A integração de grafos heterogêneos e modelos de linguagem oferece uma solução promissora. Isso combina a estrutura de conhecimento dos grafos heterogêneos com a compreensão textual dos modelos de linguagem, resultando em embeddings que incorporam a complexidade estrutural dos grafos e a compreensão do texto natural. Essa abordagem pode melhorar o desempenho em tarefas como processamento de linguagem natural, recomendação e busca de informações. Esta tese de doutorado se concentra em superar as limitações dos grafos heterogêneos na representação de informações semânticas em textos. A proposta é combinar grafos heterogêneos com modelos de linguagem, aproveitando as vantagens de ambas as abordagens. Enquanto os grafos representam estruturas e relacionamentos, os modelos de linguagem são especializados em compreender e gerar texto eficientemente. A hipótese subjacente é que essa combinação resultará em representações mais ricas de dados, melhorando o desempenho em análises de dados complexos. Essa tese introduz uma abordagem em dois estágios que combina técnicas de propagação de rótulos e embeddings de modelos de linguagem para gerar representações vetoriais de vértices em grafos heterogêneos. Nessa abordagem é proposto o método EPHG-CR (Embedding Propagation for Heterogeneous Graphs with ClassRefinement), que possui o diferencial de considerar não apenas o peso das arestas, mas também a pertinência dos vértices às classes da tarefa, aproximando vértices com a mesma classe, levando em conta a topologia do grafo. Essa abordagem foi comparada com um modelo de linguagem na tarefa de análise de sentimentos baseada em aspectos, mostrando resultados competitivos e, em alguns casos, ligeiramente superiores. Além disso, o artigo explora aplicações das embeddings dos vértices auxiliares em outras tarefas mostrando outra vantagem da abordagem.
  • Imprenta:
  • Data da defesa: 27.11.2023
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.55.2023.tde-25032024-112903 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: green

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SANTOS, Brucce Neves dos. Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032024-112903/. Acesso em: 04 jun. 2024.
    • APA

      Santos, B. N. dos. (2023). Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032024-112903/
    • NLM

      Santos BN dos. Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models [Internet]. 2023 ;[citado 2024 jun. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032024-112903/
    • Vancouver

      Santos BN dos. Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models [Internet]. 2023 ;[citado 2024 jun. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032024-112903/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024