• Upload
  • Clean text
  • Configurations
  • Alternate Tabs
  • Texto

Medidas descritivas

      Parágrafos

    • Quantidade de Parágrafos no texto:

      Subtítulos

    • Proporção de Subtítulos em relação à quantidade de sentenças do texto:

      Frases

    • Quantidade de sentenças no texto:
    • Quantidade média de sentenças por parágrafo no texto:
    • Quantidade mínima de palavras por sentença:
    • Quantidade máxima de palavras por sentença:
    • Desvio Padrão da quantidade de palavras por sentença:

      Palavras

    • Quantidade de palavras no texto:
    • Média de palavras por sentença:
    • Quantidade média de sílabas por palavra de conteúdo no texto:

Complexidade sintática

      Fórmulas de complexidade

    • Fórmula de complexidade sintática de Frazier:
    • Fórmula de complexidade sintática de Yngve:

      Sentenças

    • Média do *givenness* de cada sentença do texto a partir da segunda:
    • Desvio padrão do *givenness* de cada sentença do texto a partir da segunda:
    • Média do *span* de cada sentença do texto a partir da segunda:
    • Desvio padrão do span de cada sentença do texto a partir da segunda:

      Orações

    • Quantidade média de adjuntos adverbiais por oração do texto:
    • Proporção de orações com advérbio antes do verbo principal em relação à quantidade de orações do texto:
    • Quantidade média de apostos por oração do texto:
    • Quantidade média de orações por sentença:
    • Proporção de orações que não estão no formato SVO (sujeito-verbo-objeto) em relação a todas orações do texto:
    • Proporção de orações na voz passiva analítica em relação à quantidade de orações do texto:

      Pares de parágrafos adjacentes

    • Média de similaridade entre pares de parágrafos adjacentes no texto:
    • Desvio padrão entre parágrafos adjacentes no texto:

      Pares de sentenças

    • Média da entropia cruzadas das sentenças do texto:
    • Quantidade média de referentes que se repetem nos pares de sentenças do texto:
    • Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças do texto:
    • Média de similaridade entre todos os pares de sentenças no texto:

      Pares de sentenças adjacentes

    • Quantidade média de referentes que se repetem nos pares de sentenças adjacentes do texto:
    • Quantidade média de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto:
    • Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto:
    • Média de similaridade entre pares de sentenças adjacentes no texto:
    • Desvio padrão de similaridade entre pares de sentenças adjacentes no texto:

      Proporção de conjunções

    • Proporção de conjunções coordenativas em relação a todas as orações do texto:
    • Proporção de conjunções coordenativas em relação a todas as conjunções do texto:
    • Proporção de conjunções subordinativas em relação a todas conjunções do texto:

      Proporção de sentenças/orações

    • Proporção de orações relativas em relação à quantidade de orações do texto:

      Proporção de orações subordinadas

    • Proporção de orações subordinadas reduzidas pela quantidade de orações do texto:
    • Proporção de orações subordinadas pela quantidade de orações do texto:

      Proporção de candidatos a referentes

    • Média das proporções de candidatos a referentes na sentença anterior em relação aos pronomes pessoais do caso reto nas sentenças:
    • Média das proporções de candidatos a referentes nas 5 sentenças anteriores em relação aos pronomes anafóricos das sentenças:

Conectivos

  • Proporção de conectivos em relação à quantidade de palavras do texto:
  • Proporção de palavras que denotam negação em relação à quantidade de palavras do texto:

Densidade de padrões sintáticos

  • Proporção de verbos no gerúndio em relação a todos os verbos do texto:
  • Máximo entre os tamanhos de sintagmas nominais do texto:
  • Média dos tamanhos médios dos sintagmas nominais nas sentenças:
  • Mínimo entre os tamanhos de sintagmas nominais do texto:

Diversidade lexical

      Proporção das palavras de conteúdo

    • Proporção de palavras de conteúdo em relação à quantidade de palavras funcionais do texto:
    • Proporção máxima de palavras de conteúdo em relação à quantidade de palavras das sentenças:
    • Proporção mínima de palavras de conteúdo por quantidade de palavras nas sentenças:
    • Desvio padrão das proporções entre as palavras de conteúdo e a quantidade de palavras das sentenças:

      Diversidade de palavras

    • Proporção de types de pronomes relativos em relação à quantidade de tokens de pronomes relativos no texto:
    • Proporção de types de palavras funcionais em relação à quantidade de tokens de palavras funcionais no texto:
    • Proporção de types (despreza repetições de palavras) em relação à quantidade de tokens (computa repetições de palavras) no texto:

Frequência de palavras

  • Média das frequências absolutas das palavras de conteúdo do texto:
  • Média das frequências das palavras de conteúdo mais raras das sentenças do texto:

Informações morfossintáticas das palavras

      Palavras funcionais e de conteúdo

    • Proporção de palavras de conteúdo em relação à quantidade de palavras do texto:
    • Proporção de Palavras Funcionais em relação à quantidade de palavras do texto:
    • Proporção de palavras funcionais em relação à quantidade de palavras de conteúdo do texto:

      Pontuação

    • Proporção de sinais de pontuação em relação à quantidade de palavras do texto:

Léxico temporal

  • Quantidade de diferentes tempos-modos verbais que ocorrem no texto:
  • Proporção de verbos auxiliares seguidos de particípio em relação à quantidade de sentenças do texto:

Informações semânticas de palavras

      Proporção de sentidos

    • Proporção de sentidos dos adjetivos do texto em relação à quantidade de adjetivos do texto:
    • Proporção de sentidos dos advérbios do texto em relação à quantidade de advérbios do texto:
    • Média de sentidos por palavra de conteúdo do texto:
    • Proporção de sentidos dos substantivos do texto em relação à quantidade de substantivos do texto:
    • Proporção de sentidos dos verbos do texto em relação à quantidade de verbos do texto:

      Substantivos

    • Proporção de substantivos abstratos em relação à quantidade de palavras do texto:
    • Quantidade média de hiperônimos por verbo nas sentenças:
    • Média das proporções de nomes próprios em relação à quantidade de palavras das sentenças:
    • Proporção de nomes próprios em relação à quantidade de palavras do texto:

Medidas psicolinguísticas

Simplicidade textual

  • Proporção de pronomes pessoais que indicam uma conversa com o leitor em relação à quantidade de pronomes pessoais do texto:
  • Proporção de palavras de conteúdo simples em relação a todas palavras de conteúdo do texto:

Coesão referencial

Índices de leiturabilidade

  • Índice de Brunet:
  • Fórmula Dale Chall adaptada:
  • Índice Flesch:
  • Índice Gunning Fog:
  • Estatística de Honoré:

Chat with text

Text node
×
Evaluating the Performance of SOBEK Text Mining Keyword Extraction Algorithm

Authors: Eliseo Reategui, Marcio Bigolin, Michel Carniato, Rafael Antunes dos Santos

This article presents a validation study of the algorithm implemented in the text mining tool called SOBEK, comparing it with YAKE!’, a known unsupervised keyword extraction algorithm. Both algorithms identify keywords from single documents using mainly a statistical method, providing context independent information. The article describes briefly previous uses of SOBEK in the literature, and presents a detailed description of its text mining algorithm. The validation study presented in the paper compares SOBEK with YAKE!. Both systems were used to extract keywords from texts belonging to fourteen public text databases, each containing several documents. In general, their performance was found to be equivalent, with the algorithms outperforming one another in a batch of tests, and reaching similar results in others. Understanding why each algorithm outperformed the other in different circumstances may shed light on the advantages and disadvantages of specific features of keyword extraction methods.

To cite: Reategui, E., Bigolin, M., Carniato, M., dos Santos, R.A. (2022). Evaluating the Performance of SOBEK Text Mining Keyword Extraction Algorithm. In: Holzinger, A., Kieseberg, P., Tjoa, A.M., Weippl, E. (eds) Machine Learning and Knowledge Extraction. CD-MAKE 2022. Lecture Notes in Computer Science, vol 13480. Springer, Cham.

×

Selected publications

×


Tree Tagger










Advanced Configs