Mudanças entre as edições de "Analyzers comuns"

De Basef
Ir para: navegação, pesquisa
(Criou página com '* Analyzer padrão: Este é o analyzer padrão usado pelo ElasticSearch e em geral funciona bem independente do idioma. Ele funciona quebrando o texto em palavras removendo po...')
 
 
Linha 1: Linha 1:
* Analyzer padrão: Este é o analyzer padrão usado pelo ElasticSearch e em geral funciona bem independente do idioma. Ele funciona quebrando o texto em palavras removendo pontuações e passando todo conteúdo para letras minúsculas. Números existentes no texto são mantidos. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "10", "mil", "sim", "10", "mil", "anos", "atrás".
+
* '''Analyzer padrão''': Este é o analyzer padrão usado pelo ElasticSearch e em geral funciona bem independente do idioma. Ele funciona quebrando o texto em palavras removendo pontuações e passando todo conteúdo para letras minúsculas. Números existentes no texto são mantidos. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "10", "mil", "sim", "10", "mil", "anos", "atrás".
  
* Analyzer simples: Quebra o texto em tudo o que não seja uma letra e passando todo o texto para letras minúsculas. Como números não são letras, eles não geram entradas. E.g.: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "mil", "sim", "mil", "anos", "atrás".
 
  
* Analyzer de espaço em branco: Quebra o texto por espaços em branco. Não há alteração na caixa das letras. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "Eu", "nasci", "a", "10", "mil", "(sim", "10", "mil)", "anos", "atrás".
+
* '''Analyzer simples''': Quebra o texto em tudo o que não seja uma letra e passando todo o texto para letras minúsculas. Como números não são letras, eles não geram entradas. E.g.: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "mil", "sim", "mil", "anos", "atrás".
  
* Analyzers específicos para idiomas: São analyzers que quebram o texto assim como o analyzer padrão, porém são capazes de aplicar peculiaridades do idioma e melhorar a geração das entradas para um idioma em específico. Técnicas como singularização dos termos, remoção de palavras que não possuem relevância para o resultado, como palavras comuns do idioma e uso da palavra na sua forma mais raíz (conhecido como stemming), são aplicadas.
+
 
 +
* '''Analyzer de espaço em branco''': Quebra o texto por espaços em branco. Não há alteração na caixa das letras. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "Eu", "nasci", "a", "10", "mil", "(sim", "10", "mil)", "anos", "atrás".
 +
 
 +
 
 +
* '''Analyzers específicos para idiomas''': São analyzers que quebram o texto assim como o analyzer padrão, porém são capazes de aplicar peculiaridades do idioma e melhorar a geração das entradas para um idioma em específico. Técnicas como singularização dos termos, remoção de palavras que não possuem relevância para o resultado, como palavras comuns do idioma e uso da palavra na sua forma mais raíz (conhecido como stemming), são aplicadas.
 +
 
 +
 
 +
Outros analyzers: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html
  
 
[[Category: Elastic Search]]
 
[[Category: Elastic Search]]

Edição atual tal como às 10h07min de 27 de julho de 2017

  • Analyzer padrão: Este é o analyzer padrão usado pelo ElasticSearch e em geral funciona bem independente do idioma. Ele funciona quebrando o texto em palavras removendo pontuações e passando todo conteúdo para letras minúsculas. Números existentes no texto são mantidos. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "10", "mil", "sim", "10", "mil", "anos", "atrás".


  • Analyzer simples: Quebra o texto em tudo o que não seja uma letra e passando todo o texto para letras minúsculas. Como números não são letras, eles não geram entradas. E.g.: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "mil", "sim", "mil", "anos", "atrás".


  • Analyzer de espaço em branco: Quebra o texto por espaços em branco. Não há alteração na caixa das letras. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "Eu", "nasci", "a", "10", "mil", "(sim", "10", "mil)", "anos", "atrás".


  • Analyzers específicos para idiomas: São analyzers que quebram o texto assim como o analyzer padrão, porém são capazes de aplicar peculiaridades do idioma e melhorar a geração das entradas para um idioma em específico. Técnicas como singularização dos termos, remoção de palavras que não possuem relevância para o resultado, como palavras comuns do idioma e uso da palavra na sua forma mais raíz (conhecido como stemming), são aplicadas.


Outros analyzers: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html