google y sus n-gramas

10 agosto 2006

ngramaHace unos días que google anunció en su blog de investigación que en un breve plazo ofrecerá a la comunidad investigadora un corpora de n-gramas de palabras que ha ido recogiendo durante todos estos años. En total aseguran haber procesado mas de un billón de n-gramas y que publicarán los resultados de un subconjunto de 1,146,580,664 de estos a través del LDC.

Un n-grama es un subsecuencia de n elementos de una secuencia dada, que aplicada al corpus de texto que ofrecerá google se traduce en combinaciones de n caracteres a partir de una palabra o conjunto de palabras. Los n-gramas poseen caracteristicas estadísticas que los hacen apropiados para la caracterización de textos en general e identificación de idioma de un texto en particular (es notable el estudio de Cavnar y Trenkle N-Gram-Based Text Categorization proponiendo una técnica sencilla basada en la determinacion empírica de la diferencia de un texto y otros categorizados), para reconocimiento de lenguaje (que no reconocimiento de voz), detección de errores gramaticales, aplicaciones de extracción de texto (OCR), etc..

Anuncios