google y sus n-gramas

10 agosto 2006

ngramaHace unos días que google anunció en su blog de investigación que en un breve plazo ofrecerá a la comunidad investigadora un corpora de n-gramas de palabras que ha ido recogiendo durante todos estos años. En total aseguran haber procesado mas de un billón de n-gramas y que publicarán los resultados de un subconjunto de 1,146,580,664 de estos a través del LDC.

Un n-grama es un subsecuencia de n elementos de una secuencia dada, que aplicada al corpus de texto que ofrecerá google se traduce en combinaciones de n caracteres a partir de una palabra o conjunto de palabras. Los n-gramas poseen caracteristicas estadísticas que los hacen apropiados para la caracterización de textos en general e identificación de idioma de un texto en particular (es notable el estudio de Cavnar y Trenkle N-Gram-Based Text Categorization proponiendo una técnica sencilla basada en la determinacion empírica de la diferencia de un texto y otros categorizados), para reconocimiento de lenguaje (que no reconocimiento de voz), detección de errores gramaticales, aplicaciones de extracción de texto (OCR), etc..

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: