3.3
Instrumentos para el procesamiento del lenguaje natural en computadora
Todo parece estar preparado
para el uso de las computadoras para procesar volúmenes grandes de información:
los métodos lógicos ya son muy fuertes, los procesadores muy rápidos, muchos
textos ya están disponibles en forma digital, tanto en las casas editoriales
como en Internet. El único problema para la computadora al procesar los textos
es que simplemente ¡no los entiende! Hasta ahora, los textos son para la
computadora solamente cadenas de letras sin cualquier sentido y no una
información útil para el razonamiento lógico.
La Lingüística es la
disciplina que se ocupa del estudio científico del lenguaje.
Análisis Lingüístico
Cuando se hace análisis lingüístico,
se está trabajando dentro del campo de la Teoría Lingüística o Lingüística
Teórica. Desde este punto de vista, la gramática de una lengua es una
representación explícita del conocimiento (consciente e inconsciente) que un
hablante nativo tiene de su lengua. Una teoría lingüística debe de proporcionar
las nociones y herramientas analíticas necesarias que nos permitan describir de
manera explícita el conocimiento.
Cuando un lingüista escribe
una gramática, este lingüista no sólo describe una lengua, sino que también nos
está diciendo algo sobre los procesos cognoscitivos del ser humano. Por lo
tanto, una teoría lingüística debe no sólo proveer los medios para describir
gramáticas de manera explícita, sino que debe de permitir hacer
generalizaciones racionales que permitan describir los procesos gramaticales de
un lenguaje.
Lenguaje es el empleo de la
palabra para expresar ideas, comunicarse, establecer relaciones entre los seres
humanos. Un lenguaje es un conjunto de palabras, su pronunciación y los métodos
para combinarlas en frases y oraciones, generalmente infinito y que se forma
mediante combinaciones de palabras definidas en un diccionario terminológico
previamente establecido. Las combinaciones posibles deben respetar un conjunto
de reglas sintácticas establecidas, a ello se le conoce con el nombre de
Sintaxis. Además, las palabras deben tener determinado sentido, deben ser
comprendidas por un grupo humano en un contexto dado, a ello se le denomina
Semántica.
Procesamiento del Lenguaje
natural
El procesamiento del lenguaje
es de manera general, el conjunto de instrucciones que una computadora recibe
en un lenguaje de programación dado (formal), que le permitirán comunicarse con
un humano en su propio lenguaje, (ingles, francés, español, etc).
El procesamiento del lenguaje
natural presenta múltiples aplicaciones:
- ·
Corrección de textos
- ·
Traducción automática
- ·
Recuperación de la información
- ·
Extracción de Información y Resúmenes
- ·
Búsqueda de documentos
- ·
Sistemas Inteligentes para la Educación y el
Entrenamiento
3.4- Instrumentos en recuperación
de información por computadora.
El
escenario más común de "recuperación de datos" involucra una falla en
el sistema operativo (típicamente de un solo disco, una sola partición, un solo
sistema operativo), en este caso el objetivo es simplemente copiar todos los
archivos requeridos en otro disco. Esto se puede conseguir fácilmente con un
Live CD, la mayoría de los cuales provéen un medio para acceder al sistema de
archivos, obtener una copia de respaldo de los discos o dispositivos
removibles, y luego mover los archivos desde el disco hacia el respaldo con un
administrador de archivos o un programa para creación de discos ópticos. Estos
casos pueden ser mitigados realizando particiones del disco y continuamente
almacenando los archivos de información importante (o copias de ellos) en una
partición diferente del de la de los archivos de sistema en el sistema
operativo, los cuales son reemplazables.
Otro
escenario involucra una falla a nivel de disco, tal como un sistema de archivos
o partición de disco que esté comprometido, o una falla en el disco duro. En
cualquiera de estos casos, los datos no pueden ser fácilmente leídos.
Dependiendo de la situación, las soluciones pueden estar entre reparar el
sistema de archivos, la tabla de particiones o el registro maestro de cargado
(MBR), o técnicas de recuperación del disco duro que van desde la recuperación
basada en software de los datos corruptos a el reemplazo del hardware de un
disco dañado físicamente. Si la recuperación del disco duro es necesaria, el
disco de por sí típicamente ha fallado de manera permanente, y el propósito en
vez de una recuperación de una sola vez, es el de rescatar cualquier dato que
pueda ser leído.
En
un tercer escenario, los archivos han sido "borrados" de un medio de
almacenamiento. Típicamente, los archivos borrados no son realmente eliminados
de inmediato; en vez de ello, las referencias a ellos en la estructura de
directorios ha sido removida, y el espacio que éstos ocupan se hace disponible
para su posterior sobre-escritura. En el transcurso de esto, el archivo
original puede ser recuperado. Aunque hay cierta confusión acerca del término,
la "recuperación de datos" puede también ser usada en el contexto de
aplicaciones de informática forense o de espionaje.