jueves, 20 de diciembre de 2012

Analizador de textos




TextSTAT - Simple Text Analysis Tool  - TextSTAT 2.9

http://neon.niederlandistik.fu-berlin.de/en/textstat/
Es un programa para el análisis de textos. En pocas palabras, lo que hace es tomar un archivo de texto y devolver una lista de frecuencias y una concordancia. Hace más cosas, sí, pero es cuestión de probarlas y ver qué pasa.
Es un programita muy útil porque nos permite tomar algunas decisiones antes de comenzar a trabajar en la edición o antes de hacer una traducción. Por ejemplo, nos permite determinar a simple vista si se escribió período o periodo, internet o Internet, o un apellido o el nombre de un país escrito de tres formas diferentes y mucho más. Eso nos permite detectar inconsistencias y errores de ortografía y hacernos así una idea de las preferencias del autor antes de comenzar a hacer cambios en el texto.

El programa es gratis y se puede bajar de http://neon.niederlandistik.fu-berlin.de/en/textstat/
Permite el análisis de textos en español, inglés, portugués, alemán, y ainda más.
***
Lo primero que hay que hacer es crear un corpus (Unidad de análisis, en la versión en español), o abrir uno ya existente. Para cambiar el idioma, hay que seleccionarlo del menú, cerrar el programa y volverlo a abrir.
Para analizar un texto, entonces, abro un corpus y agrego los archivos que quiero analizar. En teoría, pueden ser archivos de Word (‘.doc’ o ‘.docx’) o de OpenOffice (‘.odt’ o ‘.sxw’), o archivos ASCII/ANSI o HTML.  Hago clic en el cilindro con una flecha hacia la derecha. El dorado es para cargar archivos Word; el blanco es para archivos de internet. Si todo sale bien, en la ventana Corpus aparecerá la dirección de los archivos que se agregaron para analizar.
Para obtener una lista de las frecuencias, cliquear Show Word Frequencies (Mostrar frecuencia de palabras), y esto abre la ventana Word forms (Formas) y las frecuencias. En la izquierda, se pueden establecer otros criterios o filtros para la lista.

 Hay también algunos manuales en internet, en inglés:
TextSTAT 2.7 User's Guide, creado por Gena Bennet
https://blogs.princeton.edu/hrc/assets/quickstart_textstat.pdf, Al final hay jugosas sugerencias para afinar las búsquedas de expresiones.