¿Analizar textos para clasificación de documentos?

Hola a todos, estoy construyendo un clasificador de documentos... y necesito alguna herramienta que, dado un conjunto de documentos (corpus) me muestre el conjunto de palabras con su frecuencia (numero de veces que aparecen) y además necesito tambien que muestre su frecuencia documental (número de documentos,del conjunto, en que aparece la palabra).

¿Alguien sabe alguna herramienta para llevar a cabo este cometido?

¿Y un script shell para hacer esto? ¿Algún consejillo?

Tambien sería la leche que la herramienta en cuestión lematizara las palabras para asi tomar como iguales dos palabras con la misma raíz, aunque me temo que esto es más dificil... así amor y amar serían la misma palabra en términos de análisis (esto se llama stemming).

No sé si existe una herramienta de estas características pero bueno, pregunto por si alguien ha tenido que hacer alguna vez algo parecido.

Saludos.!
Eres de la escuela superior de ingenieria informatica de sevilla???

Porque ahora mismo estamos haciendo un trabajo de inteligencia artificial que trata exactamente tu problema.
quizas quieras echarle un vistazo:
www.cs.us.es/cursos/ia2

un saludo
DarkXeros escribió:Eres de la escuela superior de ingenieria informatica de sevilla???

Porque ahora mismo estamos haciendo un trabajo de inteligencia artificial que trata exactamente tu problema.
quizas quieras echarle un vistazo:
http://www.cs.us.es/cursos/ia2

un saludo


Sip, de ahí soy, la documentación la he leido, pero estaba buscando algo que me dijera no solo la frencuencia de las palabras (como textStat) que recomienda el profe, sino tambien la frecuencia documental ... xq fijarse sólo en la frecuencia no es una buena idea, te lo aseguro.
¿Tiene que ser obligatoriamente con bash? ¿No se puede crear un programa, por ejemplo en python, que haga parte del funcionamiento?

Lo primero que se me ocurre que se podría hacer, es un programa que abra el archivo (se crea una tabla), y palabra por palabra, se añaden filas a la base de datos con las palabras. Si la palabra ya existe, en vede añadirse una nueva fila, sumarse +1 a un campo numérico. Aunque esto es muy básico, claro. Después esta el tema más complicado, que es crear un algoritmo que organice los resultados según X condiciones.

Por lo que dices de palabras parecidas ponerlas en mismos grupos, me parece buena idea, pero trae consigo el problema de que palabras que se escriben de forma parecida, pero de significados no relacionados, sean catalogados por igual.

En definitiva, es un tema interesante, al que hay que dedicarle tiempo. Me encantaría poder dedicarle tiempo, pero es algo que lamentablemente no me sobra. Si tienes algún problema concreto respecto este tema, veremos que podemos hacer. Ante todo, desearte mucha suerte, y espero que saques muy buena nota en el trabajo, pues demuestras interés e ideas más allá de lo que se pide, que es algo que siempre se agradece, y que no podemos ver a diario.

Un saludo.
capitanquartz escribió:¿Tiene que ser obligatoriamente con bash? ¿No se puede crear un programa, por ejemplo en python, que haga parte del funcionamiento?



Cualquier técnica valía, al final encontré un algoritmo que dado un corpus y un subconjunto del corpus ayuda a encontrar palabras clave del subconjunto, no es eficaz por si sólo, pero con 1 poco de ayuda manual lo ha hecho bien.

:D
4 respuestas