¿Tiene que ser obligatoriamente con bash? ¿No se puede crear un programa, por ejemplo en python, que haga parte del funcionamiento?
Lo primero que se me ocurre que se podría hacer, es un programa que abra el archivo (se crea una tabla), y palabra por palabra, se añaden filas a la base de datos con las palabras. Si la palabra ya existe, en vede añadirse una nueva fila, sumarse +1 a un campo numérico. Aunque esto es muy básico, claro. Después esta el tema más complicado, que es crear un algoritmo que organice los resultados según X condiciones.
Por lo que dices de palabras parecidas ponerlas en mismos grupos, me parece buena idea, pero trae consigo el problema de que palabras que se escriben de forma parecida, pero de significados no relacionados, sean catalogados por igual.
En definitiva, es un tema interesante, al que hay que dedicarle tiempo. Me encantaría poder dedicarle tiempo, pero es algo que lamentablemente no me sobra. Si tienes algún problema concreto respecto este tema, veremos que podemos hacer. Ante todo, desearte mucha suerte, y espero que saques muy buena nota en el trabajo, pues demuestras interés e ideas más allá de lo que se pide, que es algo que siempre se agradece, y que no podemos ver a diario.
Un saludo.