Я хочу заняться майнингом твитов. Есть ли более конкретный список стоп-слов для твитов, таких как удаление «лол» и других смайликов в твиттере?
Есть ли список стоп-слов для твиттера?
Ответы:
Мне неизвестен конкретный список стоп-слов, но вы можете получить список наиболее часто встречающихся отдельных слов здесь: http://clic.cimec.unitn.it/amac/twitter_ngram/ (скачать en.1grams.gz)
Чтобы обнаружить и игнорировать смайлики, используйте: https://github.com/brendano/tweetmotif
Вам также могут пригодиться следующие инструменты: https://github.com/willf/segment (если вы хотите для сегментации хэштегов) https://github.com/amacinho/Rovereto-Twitter-Tokenizer (если вы этого не сделаете)
Я не знаю о специальном списке стоп-слов для Твиттера, но обычной практикой является простое удаление n наиболее часто встречающихся слов из вашего анализа, где n может быть, например, 100. В зависимости от того, что вы хотите сделать, смайлики могут предоставлять очень важную информацию.