Squeak.ru - шаблоны программирования

Есть ли список стоп-слов для твиттера?

Я хочу заняться майнингом твитов. Есть ли более конкретный список стоп-слов для твитов, таких как удаление «лол» и других смайликов в твиттере?

30.04.2015

Ответы:


1

Думаю, вам следует объединить обычный список стоп-слов, например этот или что с специальный словарь сокращений, например. этот словарь сленга или что или что или что (последний кажется самым простым для разбора, см. комментарии здесь для идеи).

30.04.2015

2

Мне неизвестен конкретный список стоп-слов, но вы можете получить список наиболее часто встречающихся отдельных слов здесь: http://clic.cimec.unitn.it/amac/twitter_ngram/ (скачать en.1grams.gz)

Чтобы обнаружить и игнорировать смайлики, используйте: https://github.com/brendano/tweetmotif

Вам также могут пригодиться следующие инструменты: https://github.com/willf/segment (если вы хотите для сегментации хэштегов) https://github.com/amacinho/Rovereto-Twitter-Tokenizer (если вы этого не сделаете)

01.05.2015
  • Спасибо за ответ~ 04.05.2015

  • 3

    Я не знаю о специальном списке стоп-слов для Твиттера, но обычной практикой является простое удаление n наиболее часто встречающихся слов из вашего анализа, где n может быть, например, 100. В зависимости от того, что вы хотите сделать, смайлики могут предоставлять очень важную информацию.

    30.04.2015
  • Я занимаюсь поиском данных по твитам. Я думаю, что смайлики бесполезны для моей поисковой работы. 30.04.2015
  • Новые материалы

    Угловая структура архитектуры
    Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

    «Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…
    Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

    Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта
    В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

    Правильный способ добавить Firebase в ваш проект React с помощью React Hooks
    React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

    Создайте API с помощью Python FastAPI
    Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

    Веселье с прокси-сервером JavaScript
    Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

    Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥
    Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...