Мне было интересно, знает ли кто-нибудь, где я могу получить словари положительных и отрицательных слов. Я изучаю сентиментальный анализ, и это его важная часть.
Словари анализа настроений
Ответы (9)
Возможно, вам нужен лексикон настроений Университета Питтсбурга. Это лексикон из около 8000 слов с позитивным / нейтральным / негативным настроением. Более подробно он описан в этом документе и выпущен под GPL.
Придя немного поздно, отмечу, что словари имеют ограниченный вклад в анализ настроений. Некоторые сантиментальные предложения не содержат слов о сантиментах - например, «прочтите книгу», что может быть положительным в рецензии на книгу и отрицательным в рецензии на фильм. Точно так же эмоциональное слово «непредсказуемый» может быть положительным в контексте триллера, но отрицательным при описании тормозной системы Toyota.
и многое другое ...
Лексика анализа настроений (Opinion Mining)
- Лексикон субъективности MPQA
- Лексика настроений Бин Лю и Миньцин Ху
- SentiWordNet (входит в NLTK)
- VADER Sentiment Lexicon
- SenticNet
- LIWC (платно)
- Harvard Inquirer
- НОВОЕ
Источники:
- Keenformatics - лексиконы и наборы данных для анализа тональности (мой блог)
- Хатто, К. Дж. и Эрик Гилберт. «Вейдер: экономная основанная на правилах модель для анализа настроений в тексте социальных сетей». Восьмая международная конференция AAAI по блогам и социальным сетям. 2014.
- Учебное пособие по симпозиуму по настроениям Кристофера Поттса
- Личный опыт
Профессор Бинг Лю предоставил лексикон английского языка объемом около 6800 слов, вы можете скачать его по этой ссылке: Анализ мнений, анализ настроений и обнаружение спама с мнениями
В этой статье 2002 года описан алгоритм для автоматического получения такого словаря из образцов текста, используя только два слова в качестве начального набора.
Здесь вы можете найти AFINN, а также создать его динамически. Как и всякий раз, когда появляется неизвестное + ve слово, добавьте его с +1. Как будто банан - это новое слово + ve, которое появляется дважды, тогда оно становится +2.
Чем больше статей и данных вы сканируете, тем лучше ваш словарь!
Каталог словарей Гарварда-IV http://www.wjh.harvard.edu/~inquirer/homecat.htm содержит как минимум два набора готовых словарей для положительной / отрицательной ориентации.
Вы можете использовать лексику настроений Вейдера
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentence='APPle is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)
print(ss)
это даст вам полярность предложения.
выход:
{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}
Sentiwords дает 155 000 слов (и их полярность, то есть оценка от -1 до 1 от очень отрицательного до очень положительного). Лексика обсуждается здесь