Для построения облака слов в качестве токенов (единиц анализа) мы использовали биграммы — словосочетания из двух слов. Предварительно данные были очищены от
стоп-слов к которым мы также добавили 'atomic' и 'heart'.
Тематическое моделирование проводилось с помощью техники BERTopic — твиты трансформировались в векторный вид (эмбеддинги), и те твиты-вектора, оказавшиеся в количественном измерении наиболее близко друг к другу, объединялись в единые кластера. По итогам кластеризации в группу выбросов попало около 2 000 твитов, поэтому на второй стадии мы дополнительно распределили их по темам, с которыми они наиболее близки в векторном пространстве. По завершению тематического моделирования мы получили 39 тем, к каждой из которых было отнесено от 10 до 1 393 твитов.
Для анализа тональностей мы использовали lexicon-based инструмент VADER, т.к. он показывает относительно равномерное распределение тональностей (например, в
этом недавнем исследовании твитов о COVID-19). Мы рассматривали твит как положительный, если вероятность положительной окраски выше, чем вероятность негативной; как негативный, если вероятность негативной окраски выше, чем вероятность положительный; как нейтральный, если ни одно из этих условий не соблюдено.