1. Сбор данных. Список российских оппозиционеров был собран вручную с учётом активности политических акторов в Twitter. Данные для каждого аккаунта были автоматически собраны с помощью официального API и парсинга — в выборку попали посты, опубликованные за последний год, т.е. с 1 июня 2022 по 22 мая 2023.
2. Частотный анализ. В рамках частотного анализа было построено два облака слов — для униграмм (единичных слов) и биграмм (словосочетаний из 2-х слов). Предварительно текста были лемматизированны, а также очищены от
стоп-слов.
3. Анализ тональности. Тональность была определена для каждого твита с помощью embedding-based подхода (
ссылка на модель) — это позволяет как автоматизировать процесс, так и добиться сравнительно точных результатов (относительно, например, lexicon-based подходов).
4. Тематическое моделирование. Темы были выделены с помощью библиотеки BERTopic — как и в случае с анализом тональности, embedding-based, подход, реализованный на базе библиотеки, является эффективным инструментом для класстеризации текстовых данных,
в том числе для русского языка.
5. Кластеризация акторов. В качестве признаков для кластеризации акторов использовались показатели тематической представленности. Для каждого актора было подсчитано количество постов, затрагивающих 5 наиболее часто встречаемых тем, деленное на общее количество постов — таким образом, было выделено 5 признаков, где каждый признак — доля постов, посвященных одной из 5 тем. Для определения оптимального количества кластеров использовался классический метод — Elbow Rule, определивший 4 как оптимальное количество. Впоследствии, акторы были распределены по 4 кластерам с помощью метода k-средних в зависимости от представленности каждой из 5 тем в их риторике.