#НЕПОЛИТОЛОГ
Большие данные для политолога
Как в политических исследованиях могут применяться новые инструменты работы с информацией?
Большие данные для политолога — это относительно новый инструмент, позволяющий по-новому взглянуть на старые проблемы, а также значительно лучше объясняющий происходящие события. Рассказываем о примерах использования нынче модного сегодня понятия big data.
Социальные графы, большие данные и выборы
Sudhahar, S., Veltri, G. A., & Cristianini, N. (2015). Automated analysis of the US presidential elections using Big Data and network analysis. Big Data & Society, 2(1), 1-28.
Во всех устоявшихся демократиях выборы являются ареной огромной мобилизации ресурсов для убеждения и влияния на общественное мнение. Американские президентские выборы, таким образом, являются одними из самых интересных кампаний из-за огромного объема вкладываемых ресурсов в выборы. Так, в исследовании С. Судахара, Дж. Велтри и Н. Кристианини, представлен анализ освещения в СМИ президентских выборов в США в 2012 году, сочетающий методы тематического моделирования и сетевого анализа для получения представления о структуре охвата всей кампании через материалы о ней в СМИ.
Традиционные исследования в социальных науках, такие как изучение идеологической позиции кандидатов, их политическая коммуникационная стратегия и социальные представления выборов в средствах массовой информации остаются актуальными и востребованными, но всё же требуют новых концептуальных и методологических подходов
Авторы предлагают новый подход с использованием больших данных и автоматического сбора текстовых данных — парсинга сайтов СМИ. Исследование основывается на автоматическом анализе 130 213 новостных статей, связанных с президентскими выборами США, из 719 новостных изданий на основе современных технологий обработки естественного языка и искусственного интеллекта для извлечения информации о ключевых участниках выборов и об отношения к ним в СМИ.
Именно эти вопросы и ставит Кирилл Калинин, выпускник Европейского университета в Санкт-Петербурге и аспирант Мичиганского университета, стремясь понять, как опросы общественного мнения могут быть инструментом обнаружения мошенничества.
Анализ американских выборов 2012 года позволил выявить причину победы Обамы.
Выявляя отношения в сети на основе всех материалов в СМИ, авторы обнаруживают раскол на два основных лагеря — демократический и республиканский. Также результаты показывают, что кампания 2012 года характеризовалась стратегией Обамы по защите его репутации в экономической политике, а также его «атакой» по ряду вопросов и принуждением Ромни и республиканцев к защите от этих вопросы. По результатам автоматического анализа текстов также выяснилось, что кампания 2012 года была в значительной степени сосредоточена на вопросах экономики США и гражданских прав для демократов. Таким образом, повестка дня формировалась в большей степени вокруг Обамы, который бросил вызов традиционной республиканской проблеме собственности на экономику. Другими крупными актерами, игравшими важную роль для Обамы и Ромни, были Билл Клинтон и Пол Райан.
В целом, в средствах массовой информации чаще высказывались позитивные заявления о демократах, чем о республиканцах. Графы анализа настроения текстов показывают, что о республиканцах высказывались в более негативном ключе, а особенности этих графам более интересны для интерпретации. Рядом с узлом, который отвечает за обозначение Ромни видна негативная связь с терминами, которые относятся к теме гражданских свобод, также сеть выявляет проблемы прав женщин и иммигрантов рядом с упоминанием о Ромни.
Таким образом, автоматизированный разбор 130 213 новостных статей о президентских выборах в США в 2012 году создает сеть, образованную ключевыми политическими субъектами и вопросами, которые были связаны отношениями демократов и республиканцев. Данное исследование отмечает следующие закономерности: Во-первых, фундаментальный раскол между лагерями республиканцев и демократов может быть легко обнаружен путем разбивки по сетям. Во-вторых, авторы находят центральные узлы каждых лагерей и выявляют, что повестка демократов была сосредоточена на экономике. Республиканская же партия является более спорным субъектом в сети с неоднозначным и более негативным отношением к себе, нежели чем по отношению к демократам. Стоит отметить, что данная работа — одна из первых, которая использует сетевой анализ и тематическое моделирование с анализом настроения текста, основываясь на автоматически собранных данных из СМИ.
Где начинается протест: анализ мобилизации в Twitter
Steinert-Threlkeld, Z. C. (2017). Spontaneous collective action: peripheral mobilization during the Arab Spring. American Political Science Review, 111(2), 379-403.
Кто отвечает за мобилизацию протеста? Популярные, но оппозиционные СМИ? Может, идейные и популярные идеологи? Или же мобилизация протеста происходит локально в отдельных частях страны, региона или города? На эти вопросы в своей статье попытался ответить З. Штайнерт-Трелкельд, который утверждает, что мобилизация начинается на периферии.
Исследование основывается на данных о ежедневных протестах, проходивших в 16 странах Ближнего Востока и Северной Африки в течение 14 месяцев с 2010 по 2011 года. Собранные данные из твиттера насчитывают 13 754 998 твита с географической привязкой автора, а также с самим текстом твита, количеством подписчиков у автора и количеством человек, прочитавших этот твит.
Автор утверждает, что протесты происходят в результате децентрализованной координации пользователей. Акторы, находящиеся в центре сети: активисты, представители средств массовой информации или организации гражданского общества, не мобилизуют протесты. Вместо этого именно повседневные коммуникации на более низовом уровне и способствуют возникновению протестов. Безусловно, акторы, находящиеся в центре сети также влияют на протест, но их эффект привлечения размывается в большом количестве людей, которых они пытаются привлечь.
Центр сети подвержен атакам и подкупу, многочисленная периферия — нет
Исследование показывает, что протесты Арабской весны начались с повседневных твитов простых граждан, когда отдельные пользователи рассказывали о себе, о том, куда нужно сегодня идти, как добраться до места проведения акции, что там происходит и как нужно себя вести.
Такой подход подтверждается тем, что пользователи, которые находятся в «ядре» сети, посвященной данной проблеме, легко отслеживаются государством, особенно авторитарным. Более того, автор объясняет, что таких пользователей зачастую подкупают, чтобы либо задержать протестующих без больших потерь для государства, либо наоборот увести их от арены основных событий. Здесь важно понимать, что порой твиттер может обмануть исследователя своей внутренней спецификой и его данные могут совершенно ложно описывать события реального мира.
Таким образом, помимо знания и мобилизации протеста, статья показывает истинную цель использования больших данных, а особенно данных пользователей социальных сетей. Автор отмечает, что в своей работе он не пытается объяснить какие-либо явления Арабской весны, но он пытается показать, как люди вели себя в каждой стране этого явления. По его мнению, главная цель использования данных из социальных сетей — улучшение понимания нашего мира. Безусловно, данные из социальных сетей обладают своей спецификой, которая искажает реальность. Именно поэтому автор использует данные с геолокацией и ищет связи между пользователями.
Статья демонстрирует вклад, который большие данные могут внести в понимание социальных процессов как в социальных сетях, так и в реальном мире. Таким образом, эти данные открывают обществу новые представления о политических явлениях.
Святослав Зборовский
Made on
Tilda