#НЕПОЛИТОЛОГ
Машинное обучение и работа с текстами для политолога
Новые технологии в политических исследованиях
Новый методологический выпуск. На этот раз речь пойдет о работе с большими объемами текстовых данных и том, в каких сферах новые технологии анализа информации наиболее эффективны.
Машинное обучение в политических исследованиях: инструкция по применению
Wilkerson, J., & Casas, A. (2017). Large-Scale Computerized Text Analysis in Political Science: Opportunities and Challenges. Annual Review of Political Science, 20, 529-544.
В последние годы появилась возможность анализировать большое количество текстов с помощью количественных методов. Интернет предоставляет политологам не только большое количество данных, но и доступные программные пакеты для анализа текста, при этом обучая политологов, как нужно работать с большими текстовыми данными.
В результате можно сделать вывод, что исследования по принципу «текст как данные» становятся одним из главных направлений в политической науке. Так, в статье Вилкерсона и Касаса описываются 4 основных этапа в исследовании на основе «текст как данные». Затем авторы рассматривают последние новинки в области политологии и подробно останавливаются на важной методологической проблеме: проблеме нестабильности метода тематического моделирования.
Как это делается?
1
Получение текста
Первая стадия исследования заключается в сборе текстовых данных. На данном этапе чаще пользуются автоматическим сбором данных с сайтов с помощью API (программных интерфейсов приложений). Такой метод заметно облегчает жизнь исследователям, так как в основе программы заложен код, который собирает нужные исследователю данные. Однако, если же у нужного источника или его сайта нет API, то исследователям приходится собирать данные вручную.
2
От текста к данным
Содержимое каждого документа должно быть преобразовано в количественные данные. Часто цель заключается в создании термина-документа или матрицы временной частоты, где каждая строка является документом, и каждый столбец является признаком, найденным, по меньшей мере, в одном из этих документов. Таким образом, на данном этапе исследователям необходимо принять решение о том, как будет выглядеть его база данных. Следующим шагом является присваивание удельных весов переменных, а также удаление стоп-слов или слов, которые не имеют отношения к исследованию. Этот этап особо трудоёмок, так как требует либо кропотливого чтения, либо достойного автоматического анализа.
3
Количественный анализ текста
На данном этапе выявляется разность подходов политологов и специалистов по машинному обучению. Политологи привыкли использовать методы машинного обучения для тестирования теорий или для того, чтобы добиться повышения точности предсказания своих моделей для подтверждения своих гипотез, тестируя всё те же теории. Специалисты по машинному обучению в свою очередь не гонятся за результатами, а пытаются найти что-то необычное в их результатах. Так, авторы обращают внимание читателей на первую проблему метода «текст как данные», целиком посвящая ей данную часть работы.
4
Оценка эффективности модели
Оценка эффективности является неотъемлемой частью любого количественного исследования с использованием текстов. Для некоторых исследований такая проверка проста — исследователи сравнивают свои результаты с уже имеющимся «золотым стандартом», после чего они могут смело заявить о (не)состоятельности своих моделей. В других случаях, где «золотые стандарты» не существуют, ученые используют множественные кросс-валидации, продолжая тестировать свои модели на данных.
В разделе инноваций авторы отмечают, что политологам на данный момент достаточно следовать за специалистами по машинному обучению, используя методы кластеризации, метод ближайших соседей, LDA и т.д. Таким образом, авторы делают вывод о том, что технологический потенциал у исследователей политической науки пока слабоват. Обратить же им внимание следует на их сильную сторону и одновременно ахиллесову пяту: политологи сильны своими интерпретативными навыками, тогда как они лишь тратят время в погоне за точностью моделей
Где найти информацию о грядущих конфликтах в газетах?
Mueller, H., & Rauh, C. (2017). Reading between the lines: Prediction of political violence using newspaper text. American Political Science Review, 1-18.
Статья канадских исследователей Муеллера и Рауха является наглядным примером исследования по политической науке с применением методов тематического моделирования.
В первой статье последнего декабрьского выпуска журнала «American Political Science Review» показывается, как можно спрогнозировать вооруженный конфликт на основе анализа газетных текстов. Инновационная составляющая данного подхода состоит в том, что количественные характеристики газетных материалов, учитывая различия между темами и странами, позволяют прогнозировать потенциальные конфликты даже в тех странах, в которых они не свойственны. Так, данный подход позволяет избегать тенденции прогнозировать конфликт только в странах, где конфликты являются постоянным явлением.
Безусловно, современная литература может рассказать о характеристиках, из-за которых страны более подвержены риску возникновения вооруженных конфликтов. Среди таких характеристик выделяют горную местность, этническую поляризацию и прочие переменные, которые, по мнению авторов, хорошо описывают кейсы, но никак не увеличивают точность прогнозов. Другие же факторы, такие как ВВП или политические институты, по-прежнему значительно отличаются между странами, что усложняет сравнение. Так, авторы останавливаются на проблеме выявления сроков конфликта и ставят её за основу своего исследования.
В практической части, используя регрессионную модель с панельными данными, авторы показывают, что многие переменные предсказывают вооруженный конфликт лишь там, где таковые происходили раньше, а поэтому не могут предсказать конфликт в мирных странах. Так, Муеллер и Раух используют модель LDA на основе более 700 000 газетных англоязычных изданий с 1975 года из 185 стран мира. Авторы объясняют свой выбор следующими аргументами.
Многие переменные предсказывают вооруженный конфликт лишь там, где таковые происходили раньше, а поэтому не могут предсказать конфликт в мирных странах.
Во-первых, темы обеспечивают глубину исследования, потому что по дизайну они помещают слова в контекст, который может быть полезен для прогнозирования. Во-вторых, темы предоставляют ширину, потому что они позволяют нам использовать весь текст, в том числе стабилизирующие факторы, при прогнозировании конфликта. Это означает, что мы можем позволить данным говорить, не теряя интерпретируемости результатов. В результате модель полностью опирается на текст новостей и поэтому может предоставлять прогнозы без необходимости экстраполяции или ожидания других источников.
В качестве заключительного шага авторы используют вариации внутри страны, то есть, влияние и возможность появления конфликтов на страновом уровне, чтобы предсказать конфликт из выборки.
Для этого шага авторы вычисляют долю слов, написанных по каждой теме в каждой стране и году. Затем эти темы используются в регрессии фиксированных эффектов в стране, чтобы предсказать начало конфликта в следующем году. Таким образом, время конфликта может быть предсказано более точно, чем в отношении переменных, которые раньше использовались в литературе.
В заключении авторы показывают, что тематическое моделирование — достаточно привлекательный метод для прогнозирования в политической науке. Во-первых, результаты могут быть легко интерпретированы, потому что темы предоставляют значимые резюме текста. Во-вторых, алгоритм, который генерирует темы, может учиться на меняющейся ассоциации терминов. Так, например, термин «повстанцы» служит не только новым аналогом слова «террорист», но и показателем риска конфликтов. В-третьих, тематическое моделирование использует отрицательные ассоциации между темами и конфликтным риском в предсказании. Фактически, большая часть прогноза, по-видимому, исходит из тем, которые не связаны напрямую с конфликтами, а поэтому мы действительно можем отойти от предсказаний к интерпретативным прогнозам.
Святослав Зборовский
Made on
Tilda