Часть полного текста документа:Интерактивное исследование неколичественных данных: методика и инструментарий Е.Б. Белова В этой статье рассматривается методика интерактивного исследования неколичественных данных, извлекаемых из исторических источников. Предлагаемый подход предполагает активное участие исследователя на каждом шаге компьютерного анализа. Необходимость такого подхода может быть обоснована следующими двумя утверждениями, касающимися характера исторических данных и процесса их анализа. Во-первых, неколичественные данные по своему происхождению - это, вообще говоря, данные, извлекаемые из текстовых документов, а следовательно, семантически плохо определенные; их структура не обязательно является регулярной. На формальном уровне единицей анализа является поименованная сущность (объект данных), описываемая произвольным набором элементарных свойств (качеств). Другими словами, сущность определяется как подмножество во множестве свойств/качеств. Свойство, в свою очередь, определяет, посредством своей встречаемости, группу сущностей, и следовательно, может рассматриваться как подмножество во множестве сущностей. Таким образом, мы имеем симметрию, позволяющую обрабатывать сущность и ее свойства схожим образом: рассматривая набор данных как два множества, описываемых зависимостью "многие-ко-многим". Однако, надо отметить, что хотя такая симметрия не всегда осмыслена на уровне интерпретации, она всегда присутствует с формальной точки зрения. Поэтому предлагаемый способ анализа существенным образом опирается на этот факт. На практике набор данных существует как последовательность записей, каждая из которых описывает один объект (определяет его имя и набор качеств). Качества могут принадлежать к различным группам. Эти группы могут служить аналогами переменных ("полей" - в терминах баз данных), а качества, им принадлежащие - значениям переменных. Но группы, с одной стороны, могут иметь более одного значения для каждой записи, а с другой стороны, их существование в общем случае необязятельно. Более того, группы качеств могут существовать динамически и приобретать различный смысл в процессе анализа. Во-вторых, на практике очень сложно, а иногда даже невозможно выбрать a priori верный алгоритм анализа сложных данных. Поэтому предлагаемый в данной статье программный инструмент QualiDatE [1] поддерживает гибкий механизм для создания пользовательских стратегий анализа. Основной операцией QualiDatE является кластеризация (классификация). Однако, здесь смысл этой процедуры является более широким, чем в традиционном анализе данных: контролируемый пользователем процесс кластеризации позволяет изучать характеристики набора данных с различных точек зрения и в различных измерениях поскольку и объекты данных, и их свойства могут быть классифицированы. Каждый отдельный акт классификации определяется следующим образом: указываются эталонные объекты, задающие центры искомых классов; путем введения порога близости (сходства) определяется насколько другие объекты из исследуемого набора должны быть близки к эталонам; указывается тип классификации. QualiDatE поддерживает два основных типа близости: симметричную и асимметричную: На первый взгляд, асимметричная близость может выглядеть странно, поскольку мы привыкли рассматривать сходство как симметричное отношение. ............ |