html, xml, xhtml, css, jscript   php, perl   Авто   Бизнес   Деньги   Законы   Интересная история   Интернет бизнес   Искусство   Карьера   Креатив   Недвижимость   Оружие   Подольск   Полезное   Портальные системы   Реклама   Ретро-авто   Русские   Человек  
Содержание   А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Модель информационной системы бизнес-разведки

Система корпоративной безопасности - важнейший инструмент управления предпринимательскими рисками. Ее задачи состоят не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий.
<
Система корпоративной безопасности - важнейший инструмент управления предпринимательскими рисками. Ее задачи состоят не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий.

Термин «бизнес-разведка» обозначает широкую категорию технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений. Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам объектов (потенциальных источников угроз) для планирования и организации разведки. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных или доверенные источники - СМИ, внутрифирменные, банковские и правительственные отчеты, прогнозы). Далее разрабатывается модель угроз и система управляющих воздействий при их обнаружении.

Для оценки эффекта от внедрения систем бизнес-разведки необходимо ясно представлять возможности подобных решений. Их использование, в частности, позволяет: Приведем несколько примеров. Концепция информационных систем бизнес-разведки предполагает реализацию трех принципов: Все это означает наличие атрибутов времени и места для каждого факта или гипотезы, а также невозможность их безвозвратного удаления. Также разработчики систем бизнес-разведки сталкиваются с проблемами преобразования различных форм представления знаний. В частности, основная причина относительно малого объема рынка систем извлечения знаний и систем поддержки принятия решений состоит в том, что практически ни одна система аналитической обработки не выполняет формально-семантической интерпретации результатов своей работы (хотя бы за счет их семантического ранжирования). А это не позволяет без применения дополнительных программ преодолеть понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений.

Такой разрыв «сшивается» за счет того, что результаты работы программ интерпретирует эксперт-аналитик. Однако это приводит к тому, что добытые знания «упрятываются» в документы, теряется их аргументация, и они не могут быть повторно получены. В большинстве предприятий каждый новый аналитик проходит весь путь накопления профильных знаний заново, прежде чем он сможет стать экспертом. Собранные факты находятся в головах экспертов, хранятся в разных документах и базах данных, что не позволяет совместно анализировать разрозненные факты и объединять их в общее пространство фактографической информации, ведет к потере ценности полученных сведений и вложенных в их разведку средств.

Для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На ее входе из различных источников формируется не только поток сведений об изучаемых объектах в форме количественных показателей, видеоклипов и документов, но и выделенный из них поток знаний (то есть аналитически обработанной, классифицированной и очищенной информации), основной формой представления которых являются факты и гипотезы. Естественно, факты проходят очистку, интеграцию и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ).

Множественность значений факта обусловлена возможностью разной интерпретации одного и того же явления, а также противоречивостью, неточностью или нечеткостью поступающих из внешних источников сведений. Поэтому инфологическими особенностями информационной модели ЕИПФ являются поддержка множественных фактов об одном событии, наличие у факта атрибутов для его тренинга (идентификации автора, времени, источника факта) в целях его возможного повторного извлечения и поддержка множественных версий интерпретации фактов. Подсистема обработки фактографических данных находится на вершине иерархии информационной инфраструктуры компании, поскольку для генерации фактов использует сервисы разных систем анализа и доставки контента. С помощью своих программ извлечения знаний они получают факты из СУБД, хранилищ многомерных данных, Internet, подсистем аналитической обработки и моделирования, а также из прикладных систем, порождают гипотезы или сигнальную информацию.

Разберем концептуальную и базовую информационные модели системы бизнес-разведки, проиллюстрировав их на примере программы Xfiles, разработанной с использованием программных компонентов компаний Oracle, «Гарант-Парк-Интернет», Inxight, ABBYY Software House и Altova. К этому же классу систем можно отнести продукты компаний Clear Forest, «Мегапьютер Интеллидженс», Rsoft и «Гарант-Парк-Интернет».




Информационная модель системы
Основные понятия информационной модели системы Xfiles таковы:

Факт - событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками, аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов либо определен экспертом. Он может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза - аналитическое высказывание (полученное в результате аналитической обработки данных, например прогнозирования) относительно состояния атрибута досье, которое сопровождается аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться разными подсистемами извлечения знаний или экспертами.

Объект - сущность, информация о которой накапливается в системе. Объект имеет семантический фильтр для самоидентификаиии в тексте.

Тип досье - описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен хотя бы один тип досье.

Досье - реализация типа досье для конкретного объекта.

Атрибут - структурный элемент типа досье, предназначенный для накопления фактов одного типа (биографические данные, сведения о поездках и др.). Атрибут имеет семантический фильтр для выделения «своих» фактов из потока документов. Один атрибут может входить в досье нескольких типов.

Связь - направленное или ассоциативное отношение определенного типа между объектами системы. Связь представляется специальным типом атрибута в каждом досье связываемых объектов.

Поскольку изучаемая предметная область зачастую довольно обширна, целесообразно использовать несколько досье для одного объекта. Например, одно досье может освещать бизнес-деятельность объекта, второе - его личную собственность, третье - медицинские данные и т.п. Такой подход дает возможность разным группам аналитиков «чувствовать» только профильную для них группу атрибутов, но лицо, принимающее решение, может анализировать все досье объекта и все его связи. На рис. 1 Объект X объединяет два типа досье (Тип досье А и Тип досье В) и содержит все семь атрибутов, а Объект Y имеет один тип досье (Тип досье В) и содержит четыре атрибута, причем Атрибут 4 одновременно входит в состав обоих типов досье.

Актуализация базы данных досье производится путем ввода в нее новых фактов такого вида.

Факт: < идентификатор факта>, < значение факта>, < временной диапазон действия факта>, <место>, <источник факта>, <оператор>, <статус факта>;

Идентификатор факта: <идентификатор объекта>;

Идентификатор элемента досье - <идентификатор атрибута>, <идентификатор связи>.



Технологии обработки фактов
Один из наиболее важных, но и наименее достоверных источников информации для выделения фактов - масс-медиа. В связи с большой плотностью потока текстовой информации в современных фактографических системах интенсивно развивается технология автоматического выделения фактов, относящихся к объектам мониторинга. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В XFiles реализована функция сбора А-фактов практически изо всех доступных типов открытых источников.

Для последующей оценки достоверности фактов, их обобщения и для формирования аналитических материалов используется экспертная обработка. Экспертные факты (Э-факты) вводятся авторизованным пользователем в интерактивном или пакетном режиме.

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах. При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов вводится ссылка на объект viz-a-viz. Этот процесс может выполняться автоматически и с участием эксперта. Если объекта - второго участника связи нет в базе данных, то, в зависимости от параметров системы, он создается автоматически либо гипертекстовая ссылка не создается.

В системе рассматриваются два типа связей: симметричные и асимметричные. Симметричная связь между объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье каждого из объектов гиперссылки на второй объект. При автоматическом выделении этого факта из текста первичным объектом связи считается подлежащее, а вторичным - дополнение. Так, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может фигурировать факт дружбы с объектом Петров. В этом случае у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.

В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при выявлении факта кредитования одним объектом другого для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. На рис. 2 связи отображаются в виде дерева, а детальные данные выделенной строки-связи - в виде конкретных фактов.




Формирование А-фактов
На рис. 3 представлен пример структуры источников информации, используемых для ведения досье.



Автоматическое выделение фактографической информации - это процесс выделения фактов для пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга (рис. 4). В зависимости от типа атрибута и источника информации процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, статистического анализа и др.

В автоматическом выделении фактов в системе бизнес-разведки задействовано несколько программных компонентов.

Фактографический модуль предназначен для автоматического выделения фактов из информационных объектов, доставляемых источником данных. Может обрабатывать структурированные (числовые и символьные данные, пространственная информация из геоинформационных систем) и неструктурированные (видео, звук, текст) данные. Например, для текстового атрибута Покупка акций фактом является контрольный пакет акций, объектом связи - ОАО «XXX», а свойством факта - обстоятельство времени в мае 2004 года. С помощью семантико-лингвистических методов выделяются количественная информация, связанные с фактом объекты, обстоятельства места и времени. Выделенная информация очищается, нормализуется (например, приводится к единому формату даты в системе) и классифицируется. Она сохраняется в базе и используется для аналитической обработки, скажем для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов.

Источник данных доставляет контент для автоматической обработки фактографическим модулем. Все источники документов системы поддерживают набор программных интерфейсов, с помощью которых фактографический модуль выполняет запросы, получает контент и его атрибуты.

Задача управляет регламентом и настройками процесса автоматического выделения фактов из текстов.

Агент запуска задач управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению. По ее параметрам он устанавливает, какой фактографический модуль необходимо запустить и какие источники документов для этого использовать.

Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь фактографическое правило, определяющее синтактико-морфологический шаблон, по которому выделяются факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, а на выходе формируется шаблон факта для всех похожих предложений.

Технология выделения А-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые позволяют получить А-факты, сопоставимые с экспертными по точности и полноте. Сначала строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Затем создается информационный портрет документа на основе смысла элементов текста, извлекаемых средствами синтаксического анализа и синтеза. Далее он преобразуется в семантическую сеть, обеспечивающую инвариантность представления смыслов относительно ряда особенностей поверхностно-синтаксической организации текста.

Для решения задачи выделения А-фактов полное представление смысла текста в форме семантической сети избыточно; оно имеет большой объем (превышающий объем документа), а его утилизация требует высокопроизводительного оборудования и развитых нетривиальных средств для поиска и сравнения структур на графах. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах. Например, фразам «Транспорт был арендован террористом у автобазы», «Террорист арендует у автобазы транспорт» и «Аренда транспорта террористом у автобазы» будут соответствовать одинаковые элементы смысла: «террорист арендует», «аренда транспорта», «аренда у автобазы».

Выделяемые связи между элементами смысла можно разделить на следующие основные классы: В последней технологической фазе извлечения А-фактов модуль фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Еще раз подчеркнем, что выделенный факт - это не только контекст, но и его свойства. В XFiles . алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка; для других языков могут использоваться источники документов, поддерживающие многоязычный поиск.




Технология формирования досье
При коллективной работе зачастую несколько фактов вводятся в один атрибут одного объекта, после чего возникает необходимость в экспертной оценке достоверности введенных (возможно, противоречивых) фактов. Для этого в базе досье хранится дополнительная информация, подтверждающая факты в форме цитат из документов, а также прикрепленных к факту документов, почтовых сообщений, заключений экспертов, видеофрагментов и графических файлов. Каждый факт в системе имеет статус достоверный или недостоверный. На основе дополнительной подтверждающей информации из базы данных эксперт может принять решение об изменении статуса факта либо его удалить.

В системе реализован трекинг фактов - для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, имеющих распределенную систему офисов, каждый из которых может порождать информацию, например о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании в том числе досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется язык XML. Он удобен по не скольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Встроенные в шаблон средства контроля над целостностью документа позволяют передавать только правильные факты. Автоматический ввод поступающих фактов производится с помощью программы-агента. Она выполняет мониторинг поступления новых сообщений, анализ корректности и структурный разбор XML-сообщения, формирование списка фактов, содержащихся в сообщении, и ввод фактов в базу данных.




Аналитическая обработка фактов
В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов: Все виды аналитической обработки в XFiles могут дополняться ограничениями:



Сочетание возможностей
Информационная система бизнес-разведки для формирования досье базируется на технологиях извлечения знаний и использует в качестве источников все системы, применяемые в процессе подготовки и принятия решений. Обычно они интегрированы в корпоративный аналитический портал компании.

Растущая популярность таких информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из разных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Основанные на данном подходе системы бизнес-разведки компаний обеспечивают качественно новые конкурентные преимущества, безопасность и динамичное развитие бизнеса.

Автор: Сергей Киселев (заместитель директора департамента разработки информационно-аналитических систем компании «Ай-Теко») Открытые системы № 5-6, 2005 г.
11/01/2006  
дополнительно
Как запустить стартап?
Франшиза - это не шиза. Как открыть свое дело под "крышей" известного бренда
Деловая разведка как необходимый инструмент обеспечения экономической безопасности бизнеса
Конкурентная разведка versus шпионаж
Авангардный HR
Как атаковать конкурентов?
С вещами на выход
Сегодня он танцует джаз...
Секрет "умной" компании. Управление интеллектуальным капиталом
Информация - ключ к управлению
back home top
Подольск Адреса История Подольские Форумы Объявления Справочник Фото Журнал
Подольское городское информационное агенство podolsk.biz размещение сайтов о городе Подольск и Подольском районе. имя вида название.podolsk.biz, почтовые адреса вида название@podolsk.biz
Подольское агенство podolsk.biz

Отдел рекламы 8903 1347521

поиск по Подольску



Подольск   карта сайта   Реклама на «podolsk.biz»  

Подольск рейтинг