Интеллектуальный анализ текста FRACAS

 

Широко известно, что специалисты, занимающиеся расследованием катастроф, и вышестоящие органы испытывают настоящий шок, когда понимают, что множество фатальных инцидентов можно было предотвратить – вся необходимая информация и данные были под рукой – в системе.

Во многих случаях все измеренные и собранные данные и информация записаны в форме сотен (иногда миллионов) письменных, занесенных в журнал данных, собранных с помощью механизма преобразование речи в текст. В таком огромном пласте информации почти невозможно отличить важный сигнал от бесполезного шума. Как же воспринять весь этот огромный блок информации, чтобы значительно сократить или даже предотвратить критические происшествия и катастрофы?
Необходимым решением, которое с нетерпением ждут во всем мире, является возможность компьютеризированного выбора необходимых записей информации с помощью скрытых закономерностей и взаимосвязи в данных и тексте.

 

Анализ и интерпретация данных и интеллектуальный анализ текста


Анализ и интерпретация данных – это процесс обнаружения скрытых закономерностей и взаимосвязи данных.
Интеллектуальный анализ текста использует инструменты анализа и интерпретации данных для текстовых данных, чтобы вычленить шаблоны/закономерности из естественного языка, то есть наименее структурированных данных, где идентичные вещи могут быть описаны разными словами и наоборот – разные вещи могут быть описаны одними и теми же словами. Интеллектуальный анализ текста отличается от поиска в сети, когда пользователь ищет что-то, что уже известно или было зафиксировано кем-то до него. Неотъемлемой частью сбора и управления данными об инцидентах системой FavoWeb является эффективное решение по интеллектуальному анализу текста.

FavoWeb FRACAS (cистема оповещения об отказах, анализа и корректирующих действий) помогает выполнять важную задачу по обеспечению безопасности и защиты: распознавание шаблонов, классификация, разбивка на категории и обозначение объема данных и произвольного текста.

Сейчас FavoWeb FRACAS включает систему безопасной категоризации текста, способную отнести новые поступившие отчеты об отказах/инцидентах к одной или более заданной категории в зависимости от их текстового содержания.

 

Интеллектуальный анализ текста FavoWeb FRACAS


• Комплексный подход к масштабным задачам по анализу текста предоставляет уникальное комплексное решение
• Высокое разрешение (большое число вводных параметров – отдельные слова из словаря)
• Разреженный вектор документов (небольшое число отдельных слов в каждом документе)
• Разнородное использование терминов (одни и те же категории документов могут иметь маленькое совпадение)
• Высокий уровень избыточности (множество разных характеристик, соответствующих классификации)

 

Интеллектуальный анализ текста для прогнозирования


Прогнозирование – это конечная цель интеллектуального анализа текста FavoWeb FRACAS.

Процесс FavoWeb интеллектуального анализа текста – это комплексное и завершенное решение для всех трех стадий анализа текста:

1. Предварительная обработка текста – фильтр данных и преобразование данных, выбор групп, предварительный выбор характеристик, сокращение большого числа параметров до числа, удобного для обработки.

Возможности инструментов FavoWeb:
• Бинарная кодировка и кодировка текста на основе частотности слов
• Сокращение словаря путем объединения основ, лемматизации, частотности слов и т.д.

2. Создание модели и валидация – рассмотрение различных моделей и выбор лучших из них на основании их прогнозируемой способности связывать новые отчеты с одной или более группой заданных категорий на базе их текстового содержания.

На стадии валидации модели FavoWeb FRACAS используется все известные современные подходы:
• Классический и быстрый метод SVM
• Кросс-валидация для выполнения настройки по типу ядра (Kernel Type) и оценки штрафов
• Категоризации «Один-к-одному» и «один-ко-многим» для мультиклассовой категоризации
• Алгоритмы для блоков несбалансированных данных и данных с пустым значением

3. Подготовка к эксплуатации – использование лучшей модели, выбранной на предыдущей стадии, и ее применение для новых данных, чтобы создать прогнозы или оценку ожидаемых результатов.

В FavoWeb используются следующие подходы:
• Распознавание нового элемента для бинарной категоризации, категоризации «один-к-одному» или «один-ко-многим» мультиклассовых категоризаций
• Оценка точности
• Оценка правильности распознавания нового элемента

 

Приложения по анализу текста


• авиационная отказобезопасность
• безопасность доступа и контроля
• профайлы налоговых махинаторов
• антитеррористические мероприятия

 

Доказанный опыт

 

• Авиационная и космическая безопасность
• Обнаружение изделий, склонных к отказам

См. также:
Система оповещения об отказах, анализа и корректирующих действий
Услуги по сбору данных
Методы анализа отказов
Наши проекты и решения по надежности и отказобезопасности
Связаться с нами
Решения ALD по надежности, отказобезопасности и качеству