Используйте поиск по шпаргалкам:

Google
 

Автоматизация анализа письменного текста: основные подходы к решению проблемы

Существует 2 основные стратегии решения проблемы:

1. модульный подход - последовательный анализ по уровням (морфологический, синтаксический, семантический, прагматический)
2. интегральный подход (более современный и более адекватный, Р. Шенк)

1. Системы модульного типа (Леонтьева):

модуль морфологического анализа -> полное морф. представление

модуль синтаксического анализа -> полное синт.представление

модуль семантического анализа -> частичное (фрагментарное) представл.

прагматический анализ
(пока не реализован)

Для широких ПО может быть использован в нескольких системах:
* СМП (SYSTRAN)
* системах извлечения знаний
* ИПС

2. Системы интегрального типа


Концептуальный анализ
-> фрагментарные концептуальные представления:

морф.анализ
синт.анализ
сем. анализ сценарии, фреймы. планы.

* Ищет в тексте диагностические слова
* заполняет пустые слоты в сценарии
* делает ряд концептуальных выводов (inferences) о смысле текста (в результате чего способна отвечать на поставленные вопросы по содержанию)
* на определенных этапах подключает процедуры
* нельзя получить уровневое представление
* тексты узко ограниченной тематики

Пример: интегральная система анализа Шенка:
1. MARGE (Memory Response Generation in English) - обработка концептуальной информации. В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления.
Работает в двух режимах:
* перефразирование (перевод входной фразы на ЯКЗ)
* концептуальный вывод
2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:
* POLITICS (ведет диалог, моделирует политическую идеологию)
* PAM -> TALE-SPIN - порождение сказок
* FRUMP - машинное реферирование сообщений на нескольких языках, чтение , опирающееся на понятие интереса (Integral Partial Parser)

2. Терминологические банки данных: структуры, функции, методы построения.

ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с удобным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии.

Научные задачи:
* моделирование терминологической системы РЯ как системы подсистем
* построение общенаучных и общетеоретических тезаурусов
* исследование русской терминологии

Типы традиционного использования ТБД:
* справочно-информационное обслуживание специалистов различных областей знания
* обеспечение традиционного перевода научно-технической литературы
* обеспечение АСОТ, включая системы машинного перевода
* лингвистическое обеспечение авт. систем информации
* обеспечение работ по упорядочению терминологии
* подготовка и издание терминологических словарей
* унификация определенных терминов
* подготовка научных отчетов о составе РЯ

Организационная структура ТБД:
* терминологические центры
* службы переводов (переводческая функция)
* службы стандартизации (нормативная функция)
* университеты (исследовательская функция)
* всероссийские органы НТИ (по АСУ и ИПС)

Функциональная структура ТБД:
1. Головной ТБД - справочно-поисковый аппарат по видовым банкам данных:
* ведение коммуникативного формата данных
* организация и руководство работами по передаче данных в ТБД
* обработка и ввод данных
* обслуживание предприятий

2. Специализированные ТБД (сбор, хранение , обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ:
отбор представительного массива источников
ввод и обновление терминологической информации в БД
передача информации другим СТБД и ГТБД
эксплуатация СТБД в соответствии с конкретными задачами организации.

ТБД состоит из ряда массивов, которые называются подфондами.
Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа.
Подфонды:
специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности
общенаучных и общетехнических терминов
терминоэлементов (используются в нескольких терминосистемах).

3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0.

Сноски:
1. курсор на месте символа ссылки на сноску
2. Format, Footnote
3. в поле reference mark ввести ссылку на сноску (не более 28 символов)
4. enter
5. ввести текст сноски (до нескольких абзацев)
перемещение между сноской и текстом: Jump Footnote
использование окна сносок: Esc W S F
переход из окна в окно: F1
местоположение сносок:
* по умолчанию - на той же стр., где ссылка
* Format Division Layout: same page, end

Газетная верстка:
колонки:
1. Options: Show Layout Yes или Alt-F4
2. Esc Format Division Layout

колонтитулы:
1. курсор в начало документа
2. ввести текст + enter
3. курсор внутрь текста или выделить текст
4. Esc Format Running Head: Position:
Top Bottom None Odd Even First Alignment: left margin Edge-of-paper
5. enter

Быстрое создание колонтитулов:
1-3 - то же самое
4. верхний колонтитул: Ctrl+F2
нижний колонтитул: Alt+F2

На каждой странице может быть не более двух колонтитулов: верхний и нижний
Выравнивание колонтитулов: Format Paragraph или Alt C, Alt R.
Вывод номера страницы/даты:
1. курсор в то место колонтитула, где будет страница.
2. набрать page/date
3. F3
Default FixSim_112007