Поиск:
г.Тамбов, ул. Ленинградская 1
Наши партнеры


Сегодня: 15 декабря 2018 г.
Время:     19 ч. 57 мин.

МАТЕРИАЛЫ
межрегиональной научно-практической конференции
"Информатизация системы образования Тамбовского региона"

Коробова Ирина Львовна
ГОУ ВПО "Тамбовский государственный технический университет"
Доцент кафедры САПР, кандидат технических наук

Автоматизированная система синтеза текста
на основе технологии шаблонизации

Одним из применений систем искусственного интеллекта является создание диалоговых процедур общения на естественном языке, обеспечивающих контакт между интеллектуальной системой и человеком-специалистом в процессе решения задач. Данное научное направление носит название компьютерной лингвистики. В рамках этого направления изучаются и формализуются синтаксические и семантические особенности естественного языка. В настоящее время в компьютерной лингвистике выделяют пять основных направлений: анализ текстов на естественном языке; синтез текстов на естественном языке; понимание текстов; оживление текста; модели коммуникации.
Для того чтобы диалоговая система могла успешно функционировать, необходимо решить три основные задачи:
1) Проанализировать заданный вопрос, выявить его грамматическую структуру, формализовать ее, приведя к типовой форме, доступной восприятию компьютера. Эта задача решается с помощью специальных программ, осуществляющих лингвистический анализ входного текста (вопроса) и выделяющих объекты и отношения между ними, которые позволяют установить, какую информацию следует искать в памяти компьютера.
2) Найти среди хранящейся в компьютере информации объекты, указанные в вопросе, и отношения между ними. Данная задача зависит от формы представления информации о рассматриваемой предметной области в компьютере. В простейшем случае вся информация представляется явно, и поиск ответа заключается лишь в сравнении наименований объектов, указанных в вопросе, с теми, которые хранятся в машине. В более сложном случае на основании хранящейся информации формируется модель предметной области, которая используется для получения ответа;
3) Преобразовать найденные данные в текст (синтезировать ответ) на естественном языке, согласованный с заданным вопросом. Программа, осуществляющая синтез текста ответа, должна на основе анализа вопроса выбрать грамматически правильную структуру ответа, оценить морфологические особенности входящих в ответ слов, их тип, род, число, время и т. п. И на основании этого преобразовать их так, чтобы они составили грамматически правильный, согласованный текст.
Один из возможных путей синтеза текста состоит в использовании актантов действий. С каждым действием связан некоторый набор соответствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора. Если, например, мы имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т. п. Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест: (рис.1)
Действие Идти Субъект
Куда
Откуда ...
Рис. 1
Такие структуры названы фреймами. Заглавными буквами в этой структуре обозначены некоторые имена. Первое имя конкретизируется глаголом "идти", а остальные имена пока остаются незаполненными. Эти остальные имена и определяют актанты глагола "идти".
Наличие актантных структур действий позволяет представить процесс синтеза текстов в виде ряда следующих друг за другом шагов. На первом шаге генерируется нужная последовательность глаголов-действий. На следующем шаге заполняются их актантные структуры, что приводит к появлению глубинной семантической структуры отдельных предложений. Затем эти структуры связываются с учетом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст. Последний шаг - образование синтаксически правильных конструкций в предложениях.
В разработанной подсистеме для синтеза текста используется технология шаблонизации, устанавливающая правила создания и оформления шаблона - некоторого макета страницы, определяющего внешний вид данных, но не сами данные (рис. 2).

Рисунок 2 - Схема взаимодействия разработчиков документа на естественном языке
Составными структурными частями подсистемы автоматизированного синтеза текста на основе технологии шаблонизации являются проектирующие и обслуживающие подсистемы.
Проектирующие подсистемы включают:
- подсистему разработки интерфейса, отвечающую за проработку задания на проектирование, формирование базы знаний, включающей схемы сюжетов текста, функции, примеры, связи между функциями и их примерами;
- подсистему разработки шаблонов, которая в диалоговом режиме производит формирование шаблона последовательности функций, шаблонов отдельных функций, элементов функций. Результатом работы подсистемы является текст, не содержащий индивидуальных исходных данных;
- подсистему ввода и редактирования индивидуальных исходных данных текста, которая в диалоговом режиме формирует текст, содержащий индивидуальные данные.
Обслуживающие подсистемы включают:
- подсистему управления формированием, поиском, выдачей и корректировкой данных, поступающих от других подсистем запросов и данных;
- подсистему синтаксического анализа, отвечающую за формирование корректных окончаний слов текста, содержащего индивидуальные данные;
- подсистему вывода проектной документации.
Математическое обеспечение подсистемы автоматизированного синтеза текста на основе технологии шаблонизации состоит из множества методов, образующих три группы: методы разработки шаблонов, методы генерации текста, методы обеспечения синтаксического анализа и корректировки.
Методы разработки шаблонов делятся на методы разработки шаблонов последовательности и связей функций, методы разработки шаблонов функций, методы разработки шаблонов элементов функций.
Методы генерации текста состоят из методов генерации текста-шаблона, в котором отсутствуют индивидуальные данные и методов генерации текста, в котором присутствуют индивидуальные данные.
Методы обеспечения синтаксического анализа и корректировки включают алгоритмы расстановки окончаний индивидуальных данных и глаголов-действий и методы ручной корректировки текста.
I. Методы разработки шаблонов включают:
1) Методы разработки шаблонов последовательности и связей функций.
Эти методы отвечают за правильное следование функций и правильные связи между ними, определяют сюжет текста. Здесь сюжет - конкретный вид универсальной логической схемы текста, выделяемый для удобства работы.
2) Методы разработки шаблонов функций.
Разработка производится для выбранной функции. Функция состоит из набора элементов, характеризующихся названием, приоритетом (положение в предложении), возможностью редактирования (возможно или нет). Предусмотрена возможность добавить или удалить элемент, изменить приоритет элемента (используется сдвиг набора элементов), его редактирование (если возможно).
3) Методы разработки шаблонов элементов функций.
Разработка производится для выбранного элемента функции. Элемент состоит из набора подэлементов, характеризующихся названием, приоритетом (положение в элементе), падежом (если это имя существительное или прилагательное), значением (пример функции для глаголов-действий). Предусмотрена возможность добавить или удалить подэлемент, изменить приоритет подэлемента (используется сдвиг набора подэлементов), изменение значения (если это глагол-действие), изменение падежа (если это имя существительное или прилагательное).
II. Методы генерации текста включают:
1) Методы генерации текста-шаблона, в котором отсутствуют индивидуальные данные.
Производится перебор всех функций набора, начиная с первой. Для каждой функции производится перебор всех элементов в зависимости от приоритета, начиная с наименьшего. Для каждого элемента производится перебор всех подэлементов в зависимости от приоритета, начиная с наименьшего. Для каждого подэлемента производится вывод в текст-шаблон значения подэлемента.
2) Методы генерации текста, в котором присутствуют индивидуальные данные.
Подобен предыдущему методу, но в значения подэлементов, характеризующихся индивидуальными данными, подставляются введенные ранее индивидуальные данные.
III. Методы обеспечения синтаксического анализа и корректировки включают:
1) методы проверки правописания;
2) методы корректировки текста.
Новости
14.11.2007 Конференция!


17.10.2007Внимание конкурс!


01.09.2007Поздравляем всех с 1 сентября!
Ждем Вашего активного участия в работе Клуба в новом учебном году!


22.06.2007Итоги конкурса!


20.06.2007Добавлены новые мультимедийные учебно-методические материалы


16.04.2007


Визит А.А. Фурсенко

Министр образования и науки РФ Андрей Александрович Фурсенко


28.03.2007Внимание конкурс!


24.11.2006В ТРЦ ФИО состоялся выпуск юбилейного 5000-го слушателя


21.11.2006Итоги конкурса!


01.11.2006


Фотоальбом
Видеофильм

Семинар


10.10.2006Внимание конкурс!


05.09.2006


Фотоальбом
Видеофильм

Торжественное открытие клуба


01.07.2006Запуск сайта


15.06.2006Начало работы над сайтом



Вход для редакторов
Copyright © ТГТУ, 2006 г.
Сейчас на сайте посетителей - 4