Автоматическая обработка текста

Автомати́ческая обрабо́тка те́кста —

преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в конце 50‑х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в нескольких различных приложениях: в системном программировании, издательском деле и в вычислительной лингвистике. В системном программировании, предметом которого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгоритмических языках (см. Искусственные языки). В издательском деле А. о. т. — одно из направлений автоматизации редакционно-издательских процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислительной лингвистике, предметом которой является автоматический лингвистический анализ и синтез текста, а также лингвистические аспекты общения с ЭВМ на естественном языке, термин «А. о. т.» понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста.

В зависимости от целей различают несколько видов А. о. т. Преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматического набора и вёрстки текст, введённый в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфическим оборудованием (например, фотонаборным автоматом). При лексикографической обработке текст преобразуется в лексикографическое представление, в котором каждому словоупотреблению соответствует определённая информация в формируемом к этому тексту словаре. В автоматическом лингвистическом анализе текст последовательно преобразуется в его лексемно-морфологическое, синтаксическое и семантическое представления. В процессе автоматического синтеза производятся обратные преобразования: от семантического представления через синтаксическое и лексемно-морфологическое к собственно текстовому.

Системы автоматизированного редактирования (текстовые редакторы) и автоматического форматирования (форматеры), называемые вместе системами А. о. т. в узком смысле (англ. text processing или word processing systems), с конца 70‑х гг. входят в состав системного программного обеспечения практически всех типов ЭВМ. Управление текстовыми редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый текст могут быть внесены непосредственно с помощью указателя позиции в тексте (курсо́ра), с помощью алфавитно-цифровой клавиатуры дисплея, а также с помощью специальных команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно необходимо (например, изменение написания собственного имени, расшифровка сокращения или, наоборот, сокращение определённого словосочетания). Текстовые редакторы и форматеры широко используются как средства подготовки и ввода в ЭВМ программ, программной документации, научных отчётов и других данных.

В издательской практике системы автоматизированного редактирования используются, как правило, совместно с системами автоматического набора и вёрстки. В качестве составных частей в такие системы входят и некоторые лингвистические программы, например программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслитерации и транскрибирования, выделения имён собственных и ключевых слов для автоматического составления именных и предметных указателей (в последнем случае используются также программы лемматизации, т. е. преобразования текстовых форм слов в словарные).

Автоматизированные лексикографические системы, т. е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографической обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчёта статистики словоупотреблений, программы загрузки, поиска и коррекции данных и др. Введённые в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и другими индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в которых оно описано. Результатом А. о. т. в автоматизированных лексикографических системах являются частотные словари, конкордансы (словоуказатели с контекстами), автоматические моно- и многоязычные словари, размещаемые в базах данных и используемые программами лексикографических систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматические словари используются в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естественном языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем.

В составе лингвистического обеспечения автоматизированных информационных систем различают три группы функций А. о. т.: автоматическое индексирование входных документов, автоматическое составление поисковых предписаний по тексту запросов и автоматизированное ведение словарей системы. Ядром лингвистического обеспечения автоматизированных информационных систем являются информационно-поисковые тезаурусы, в терминах которых производится индексирование вводимых в систему текстов. Индексирование текста заключается в составлении к нему поискового «образа», в котором указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравнением поисковых предписаний с поисковыми образами документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам.

Наиболее полно функции А. о. т. развиты в системах автоматического перевода и системах человеко-машинного общения, где основным является синтаксический, а в системах общения с ЭВМ — семантический анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислительной лингвистики. Здесь А. о. т. осуществляется сложными программами, называемыми языковыми, или лингвистическими, процессорами (NLP — Natural Language Processor). Центральной функцией языковых процессоров является грамматический разбор (parsing). Программы грамматического разбора (parser) используют в качестве справочных данных формальные грамматики и словари того языка, тексты которого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенные грамматики непосредственных составляющих (контекстно-свободные грамматики), трансформационные грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей используются прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. специальных форм семантико-синтаксических словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных возможностях на лексическом, семантическом и синтаксическом уровнях с учётом морфологических ограничений. В некоторых языковых процессорах систем автоматического перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологическую, синтаксическую, семантическую (или синтактико-семантическую) и словарную компоненты (подсистемы программ и данных), каждая из которых реализует динамическую модель языка на соответствующем уровне. Языковые процессоры систем общения с ЭВМ опираются, как правило, на некоторую систему представления знаний и взаимодействуют с ней, осуществляя функции логического (дедуктивного) вывода. Знания часто представляются в виде так называемых фреймов — языковых моделей определённых фрагментов действительности или семантических сетей и образуют так называемые базы знаний, хранимые в ЭВМ. Эти функции используются также и как средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в других сложных случаях лингвистического анализа.

С 70‑х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусственного интеллекта — направления в информатике (computer science), связанного с созданием сложных человеко-машинных и робототехнических систем, моделирующих человеческую деятельность в различных сферах и предметных областях. В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и источником данных для выбора её поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования всё больше сливаются с функциями содержательной обработки, образуя единый аппарат понимания текста. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издательские процессы, извлечение информации из текстов, медицинская и техническая диагностика, экспертная деятельность. проектирование машин и сооружений, изготовление проектной документация, управление социально-экономическими системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых, «промышленных» применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизированных словарных картотек, автоматических словарей, грамматик и других форм представления лингвистических данных в ЭВМ. Разработка таких систем приобретает форму машинных фондов национальных языков, национальных автоматизированных лексикографических служб и т. п.

Лингвистическое обеспечение в системе автоматического перевода третьего поколения. Предварительная публикация, М., 1978;
Хисамутдинов В. Р., Авраменко В. С., Легоньков В. И., Автоматизированная система информационного обеспечения разработок, М., 1980;
Андрющенко В. М., Автоматизированные лексикографические системы, в кн.: Теоретические и прикладные аспекты вычислительной лингвистики, М., 1981, с. 71—88;
Попов Э. В., Общение с ЭВМ на естественном языке, М., 1982;
Белоногов Г. Г., Кузнецов Б. А., Языковые средства автоматизированных информационных систем, М., 1983;
Модели общения и лингвистические процессоры, в кн.: Представление знаний в человеко-машинных и робототехнических системах. Том A. — Фундаментальные исследования в области представления знаний, М., 1984, с. 183—210;
Борковский А., Хельбиг Г., Системы подготовки текста, там же, том B. — Инструментальные средства разработки систем, ориентированных на знания, М., 1984, с. 73—87;
Системы общения с ЭВМ на естественном языке, там же, том C. — Прикладные человеко-машинные системы, ориентированные на знания, М., 1984, с. 36—69;
Андрющенко В. М., Машинный фонд русского языка: постановка задачи и практические шаги, «Вопросы языкознания», 1985, № 2;
Hays D. G., Introduction to computational linguistics, N. Y., [1967];
Bátori I. S., Linguistische Datenverarbeitung, «Sprache und Datenverarbeitung», 1977, № 1, р. 2—11;
Knuth D. E., Tau Epsilon Chi, a system for technical text, Providence, 1979, «SIGART Newsletter», 1982, № 79;
Meyrowitz N., Dam A. van, Interactive editing systems, pt 1—2, «Computing Surveys», 1982, v. 14, № 3;
Furuta R., Scofield J., Shaw A., Document formatting systems, там же.

В. М. Андрющенко.

Лингвистический энциклопедический словарь

Автомати́ческая обрабо́тка те́кста —