Лингвистический энциклопедический словарь

Автомати́ческая обрабо́тка те́кста —

преобразование текста на искусственном или естественном языке с помощью ЭВМ. Приклад­ные системы и теория А. о. т. начали создаваться в конце 50‑х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в нескольких различных приложениях: в системном програм­ми­ро­ва­нии, издательском деле и в вычисли­тель­ной лингвистике. В системном программировании, предме­том которого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгоритмических языках (см. Искусственные языки). В изда­тель­ском деле А. о. т. — одно из направлений автомати­за­ции редакци­он­но-издатель­ских процессов. В этих областях термин «А. о. т.» употреб­ля­ет­ся, как прави­ло, в относи­тель­но узком смысле как преобра­зо­ва­ние формы. В вычислительной лингвистике, предметом которой является автома­ти­че­ский лингви­сти­че­ский анализ и синтез текста, а также лингвистические аспекты общения с ЭВМ на естественном языке, термин «А. о. т.» понима­ет­ся в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содер­жа­нию понятного человеку) текста.

В зависимости от целей различают несколько видов А. о. т. Преобразование текста при автомати­зи­ро­ван­ном редактировании заключа­ет­ся во внесении в текст, находя­щий­ся в памяти ЭВМ, исправ­ле­ний и дополнений; форматирование текста заключается в выделении заголовков, формиро­ва­нии строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматического набора и вёрстки текст, введённый в ЭВМ, преобра­зу­ет­ся в представление (код), воспроизводимое полиграфическим оборудо­ва­ни­ем (например, фотонаборным автоматом). При лексико­гра­фи­че­ской обработке текст преобра­зу­ет­ся в лексикографическое представ­ле­ние, в котором каждому слово­упо­треб­ле­нию соответствует опреде­лён­ная информация в формиру­е­мом к этому тексту словаре. В автоматическом лингви­сти­че­ском анализе текст последовательно преобра­зу­ет­ся в его лексемно-морфологическое, синтаксическое и семантическое представ­ле­ния. В процессе автома­ти­че­ско­го синтеза произво­дят­ся обратные преобра­зо­ва­ния: от семанти­че­ско­го представ­ле­ния через синтаксическое и лексемно-морфологическое к собствен­но текстовому.

Системы автоматизированного редактирования (текстовые редакторы) и автома­ти­че­ско­го формати­ро­ва­ния (форматеры), называемые вместе системами А. о. т. в узком смысле (англ. text processing или word processing systems), с конца 70‑х гг. входят в состав системного программного обеспе­че­ния практически всех типов ЭВМ. Управление текстовыми редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый текст могут быть внесены непосред­ствен­но с помощью указателя позиции в тексте (курсо́ра), с помощью алфавитно-цифровой клавиатуры дисплея, а также с помощью специальных команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно необходимо (например, изменение написания собственного имени, расшифров­ка сокращения или, наоборот, сокращение определённого словосочетания). Текстовые редакторы и формате­ры широко исполь­зу­ют­ся как средства подготовки и ввода в ЭВМ программ, программной докумен­та­ции, научных отчётов и других данных.

В издательской практике системы автоматизированного редактирования используются, как прави­ло, совместно с системами автоматического набора и вёрстки. В качестве составных частей в такие системы входят и некоторые лингвистические программы, например программы переноса слов в соответствии с орфографией данного языка, проверки и исправ­ле­ния орфографии, транслитерации и транскри­би­ро­ва­ния, выделения имён собственных и ключевых слов для автоматического составления именных и предметных указателей (в последнем случае используются также программы леммати­за­ции, т. е. преобразования текстовых форм слов в словарные).

Автоматизированные лексикографические системы, т. е. системы автоматизации подготов­ки и использования словарей, включают в себя программы и справочные данные, необходимые для лексико­гра­фи­че­ской обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчёта статистики слово­упо­треб­ле­ний, программы загрузки, поиска и коррекции данных и др. Введённые в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и другими индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в которых оно описано. Резуль­та­том А. о. т. в автоматизированных лексико­гра­фи­че­ских системах являются частотные словари, конкордан­сы (словоуказатели с контекста­ми), автоматические моно- и многоязычные словари, размещаемые в базах данных и используемые програм­ма­ми лексикографических систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развива­ю­щи­ми­ся систе­ма­ми. Автоматические словари исполь­зу­ют­ся в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естественном языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем.

В составе лингвистического обеспечения автоматизированных информационных систем разли­ча­ют три группы функций А. о. т.: автоматическое индексирование входных доку­мен­тов, автоматическое состав­ле­ние поисковых предписаний по тексту запросов и автома­ти­зи­ро­ван­ное ведение словарей системы. Ядром лингвистического обеспечения автома­ти­зи­ро­ван­ных информа­ци­он­ных систем являют­ся информационно-поисковые тезаурусы, в терминах которых произво­дит­ся индексирование вводимых в систему текстов. Индексирование текста заключа­ет­ся в составлении к нему поискового «образа», в котором указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравне­ни­ем поисковых предписаний с поисковыми образами документов осуще­ствля­ет­ся выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автомати­че­ски строятся словоуказатели к вводимым текстам.

Наиболее полно функции А. о. т. развиты в системах автоматического перевода и системах человеко-машинного общения, где основным является синтаксический, а в системах общения с ЭВМ — семанти­че­ский анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислительной лингвистики. Здесь А. о. т. осуществляется сложными программами, называемыми языко­вы­ми, или лингвистическими, процессорами (NLP — Natural Language Processor). Центральной функцией языковых процессоров является грамматический разбор (parsing). Программы грамматического разбора (parser) используют в качестве справочных данных формальные грамматики и словари того языка, тексты которого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенные грамматики непосред­ствен­ных составляющих (контекстно-свободные грамматики), транс­фор­ма­ци­он­ные грамма­ти­ки, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей исполь­зу­ют­ся прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. специальных форм семантико-синтакси­че­ских словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных возможностях на лексическом, семантическом и синтаксическом уровнях с учётом морфологических ограничений. В некоторых языковых процессорах систем автома­ти­че­ско­го перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологическую, синтаксическую, семантическую (или синтактико-семантическую) и словарную компоненты (подсистемы программ и данных), каждая из которых реализует динамическую модель языка на соответствующем уровне. Языковые процессоры систем общения с ЭВМ опираются, как прави­ло, на некото­рую систему представления знаний и взаимо­дей­ству­ют с ней, осуществляя функции логического (дедуктивного) вывода. Знания часто представляются в виде так называемых фреймов — языковых моделей опреде­лён­ных фрагментов действи­тель­но­сти или семантических сетей и образуют так называемые базы знаний, хранимые в ЭВМ. Эти функции исполь­зу­ют­ся также и как средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафори­че­ских связей в тексте и в других сложных случаях лингвистического анализа.

С 70‑х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусственного интеллекта — направления в информатике (computer science), связанного с созда­ни­ем сложных человеко-машинных и робототехнических систем, модели­ру­ю­щих человеческую деятель­ность в различных сферах и предметных областях. В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и источником данных для выбора её поведения, а также средством взаимо­дей­ствия системы с человеком. Здесь функции редактирования всё больше сливаются с функциями содержательной обработки, образуя единый аппарат понимания текста. Это открывает возмож­но­сти для автоматизации наиболее сложных областей челове­че­ской деятель­но­сти, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издательские процессы, извлечение информации из текстов, медицинская и техническая диагностика, экспертная деятельность. проектирование машин и сооружений, изготов­ле­ние проектной документация, управление социально-экономическими системами. Во всех этих случаях А. о. т. играет перво­сте­пен­ную роль. Однако в таких массовых, «промыш­лен­ных» примене­ни­ях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизированных словарных картотек, автоматических словарей, грамматик и других форм представления лингвистических данных в ЭВМ. Разработка таких систем приобре­та­ет форму машинных фондов нацио­наль­ных языков, национальных автоматизированных лексико­гра­фи­че­ских служб и т. п.

В. М. Андрющенко.