Версия для печати

Лингвистическое программное обеспечение

Главная > Лингвистика > Прикладная лингвистика > Языковый софт

Разделы страницы по автоматизированным лингвистическим системам:


Компьютерная (машинная) лексикография

Компьютерная лексикография: как компьютер помогает делать словари. Основные направления машинной лексикографии:

  1. теоретические и практические аспекты составления компьютерных словарей для NLP-систем (Natural Language Processing);
  2. создание словарей, являющихся машинными версиями традиционных словарей;
  3. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.), включающие лексикографические базы данных.

Первое и третье направления занимаются разработкой «программ поддержки лексикографических работ».

Проще говоря, компьютерная лексикография занимается как составлением автоматических словарей, так и автоматическим созданием словарей.

О  видах словарей и словарном деле смотрите страницу "Лексикография".

Гипертекстовые технологии представления текста

[Наверное, алгоритм разбиения большоно текста на связанные html-страницы.]

О  развитии языка гипертекстовой разметки (стандарты HTML) читайте на странице "Интернет-технологии".

Информационно-поисковые системы (ИПС)

Интернет-сервисы по анализу текстов на ключевые слова смотрите на странице оптимизации сайтов.

Технологии информационного поиска

Определение семантики текста и формирование семантических ключей

[Наверное, поиск ключевых слов и выражений и формирование аналогичных синонимичных подстрок.]

Разбор текста

Отдельные алгоритмы по обработке строк и преобразовании текста можно найти на странице "Алгоритмы" портала по информатике.

Методы криптографии и расшифровки текстов смотрите на странице Дешифровка.

Порталы и сборники средств по автоматической обработке текста

Российские и зарубежные программы анализа и обработки текстов

Комплексы лингвистической обработки

Сначала идёт 1) название программного средства, 2) авторы или владельцы [фирмы]. Затем - 3) комментарии (в т.ч., взятые из разных мест по описанию этого ПО).

Полнофункциональные программные комплексы (в т.ч. с семантическим анализом).

  1. Russian Context Optimizer. RCO.
    Комплекс программ для синтаксического и морфологического анализа русскоязычных текстов. Модули лингвистического анализа включают:
    1. морфологические словари,
    2. словари графем,
    3. словари синонимов,
    4. семантический классификатор,
    5. синтаксические правила.
    Инструментарий разработчика представлен модулями морфологического и фактографического анализа. Используется морфологический словарь объемом ~ 115000 лексем. Программы разработаны для Windows, Oracce, SDK работает на платформах Windows и Unix. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.

    Технологии анализа и поиска текстовой информации RCO. Сайт, на котором представлены разработки московской компании Russian Context Optimizer - info@rco.ru.
    Cреди представленных технологий:
    1. анализ и классификация текстов, автоматическое реферирование;
    2. полнотекстовый поиск для Oracle и SQL Server;
    3. морфологический, синтаксический и семантический анализ текста;
    4. средства навигации по большим массивам текстов;
    5. научные публикации авторов проекта.
  2. Ontos. Ontos. Программные продукты предназначены для анализа текстовых документов, составления аннотаций, обработки данных (OntosMiner, LightOntos for Workgroups, Ontos SOA, TAIS Ontos). Алгоритмы функционирования основаны на графематическом, морфологическом и семантическом анализе текстовой информации. Системы используют морфологические словари и семантические картриджи для основные языков (английского, немецкого, французского, русского). Обеспечивается выявление фактографической информации и представление ее в форме различного вида отчетов, в том числе в виде графа связей объектов. Тестирование системы показало, что семантический поиск таковым на самом деле не является, так как сводится к поиску по ключевым словам с использованием тематических синонимов. Программы реализованы на Java, .NET и используют Microsoft SQL Server. Уровни лингвистического анализа: графематический, морфологический, семантический – на уровне использования тематических синонимов.
  3. Paai's text utilities. Dr. J.J. Paijmans, Нидерланды Сборник утилит и Unix-скриптов для обработки текстов в ASCII кодировке для использования под Linux.

    21 (из АЛОТ) TACTWeb 1.0 Paais text utilities Dr. J.J. Paijmans, Нидерланды. Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux.

Комплексы лингвистического поиска

Поисковые технологии и локальные (настольные) поисковые системы...

  1. AskNet. ПОЛИГЛОТ. Семантические вопросно-ответные поисковые системы AskNet и инструментарий разработчика, реализующий полный лингвистический анализ текстов на русском и (или) английском языках. Модули лингвистического анализа включают в себя морфологию (словарную и бессловарную), синтаксис, семантику (включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Программные продукты представлены коробочными версиями корпоративной, сайтовой и персональной поисковой системы. Вопросно-ответный поиск по Интернету реализован на базе метапоисковой системы www.asknet.ru. Разрабатывается аналитическая поисковая система AQUA, позволяющая находить семантические ответы на основе автоматического обобщения системой текстовой информации и проведения логического вывода. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.
  2. Технологии поиска и анализа текстовой информации. Гарант-Парк-Интернет. (31 из АЛОТ) Анализ и классификация текстов, автоматическое реферирование; различные варианты поиска текста; морфологичекий, синтаксический и семантический анализ текста; средства навигации по большим массивам текстов; различные научные публикации авторов проекта.
  3. Galaktika-ZOOM. Корпорация Галактика, Москва (16 из АЛОТ). Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), извлекающий необходимые сведения из огромного объема данных. Коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации. Программа позволяет выявлять значимые слова и словосочетания документа, проводить поиск документов по вводимым пользователем ключевым словам с учетом их синонимов, а также формировать отчеты по частоте встречаемости слов в документах. Программа обеспечивает обработку русскоязычных текстов. Алгоритмы основаны на использовании морфологического и статистического анализа. Уровни лингвистического анализа: графематический, морфологический.
  4. Google Mini Google Desktop Google Программно-аппаратный комплекс Google Mini и программа Google Desktop для поиска информации на компьютерах корпоративной локальной сети и на компьютере пользователя соответственно. Реализует поиск по ключевым словам с учетом морфологии для основных языков (русского, английского и др.). Уровни лингвистического анализа: графематический, морфологический.
  5. Яndex.Server Яндекс Программа специализированного HTTP-сервера, позволяющая индексировать и обеспечивать поиском один или несколько интернет сайтов и (или) компьютеров пользователей. Поиск работает с учетом морфологии русского, английского и украинского языков. Результатом поиска является список документов, упорядоченных по релевантности или дате. Релевантность учитывает количество слов в документе, их частотные характеристики и расстояние между словами. Синтаксический и семантический анализ текстов не реализован. Версии программы реализованы для Windows и Unix. Разработаны также Интернет сервисы поискового портала и персональная версия поисковой системы. Уровни лингвистического анализа: графематический, морфологический.

Кластеризующие поисковые системы [кластеризаторы]

  1. Кластеризующие поисковые системы Vivisimo Nigma Метапоисковые системы с кластеризацией результатов поиска обеспечивают возможность выделения слов, часто встречающихся совместно со словами поискового запроса. Однако использование только кластерного анализа не дает существенных преимуществ метапоисковым системам данного типа. Улучшение качества поиска, особенно при обработке запросов на естественном языке возможно только на основе использования синтаксического и семантического анализа. Уровни лингвистического анализа: графематический, морфологический.
  2. Кластеризующие поисковые системы с визуализацией результатов поиска Quintura Searchcrystal Метапоисковые системы, которые представляют в графическом виде результаты поиска. Поиск проводится по нескольким поисковым системам. Результаты кластеризуются в основном по статистическим критериям. Для построения визуального кластера слов Quintura использует морфологический анализ. Синтаксический и семантический анализ не реализован.

Построители конкордансов

  1. WordSmith Tools © Mike Scott 2010 School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML. Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.

    WordSmith Tools (из САТ) Mike Scott Программы построения конкордансов. Функциональность аналогична MonoConc.
  2. MonoConc / ParaConc (из САТ) Michael Barlow Dept of Linguistics, Rice University, Texas, USA Программы построения конкордансов (в том числе мультиязычных) для одного или двух сравниваемых тестов. Реализованы возможности различных режимов поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги ошибочно включаются в состав конкорданса. Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников. Для построения параллельного конкорданса (для двух сравниваемых текстов) необходимо обеспечить их соответствие по структуре (параграфам, предложениям). Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.

    MonoConc/ParaConc Michael Barlow Dept of Linguistics, Rice University, Texas, USA Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.

    11 (из АЛОТ) MonoConc Michael Barlow Dept of Linguistics, Rice University, Texas, USA. 2 версии (MonoConc Pro 2.0 и MonoConc 1.5) Построение конкорданса для заданного корпуса символьных (ASCII) текстов. Утверждается, что размер текстов – несколько млн.слов. Различные режимы поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги включаются в состав конкорданса (недостаток). Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Генерация индексов и словников. Для Windows 95 и выше. MonoConc 1.5 имеет вариант реализации для Windows 3.1 (16-разрядная версия). MonoConc 1.5 несколько облегченная, чем MonoConc Pro. Лицензия на использование MonoConc Pro в образовательных целях - $85.00; MonoConc 1.5 - $65.00. Бесплатные демо-версии, имеющие ряд ограничений в сравнении с реальными версиями.

Утилиты лингвистического анализа текста (морфология, синтаксис)

Грамматические парсеры.

  1. Лингвистические компоненты Андрей Коваленко Программы вероятностного морфологического анализа - стеммера (с исходным кодом) и демо-версии морфологических анализаторов русского, украинского и английского языков представлены на авторской страничке разработчика компании "Ашманов и партнеры" А.Коваленко. Разработки использованы в ряде существующих информационно-поисковых систем - Апорт!, Рамблер, Мета, системе Пропись 4.0 и др.

    Лингвистические компоненты, словари и библиотеки классов Андрей Коваленко Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.
  2. Link Grammar Parser John Lafferty Daniel Sleator Davy Temperley Carnegi Melon University, USA Программа синтаксического анализа предложений английского языка Link Grammar Parser. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Результаты разбора представляются в виде последовательно выдаваемых программой деревьев лингвистического разбора (графы), упорядоченных по вероятности правильного разбора. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей (поиске наибольшего количества совпадений синтаксических связей, определяемых для каждого анализируемого слова). Словарь содержит 60000 словарных форм, для каждой указаны типы возможных синтаксических связей. Семантические словари не используются. Программа реализована на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные коды и программа распространяется бесплатно.

    Link Grammar Parser John Lafferty Daniel Sleator Davy Temperley Carnegi Melon University, USA Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около 60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.

    1 (АЛОТ?) Link Grammar Parser John Lafferty, Daniel Sleator, Davy Temperley Carnegi Melon University, USA. Синтаксический парсер английского языка, 60000 словарных форм. Реализован на C для Unix. Версия для Windows API32. Консольный интерфейс. Исходные предложения вводятся с клавиатуры или задаются в ASCII-файле для пакетной обработки. Бесплатно.
  3. Link Grammar Parser for Russian Сергей Протасов On-line программа синтаксического анализа предложений русского языка. Создана по образу Link Grammar Parser. Алгоритм работы синтаксического анализатора основан на использовании разработанной грамматики связей для русского языка. Доступен для тестирования web интерфейс программы. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей. Морфологический словарь используется от aot.ru. Программа реализована на unix C, Perl под лицензией Apache License. Программа и исходные коды распространяются на коммерческой основе.

    Russian Link Grammar Parser Сергей Протасов (АЛОТ) On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix.
  4. Синтаксический анализатор Д.С.Ермолаев От-line синтаксический анализатор естественного текста на русском языке. Версия программы показывает наличие множества "неизвестных" ей слов. Синтаксические связи определяются не для всех слов предложения. Программа находится [или находилась?] в разработке.

    Синтаксический анализатор естественного текста на русском языке Ермолаев Дмитрий Сергеевич Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей.

  5. АОТ (автоматическая обработка текста) Алексей Сокирко Комплекс программ автоматической обработки текстов, включающий: - морфологические словари для русского, немецкого и английского языков; - модуль графематического анализа текста; - синтаксические словари; - модуль снятия омонимии; - модуль первичного семантического анализа; - система лингвистического поиска (конкорданс); - различные тезаурусы и словники. Часть модулей доступна для загрузки.

    АОТ (автоматическая обработка текста) Алексей Сокирко Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов: - модуль графематического анализа текста; - компоненты морфологического анализа для русск., нем. и англ.яз.; - модуль автоматического уничтожения омонимии; - модуль семантического анализа текста; - система лингвистического поиска (конкорданс); - различные тезаурусы и словники. Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.

    30 (из АЛОТ) АОТ (автоматическая обработка текста) Алексей Сокирко и Co. Разработки бывших сотрудников компании Диалинг: модуль графематического анализа текста; компоненты морфологического анализа для русск. и англ.яз.; модуль автоматического уничтожения омонимии; модуль семантического анализа текста; различные тезаурусы.
  6. Mystem Илья Сегалович, Виталий Титов (Яndex) Программа морфологического анализа текстов на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Реализована на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов. Версия программы предназначена для некоммерческого использования.

    Mystem Илья Сегалович, Виталий Титов компания Яndex Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.

    5 (из АЛОТ) Mystem (из АЛОТ) Илья Сегалович, Виталий Титов компания Яndex Компактный, быстрый и бесплатный морфологический парсер русскоязычных текстов на основе словаря Зализняка. Версии для Windows и Linux. Консольное приложение, различные режимы представления результатов.
  7. Программные продукты фирмы LingSoft LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.

    LingSoft LingSoft Программные модули графематического и морфологического анализа, лемматизации для текстов на английском, немецком, финском, датском, норвежском, шведском, и эстонском языке, а также распознавания речи. Программные модули могут быть использованы при разработке лингвистических систем.
  8. Cíbola/Oleada Computing Research Laboratory Проекты Cíbola/Oleada реализуют морфологический анализ на основе стемминга и машинной морфологии для мультиязычных текстов (MUTT) на ~ 16 языках, представленных в Unicode. Модули могут использоваться для статистического анализа текстов, автоматического перевода, различные словари и тезаурусы. Синтаксический и семантический анализ не реализован. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. Некоторые из них доступны для бесплатной загрузки после регистрации.

    Проекты Cíbola/Oleada Computing Research Laboratory (CLR) New-Mexico State University, USA Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.

    2 (из АЛОТ) Проекты Cíbola Oleada Computing Research Laboratory (CLR) New-Mexico State University, USA. Лингвистический анализ текстов. Средства работы с мультиязыковыми текстами, построения конкорданса для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии доступны для бесплатной загрузки после формальной регистрации. Реализованы в среде X11 Window System для SunOs и Solaris.
  9. StarLing С.А.Старостин Программа морфологического анализа слов русского и английского языков. Словари Ожегова, Зализняка, Мюллера, Фасмера (этимологический) в виде СУБД StarLing. Работает с мультиязычными текстами, с транскрипционными знаками. Реализован поиск, анализ и синтез словоформ по словарю Зализняка, с переводом по словарю Мюллера, а также обеспечивается функция сравнительно-исторического исследования (глоттохронология). Для загрузки доступны DOS и Windows версии программы, словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков, а также морфологический анализатор, позволяющий получить для вводимого слова базовую форму и морфологическую информацию.

    Система StarLing С.А.Старостин СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows). Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков.

    9 (из АЛОТ) Система StarLing С.А.Старостин СУБД С мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Функции для сравнительно-исторических исследований. Полные DOS и Windows версии. Требуется предустановка системных фонтов, доступных для загрузки (DOS, Windows). Загружаются словари Ожегова и Зализняка в DBF-формате.
  10. Морфологический анализатор С.А.Старостин On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).

    10 (из АЛОТ) Морфологический анализатор С.А.Старостин. Морфологический анализ слов русского/английского языков. Получает для вводимого слова базовую форму и морфологическую информацию. На основе словарей Зализняка и Мюллера.
  11. Russian Morphological Dictionary Sergey Sikorsky Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с текстом в формате ASCII. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно в виде скомпилированной dll.

    Russian Morphological Dictionary Sergey Sikorsky Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно.

    3 (из АЛОТ) Russian Morphological Dictionary Sergey Sikorsky. Для синтаксического и морфологического анализа русскоязычных текстов. Входной ASCII-текст. Морфологический словарь 120000 слов. Реализована на SWI-Prolog для Windows. Бесплатно.
  12. МедиаЛингва МедиаЛингва Программные модули SDK представлены средствами автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. Продажи и дальнейшие разработки программных продуктов "Следопыт 3.0" и "Серверный Следопыт" в настоящее время прекращены.

    Инструментальные средства МедиаЛигва © МедиаЛингва, Москва Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации.
  13. MCR DLL v2.0 Dim Морфологический модуль в виде dll библиотеки, позволяющий осуществлять лемматизацию и морфологический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки.

    MCR DLL v2.0 Dim Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!
  14. Арион SyTech Система обеспечивает автоматизацию аналитической обработки однотипной текстовой информации и представление отчетов в различном виде. Однако она не обеспечивает высокие показатели по достоверности выявления связей фактографической информации и наглядности их представления ввиду отсутствия реализации синтаксического и семантического анализа текстов. Программа требует большого объема ручного труда для настройки системы на новые прикладные области, а также ввиду отсутствия автоматического определения словоформ неизвестных системе слов. Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Она не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами. Уровни лингвистического анализа: графематический, морфологический.
  15. Склонятель Сергей Слепов Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Изменение по числам не предусмотрено. Программа написана на C# под .NET Framework 2.0.

    Склонятель Сергей Слепов Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ - .NET, Win32, FreeBSD.

Анализаторы структуры и стиля текста

Грамматические парсеры.

  1. 24 (из АЛОТ) "Штампомер" Леонид Делицын Cвязан с нахождением наиболее часто встречающихся фраз (штампов) в авторских текстах [из-за чего можно определить стиль автора]. В настоящее время заморожен.
  2. Худломер Леонид Делицын Программа автоматической классификации функционального стиля текста на основе спектров длин слов. Доступна on-line версия на JavaScript и исходные коды ранней версии на perl. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль.

    Худломер Леонид Делицын Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов. Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин.

    23 (из АЛОТ) Худломер Леонид Делицын Связан с задачей автоматической классификации стиля русскоязычных текстов. Автором были собраны и проанализированы 4 корпуса текстов, взятых из русской сети: художественные произведения, публицистика, научные статьи и протоколы диалогов через ICQ и IRC. Были получены эмпирические кривые распределения длин слов в текстах, в зависимости от стиля. Они используются в качестве эталонов при классификации. Программа классифицирует стиль входного текста как: РАЗГОВОРНАЯ РЕЧЬ, ХУДЛО (худ.литература), ГАЗЕТНАЯ СТАТЬЯ или НАУЧНАЯ СТАТЬЯ.
  3. Свежий взгляд / Fresh Eye v.1.21, 1995 Дмитрий Кирсанов Утилита DOS, OS/2 реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без ограничений вместе с исходным текстом на C.

    Свежий взгляд/Fresh Eye версия 1.21, 1995 Дмитрий Кирсанов DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2. URS версия 1.1 от 05.04.2001 М.А.Бендерский, компания "НООЛаб", Новосибирск Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.

    25 (из АЛОТ) Свежий взгляд Fresh Eye версия 1.21, 1995 Дмитрий Кирсанов DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Распространяется без ограничений вместе с исходным текстом на C. Версия для OS/2.
  4. Лингвоанализатор Д.В.Хмелев On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

    Лингвонализатор Д.В.Хмелев On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее и взятых из ресурсов Русской Фантастики. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

    6 (из АЛОТ) Лингвоанализатор Д.В.Хмелев. On-line версия программы математического анализа структуры текста. Цель – определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов (набор текстов данного автора, взятый из ресурсов Русской Фантастики), определенных заранее. Анализирует входной текст и выдает имена 3х писателей, которые могут быть его наиболее вероятными авторами, находит 3 произведения каждого из авторов, которые наиболее близки данному тексту.

Семантические анализаторы текста (СА)

  1. TextAnalyst 2.0 МикроСистемы Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе стемминга. Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. При поиске не учитывается порядок слов. Синтаксический и семантический машинный анализ текстов не реализован. SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.

    TextAnalyst 2.0 Научно-производственный инновационный центр "МикроСистемы" Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д. Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг. Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.

    15 (из АЛОТ) TextAnalyst 2.0 Научно-производственный инновационный центр "МикроСистемы". Демо-версия инструмента анализа символьных текстов. Построение семантической сети понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Анализирует текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Реферирирует текст. TextAnalyst SDK - лемматизация (приведение слов к нормальной форме) для русского и английского языков, построение частотных списков понятий, поиск слов в контексте и т.д. TextAnalyst Lib - построение гипертекстовых электронных книг. Для Windows 95 и выше, бесплатная загрузка. На американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.

Утилиты статистического анализа текста (СтАТ)

  1. WordStat А.Г.Дубинский Утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Обрабатывает основные русские кодировки, игнорирует html-разметку. Бесплатная.

    28 (из АЛОТ) WordStat Дубинский А.Г., 2001 Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.

    WordStat Дубинский А.Г., 2001 Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.
  2. Алгоритм сравнения текстов Владимир Чаплинский Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции.
  3. netXtract Relevant Software Inc. Плагин Microsoft Internet Explorer (версии 5.0 и выше), позволяющий "на лету" строить индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Версии программы: персональная (свободно распространяемая) и team edition (коммерческая).
  4. URS v. 1.1 от 05.04.2001 М.А.Бендерский, ("НООЛаб") Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word для Win9x/NT/2000. Обеспечивает анализ и обработку пар словарных индексов как двух множеств, экспорт результатов в файл.
  5. FRQDictW Александр Челмодеев Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.
  6. Лемматизатор Мультитран Мультитран Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик. FRQDictW.exe Александр Челмодеев http://ichip.chat.ru fido: 2:5062/17.5 Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.

    Лемматизатор Мультитран Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.
  7. Textarc W. Bradford Paley, Digital Image Design Inc. 2002 Программа для визуализации и исследования текстов. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Частота встречаемости слова определяет яркость его отображения. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и звучат в разной тональности. Программа реализована как Java-апплет для браузера.

    Textarc © W. Bradford Paley, Digital Image Design Inc. 2002 Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера.
  8. Ngram Statistics Package (NSP) Ted Pedersen 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы [?] с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на Perl. Исходный текст распространяется на условиях GNU Copyleft.
  9. Rhymes Николай Кецарис 2002-2003 Программа поиска рифм на основе словаря Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC.

Программы сравнения текстов (СрТ)

  1. Алгоритм сравнения текстов Владимир Чаплинский Программа предназначена для поиска дубликатов текстов. Приведен алгоритм и исходный код программы (на FoxPro) сравнения двух текстов.

    29 (из АЛОТ) Алгоритм сравнения текстов Владимир Чаплинский Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro.
  2. WordTabulator v2.2.3 С.В.Логичев Программа позволяет строить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Возможность поиска слов с использованием символов маскирования, с учетом русскоязычной морфологии. Обеспечивает контекстный просмотр результатов поиска в виде гипертекстового индекса, анализ двух текстовых корпусов на сходство или различие. Поддерживает основные кириллические кодировки в среде Windows 9x/NT/2000/XP.

ВТОРОЙ ИСТОЧНИК

Название | Автор(ы), Организация | Комментарий

  1. Apache OpenNLP. The Apache Software Foundation, Incubator. OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).
  2. netXtract. Relevant Software Inc.. Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию.
  3. WordTabulator v2.2.3. Логичев С.В., 1997-2004. Программа анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Freeware!
  4. Ngram Statistics Package (NSP). Ted Pedersen © 2000-2004. Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы [?] с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.
  5. Rhymes. Николай Кецарис © 2002-2003. Замечательная программа поиска рифм на основе "Грамматического словаря" А.А.Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC. Freeware!
  6. Langsoft. www.langsoft.ch Программное обеспечение для обработки естественного языка (английского, немецкого и некоторых других): - грамматического разбора предложений; - проверки орфографии и грамматики; - интеллектуального преобразования текста (автоматическая редакторская правка); - резюмирования содержания текста; - генерации ответов на вопросы; - логического вывода (извлечения из текста неявного смысла и знаний); - аудио-перевода текста (автоматического озвучивание текста перевода); - видео-перевода предложений (показ видео-клипов, соответствующих смыслу переводимых предложений). Для ознакомления доступны демо-версии. Программы работают под Windows в режиме DOS-окна.

1. Программы анализа и лингвистической обработки текстов (АЛОТ)

  1. Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service Пакет DOS программ обработки текстов в формате ASCII, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. Имеется on-line версия пакета TACTWeb 1.0

    Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service Indiana University, USA Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0
  2. 4 (из АЛОТ) Морфологический парсер Яndex В основе парсера - "Грамматический словарь русского языка" А.А.Зализняка (110 тыс.слов). Для просмотра результатов анализа выбрать режим "разбор запроса".
  3. 7 (из АЛОТ) Программные продукты фирмы LingSoft LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Коммерческие продукты, используемые при разработке других систем.
  4. 8 (из АЛОТ) Рабочее Место Лингвиста компания Dialing, Москва. Анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот). Синтаксический анализатор текстов на русском языке; морфологический анализатор текстов на русском и английском языках; построение конкордансов для заданной совокупности текстов. Морфологические словари русского (80 тыс.слов) и английского (60 тыс.слов) языков. COM-интерфейс, используемый при разработке других прикладных систем. Бесплатная демо-версия системы РМЛ-99 1.0, (незавершенная). Написана на языке C++, работает в среде Windows 9x/2000/NT.
  5. 12 (из АЛОТ) ParaConc0.7beta ParaConc1.0beta Michael Barlow. Бесплатные beta-версии программы построения параллельного конкорданса (основанного на двух сравниваемых текстах). Тексты должны быть выравнены по параграфам (предложениям), т.е. иметь одинаковое число этих элементов. Обрабатываются символьные ASCII тексты. Для Windows 95 и выше.
  6. 13 (из АЛОТ) WordSmith Tools Mike Scott. Бесплатная демо-версия программы WordSmith 3.0 для построения конкордансов. Обрабатывает корпус ASCII текстов, состоящий из множества отдельных файлов. Не понимает внутреннюю разметку. Имеет ограничение на длину выходного конкорданса (недостаток). Полезные утилиты - генерация списка слов для заданной совокупности текстовых файлов; разбиение больших текстов на совокупность фрагментов; пакетное редактирование множества текстов и др. Для Windows 95 и выше. Загружаются различные словари и словники.
  7. 14 (из АЛОТ) Concordance 2.0.0 R.J.C. Watt, 2000. Для построения конкордансов и частотных списков для Win9x/NT/2000 (регистрация 80$). Обработка текстов в кодировках, поддерживаемых Windows, настройка на заданный алфавит. Сохранение результатов в виде HTML-файлов. Богатые средства анализа текстов. Бесплатная загрузка для пробного ознакомления.
  8. 17 (из АЛОТ) Система Пропись 4.0 АО Агама Набор средств для лингвистической обработки русскоязычных текстов: проверка орфографии; расстановка переносов; построение списка синонимов и антонимов слова; грамматическая и стилистическая проверка текста; толкование слова (по Толковому словарю); поиск и замена слов в тексте с учетом их форм; статистический анализ текстов. Windows 3.1/95. Windows 2000 и MS Office 97 не поддерживает. 10$.
  9. 18 (из АЛОТ) Словарно-справочная система по русскому языку Ряд словарей: морфологический, словообразовательный и синонимов/антонимов. Для Microsoft Windows 3.1/95.
  10. 19 (из АЛОТ) netXtract 2000 Relevant Software Inc. Компонента к Microsoft Internet Explorer (версии 5.0 и выше) позволяет быстро получить упорядоченный индекс слов в загруженном HTML документе. Индекс упорядочивается по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, систематизирующую найденные документы удобным образом. Бесплатная версия.
  11. 20 (из АЛОТ) Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service Indiana University, USA. Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и др. Старые и сделаны для DOS, но имеется on-line версия пакета
  12. 22 (из АЛОТ) WordTabulator v2.2 Логичев С.В., 1997-2002. Новая версия для анализа текстов в среде Windows 9x/NT/2000/XP. Строит упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов. Понимает тексты в основных русскоязычных кодировках, обрабатывает документы в формате HTML 4.01, игнорируя их разметку. Возможности поиска с помощью символов маскирования; возможность поиска всех видоизменений словоформ, заданных базовой формой; контекстный просмотр результатов; сравнение двух совокупностей текстов. Удобный графический интерфейс. Выходной индекс в форме гипертекста.
  13. 26 (из АЛОТ) URS версия 1.1 от 05.04.2001 М.А.Бендерский, компания "НООЛаб", Новосибирск Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Обрабатывает входные документы в форматах обычного текста, HTML и MS Word. Анализ и обработка пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.
  14. 27 (из АЛОТ) Машинный перевод Серж Слепов, 1999-2002 Развивающийся проект о проблемах исследования машинного перевода. Один из разделов связан с анализом морфологии русского языка. Описан ряд интересных программ, которые можно беспрепятственно скачать и испробовать.

2. Психолингвистические программы (ПЛ)

  1. 1 (из ПЛ) ПСИ-Офис версия 2.1 Вадим Сысуев Программы: поиска вложенных слов в тексте (слов, "спрятанных" внутри и на переходах между словами); поиска повторяющихся фрагментов текста при анализе "автоматического письма" (тексты пишутся с целью анализа текущих подсознательных процессов); синтеза подсознательного компонента текста. Поддержка русского (690 тыс.слов) и английского (430 тыс.слов) языков. Подключение дополнительных словарей. Windows 9x/2000/NT. Freeware.
  2. 2 (из ПЛ) ВААЛ-2000 Белянин В.П., доктор филологических наук, МГУ; Шалак В.И., кандидат философских наук, Институт Философии РАН. Психолингвистическая экспертная система лексического и контент-анализа текстов. Основные задачи - прогноз эффекта неосознаваемого воздействия текста на массовую аудиторию, анализ текстов с точки зрения такого воздействия, генерация текста с заданным вектором воздействия, выявление личностно-психологических качеств автора текста. Реализована в виде набора DLL-библиотек, подключаемых к текстовому процессору Word для Windows. Используется в ГосДуме, правительстве, крупных банках и PR-компаниях. Для бесплатной загрузки доступна DOS-версия 1995 года.
  3. 3 (из ПЛ) ПРИЕМЫ ЖУРНАЛИСТИКИ & PUBLIC RELATIONS, версия 2.03, 2000 Система "ТРИЗ-ШАНС", С-Петербург. Коммерческая программа, консультант, помогающий пользователю при написании различных текстов. Пользователь выбирает ряд параметров, характеризующих желаемый результат, а программа выдает ему рекомендации по написанию текста и иллюстрирует их примерами. В основе программы - анализ 12500 текстов мастеров русского языка. Нет возможности анализа написанного пользователем текста (недостаток). Демо-версия – облегченный вариант профессиональной версии, включает руководство пользователя и демонстрационный обучающий ролик. Русский Windows 9x/2000/NT и Microsoft Word.

3. Программы преобразования текстов (ПТ)

  1. 1 (из ПТ) HTML Batch Editor. 2001 Lucersoft. Компактная утилита для Windows, осуществляет пакетные преобразования массивов текстовых или html-файлов с помощью набора заданных шаблонов. Облегченная freeware версия HTML Batch Editor v1.1 и полная shareware ($25) версия HTML Batch Editor v2.2.
  2. 2 (из ПТ) Словогрыз Иван Сагалаев Бесплатная утилита для Windows для поиска и замены текста по заданным маскам. Находит и заменяет в тексте не только строго заданные слова и фразы, но и текстовые элементы, определяемые произвольными поисковыми шаблонами. Сохраняет, загружает сценарии преобразований.
  3. 3 (из ПТ) ClearText Readers Edition Дмитрий Грибов Переформатирование текстовых или html-файлов (Windows). Вычистка разметки и ее добавление. Понятный графический интерфейс, автораспознавание кодировки. Freeware.
  4. 4 (из ПТ) XReplacer XDW Soft, 2000-2001. Условно-бесплатная программа для Windows 9x/ME/NT/2000/XP, производит массовые операции поиска и замены в множестве текстовых файлов. В качестве поисковых шаблонов - регулярные выражения. Понимает до 12 различных кодировок, их состав расширяется пользователем.
  5. 5 (из ПТ) XMarkup v1.6.8 Логичев С.В., 1999-2002. Описание экспериментальной программы для выполнения сложных преобразований множества текстов. Консольная утилита для Windows 9x/NT/2000/XP. изменяет, добавляет и удаляет заданные элементы обрабатываемых текстов. Встроенный язык обработки. Получение по e-mail после письма к автору.

4. Генераторы текстов и "говорящие" программы (ГТГ)

  1. LeoBilingua Леонид Бродский Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках).
  2. Forson, a sentence generation tool Alfonso Tarantini Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный или полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.

    Forson, a sentence generation tool Alfonso Tarantini Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.
  3. 1 (из ГТГ) RussianWord Constructor (RWC) версия 1.0, 1992 Дмитрий Кирсанов. Экспериментальная программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"). Конструирует русские неологизмы на основе заданного словаря с лексико-статистической информацией. Старая программа, но интересна. Утилита для создания авторских рабочих словарей. Бесплатно. Исходные тексты на языке C. Консольное приложение MS-DOS.
  4. 2 (из ГТГ) Scott Pakins automatic complaint-letter generator Scott Pakin. Оn-line версия всемирно известной программы генерации текста жалобы на заданную персону или организацию. Словарь лексической информации (более 7000 элементов). Язык реализации - английский.
  5. 3 (из ГТГ) Cyrano ServerNando.net. On-line версия программы генерации любовных писем. Пользователь задает стиль сочинения, свое имя, обращение к любимой и некоторые атрибуты, ее характеризующие, и программа сочиняет письмо нужной тональности. Очень полезная вещь для неспособных в литературном плане. Язык реализации - английский.
  6. 4 (из ГТГ) Письмовник MediaLingua Ltd., 1995-2002. Автоматическое составление и перевод (русско-английский/англо-русский) деловых писем и документов. Коммерческая система для Windows 95/98, 49$.
  7. 5 (из ГТГ) ALICE. Dr.Richard S.Wallace. ALICE AI Foundation, USA. Говорящая программа, получившая приз Лобнера (Loebner prize) в 2000 и 2001 гг. развивается как open-source проект под эгидой некоммерческой организации зарегистрированной в США. В основе технологии лежит использование AIML (специализированного языка разметки для искусственного интеллекта). В разделе downloads доступен исходный код и различные имплементации программы.
  8. 6 (из ГТГ) The Dada Engine Andrew C. Bulha. Генератор случайных текстов на основе заданной грамматики (англ.яз.). Работает на UNIX-подобных системах, загружается исходный код. На его основе реализована on-line версия Генератора Постмодернистских Текстов.
  9. 7 (из ГТГ) Весна Елена Савельевна Колмановская. On-line генератор псевдо-философских текстов, созданный главным редактором компании Яndex.
  10. 8 (из ГТГ) ANANOVA Ananova Limited United Kingdom. Новостное агенство в Великобритании, использующее на своем сайте виртуального анимированного диктора.
  11. 9 (из ГТГ) Chatterbot Central Simon Laven. Собрано много информации о говорящих программах, существующих сегодня в сети: начиная c классики (например, всемирно известной Элизы доктора Фейгенбаума) и кончая самыми последними разработками с использованием языка искусственно-интеллектуальной разметки (AIML).
  12. 10 (из ГТГ) Sakrament Text-to-Speech Engine v2.0 компания "Сакрамент", 2002. Система синтеза русской речи. Полностью соответствует стандарту Microsoft Speech API (SAPI) 5.1. Произносит тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи.
  13. 11 (из ГТГ) Аки Росс Альберт Товмасян,2002. Общение на русском языке. Специальный plug-in позволяет использовать анимацию в виде девушки-собеседника по имени Аки Росс. База знаний программы не обширная, но ее можно улучшать и дополнять (используется язык разметки AIML). Лучший вариант - периодически публиковать на сайте обновления базы знаний. Регистрация 80 рублей. Незарегистрированная версия запускается 10 раз сеансами по 2 минуты.
  14. 12 (из ГТГ) Programmable Artificial Intelligence (PAIv3.01) или Программируемый Искуственный интеллект Claudio Scordino, 2002. Общается с пользователем на английском языке. Способность обучения - пользователь постепенно может научить программу понимать нужные фразы, слова, глаголы и даже команды. На языке C++ для Linux, FreeBSD и Windows. В терминах GNU-лицензии доступны исходные тексты программы. Freeware.
  15. 1 (из NLP) NaturalLanguage Projects at ISI Univ.of Southern California/Information Science Inst., 1999-2001. Описание группы проектов по вычислительной лингвистике и машинному переводу. Webclopedia - создание информационных агентов, способных генерировать ответы пользователю на основе анализа разнородных коллекций ресурсов, доступных в сети. ONTOSAURUS - онтологический тезаурус, включающий 90,000 концептуальных сущностей (словарная база из проекта WordNet). SUMMARIST - мультиязычная система реферирования текстовой информации. ReWrite - система двуязычного перевода, основанная на статистическом анализе пар текстовых корпусов.

5. Системы обработки естественного языка (NL-Processing)

  1. (из NLP) Следопыт3.0 MediaLingua Ltd., 2001. Интеллектуальная поисковая система для смыслового и нечеткого поиска документов на русском и/или английском языках. Учитывается морфология и изменение грамматических форм элементов поискового запроса. Понимает все основные форматы документов для Windows. $9.9–$1290 в зависимости от комплектации. Демо-версия.
  2. (из NLP) Поисковая система Алхимик ВЕЛТОН.SOFT, 2002. Анализ и поиск русскоязычных документов. Использует фрагменты семантического словаря профессора В.А.Тузова. Входными документами могут быть файлы в форматах MS Word, HTML и TXT.
  3. (из NLP) ABBYY Retrieval & Morphology (ARM) Engine 4.0 ABBYY Software House, 2001. Коммерческая инструментальная система позволяет встраивать в разрабатываемые приложения функции полнотекстового поиска и морфологического анализа текстов. Поддерживает практически все европейские языки, в т.ч. русский. Реализована в виде API с использованием технологии COM-объектов. Демо-версия бесплатно.
  4. NeurOK Semantic Suite НейрОК Интелсофт, 2002. Программные продукты для поиска и анализа в текстовых массивах информации, реализованные с использованием технологии нейтронных сетей.

Корпусная лингвистика

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Машинный перевод и вычислительная семантика

Векторы перевода и узловые языки перевода

Вычислительная семантика - это область компьютерной лингвистики, которая изучает различные способы компьютерного моделирования значений слов, фраз, предложений, целых текстов. Проблема важная для решения и очень сложная, имеются разные подходы.

Например, самый новый — дистрибуционная семантика, в которой значение описывается на основании статистики сочетаемости слов, рассчитываемой по большим текстовым корпусам. В онтологической семантике упор делается на учет знаний о мире, формальная семантика широко использует для описания значений предложений математическую логику, операциональная семантика делает упор на инструктивных аспектах языка: интерпретирует фразы как команды, управляющие некоторым исполнительным устройством, например, роботом. Наконец, традиционная «объяснительная» семантика [семасиология?] пытается полностью описать значение с помощью специальных языков толкований.

Он-лайн программы автоматического перевода в сети Вы можете найти на странице "Порталы для переводчиков".

Компьютерное моделирование общения [интерактивные и экспертные системы]

О  нейропрограммировании, искусственном интеллекте и экспертных системах смотрите страницу "Кибернетика".

Методы семантического кодирования и раскодирования текста

Компьютерное моделирование структуры сюжета


Главная
Прикладная лингвистика: Компьютерная лингвистика | Структурная лингвистика | ИС по матлингвистике | Авторские задачи по лингвистике текста | О рубрикации электронных ресурсов
Применение в лингвистике: Дешифровка письменностей | Сравнение этимобаз |
Привлекаемые разделы информатики: Алгоритмы | Языки программирования | Кибернетика
Привлекаемые дисциплины: Математика | Когнитивистика | Эвристика
На правах рекламы (см. условия): [an error occurred while processing this directive]    


© «Сайт Игоря Гаршина», 2002, 2005. Автор и владелец - Игорь Константинович Гаршин (см. резюме). Пишите письма (Письмо И.Гаршину).
Страница обновлена 22.03.2024
Яндекс.Метрика