Авторские решения по компьютерной лингвистике

Главная > Лингвистика > Прикладная лингвистика > Авторские алгоритмы и структуры

Технологические разработки автора (см. CV): Репликация распределённой БД Oracle | Рубрикация сетевой информации | Веб-мониторинг трубопровода по SCADA

Алфавитный перечень страниц (Alt-Shift-): А | Б | В | Г | Д | Е (Ё) | Ж | З | И | Й | К | Л | М | Н | О | П | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Щ | Э | Ю | Я | 0-9 | A-Z | Акр

Языки (лингвонимы): А | Б | В | Г | Д | Е | Ж | З | И | Й | К | Л | М | Н | О | П | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Э | Ю | Я | Лексиконы

Авторский список необходимых алгоритмов анализа текста и речи:

Алгоритмы машинного разбора и дешифровки текста
Алгоритмы сравнения/опознавания единиц текста и речи
Алгоритмы поиска информации по смыслу
О проблеме классификации электронных ресурсов (статья)

Кроме того, смотрите мои инициативы по развитию России, среди которых есть и по компьютерной лингвистике.

Алгоритмы машинного разбора и дешифровки текста

Использование расстояния Левенштейна для уточнения аллофонов в протобиблском письме
Вычленение синтагм в тексте Фестского диска с помощью растояния Левенштейна
Морфологический разбор текстов о-ва Пасхи с помощью пакета Oracle MATH_UTL

Системный анализ текста

Системный анализ текста необходим для более точного определения количества знаков и фиксации их разновидностей. Если бы существовали такие программы, давно бы было расшифровано карийское письмо.

Благодаря таким программам мы бы продвинулись и в расшифровке этрусских текстов, т.к. имеется вероятность, что часть их написана не на этрусском языке, а, например, на обычном греческом, но трудно читаемым из-за неприспособленности этрусского алфавита к греческому и из-за традиционных сокращений, присущих предыдущим слоговым эгейским системам (критское линейное письмо Б, кипрские слоговые письменности).

Выделение стилевых знаковых систем. (Когда тексты в разных стилях, например, разными шрифтами или региональными разновидностями алфавита).
Выделение в тексте независимых знаковых систем. (К примеру, разбор текста из русских и латинских букв).
Выделение диалектных и хронологических пластов. (К примеру, комплекс русских, украинских и древне-русских текстов).

Морфологический и синтаксический разбор текста

Грамматический разбор текста эффективен при наличии больших текстов. В частности, поможет при дешифровке многих эгейских слоговых письменностей, а также письменности острова Пасхи (кохау-ронгоронго).

Выделение в тексте морфологических единиц. (Определение реляционных аффиксов и основ, а затем выделение из основ корней и деривационных аффиксов).
Выявление соответствия аффиксов разных слов предложения. (Определение систем спряжения и склонения).
Выделение в тексте различных языковых систем. (Например, разбор текста из русских и латинских слов, но алфавит русский).
Деление сплошного текста на предложения.
Деление сплошного текста на слова.
Разделение иероглифов на тематические области. (Рыба-удочка-река, кактус-пустыня-змея...). Для облегчения последующего выявления возможных детерминативов и классных показателей, а также других аффиксов и корней.

Фонетический разбор текста

Выделение в буквенном тексте гласных и согласных.
.

Программы комплексного анализа текстов

База с алгоритмами разбора текстов на неизвестных письменах Примеры разбора этрусских, критских, индских, рапануйских текстов [MDB в Zip]
Сравнительный анализ текстов двух языков с определением типологической и генетической принадлежности (биглоттальный типо-генетический анализ - БТГА)

Алгоритмы сравнения/опознавания единиц текста и речи

[Данные процедуры могут быть основаны на алгоритмах нечеткого сравнения, необходимых для распознавания слуховых, зрительных и ментальных образов.]

Нечёткое сравнение подстрок для выявления морфем

Обработка наборов слов пакетом Оракла UTL_MATCH

Компаративистские алгоритмы (сравнение лексики разных языков)

[Это направление КЛ занимается созданием обработчиков как этимобаз, так и корпусов текстов.]

Этимологические базы и методы компаративистики смотрите на странице Компаративистика.

Сравнительный анализ словарей двух языков и определение общей лексики (билексический компаративный анализ - БКА)
Сравнительный анализ многоязычной базы слов и выражений и определение генетической иерархии языков (полиязыковый компаративный анализ - ПКА)
Корреляционно-атрибутивный анализ лексики и семантики с определением мотивированности между смыслом и знаком (звуками)

Автоматизация сравнения и опознавания знаков и образов (лингвистическая кибернетика)

Анализ формы знаков (визуальное опознание и сравнение)

Выявление общих признаков употребления иероглифов предполагаемой общей темы.
Выявление общих признаков употребления иероглифов похожей формы.
Сравнение письменных систем (определение общего или линейного происхождения алфавитов, силлабариев и др.

Сравнение звучания слов (акустическое распознавание, анализ и синтез речи)

Алгоритмы поиска информации по смыслу

Однажды хотел в подарок купить книгу, которая уже у меня была, но название подзабыл. Обращался в книжные магазины с запросом "Корейский алфавит легко и просто" - результат нулевой. Пришёл домой и посмотрел название: "Корейская азбука легко и весело". Мне, действительно, стало весело,а, главное, поучительно, т.к. извлёк целых 2 урока для будущего семантического механизма поиска:

при поиске нужно учитывать синонимы (и, при необходимости, менять согласование слов) - в нашем примере не "алфавит", а "азбука", не "корейский", а "корейская";
при перечислении слов одной части речи (в нашем случае - наречия "легко" и "весело") нужно учитывать, что одно из них может быт другим - и не обязательно синонимичным (хотя удалённая синонимичность более вероятна).

Главная

Прикладная лингвистика: Компьютерная лингвистика | Структурная лингвистика | ИС по матлингвистике | Авторские задачи по лингвистике текста | О рубрикации электронных ресурсов

Применение в лингвистике: Дешифровка письменностей | Сравнение этимобаз |

Привлекаемые разделы информатики: Алгоритмы | Языки программирования | Кибернетика

Привлекаемые дисциплины: Математика | Когнитивистика | Эвристика

На правах рекламы (см. условия): [an error occurred while processing this directive]

Ключевые слова для поиска сведений об алгоритмах и структурах в лингвистике: На русском языке: алгоритмы компьютерной лингвистики, программная обработка текстов, алгоритмы дешифровки, разбор текста на ЭВМ, морфологический анализ, статистическое исследование надписей, сравнение лексики на компьютере, семантический анализ ключевых слов, поисковые технологии, механизм семантического поиска, парсинг Гаршина; На английском языке: computional linguistics, text analys, parsing algorythm.

Страница обновлена 22.03.2024