Главная > Общество > Россия > Инициативы автора > Мировой словофонд

Мировой лексический фонд

Разделы описания (карточки) моей инициативы по развитию России для Росконгресса (РК) в соответствии с их структурой:

Смотрите также страницы:


Заголовок идеи

Размещение в Интернете мирового словарного фонда (МСФ) для поиска слов с похожими звучанием и смыслом для переводчиков, дешифровщиков, компаративистов.

Тема идеи

Решения, способствующие развитию цифровой продвинутой аналитики (BigData, ИИ, прогнозные модели и пр.).

Зрелость идеи

Проработанная инициатива.

Описание идеи

Предлагаю разместить лексику всех языков мира (живых, вымерших, модельных, реконструированных, древних с ограниченным употреблением) в общей базе данных с доступом через веб-сервис. Поставить каждому слову семантический индекс для их поиска по смыслу. Для этого также надо разработать всеобъемлющее семантическое дерево с вертикальной иерархией и горизонтальными связями между узлами-смыслами. Затем разработать функционал с поиском слов по указанному звучанию или смыслу, а также по похожим фонетическим и семантическим значениям.

Это нужно:

  1. этимологам и компаративистам, которые ищут связи между языками по словам с похожими звучанием по указанному смыслу для установления родственных отношений между языками и реконструкции словарей их праязыков;
  2. для дешифровщиков текстов на неизвестных языках (например, этрусском), которые ищут смыслы по похожим звучаниям в окружающих языках;
  3. переводчикам для более точного перевода; здесь сервис можно наполнить частью функционала, имевшегося у любимого переводчиками Яндекс.Словарей;
  4. также это крайне необходимо поисковым веб-технологиям (нашим Яндексу, Мэйлру) для поиска веб-страниц с требуемым смыслом по поисковому запросу. Для этого можно рядом с метатегом ключевых слов "keywords" использовать новый метатег "semindex" или эмулировать этот метатег самой поисковой системой. К примеру, в нашей системе оформления заявок на гранты можно было бы назначить каждому проекту ключевые смыслы (а не слова) и сгруппировать их по ним. Например, среди социальных инициатив я случайно наткнулся на идеи, схожие с моим "Корнесловом", но смутные по целям. А если бы ранжировщик рассортировал все проекты по степени семантической близости их целей, то просмотр, обсуждение и дополнение проектов заняло на порядок меньше времени.

Описание проблемной ситуации

Нужно скопировать тексты копипастных файлов (TXT, DOC, Excel, копипастные PDF) со словарями, найденных в сети (если на них не распространяется авторское право), в текстовые файлы. С некопипастных файлов (DJV, некопипастные PDF) занести тексты с помощью распознования изображений. При отсутствии словарей в сети нужно их отсканировать или занести вручную. Затем структурировать информацию в файлы приемлемых форматов (например, CSV) для последующего экспорта в БД.

Затраты и ресурсы

Оплата труда

  1. веб-программисту по созданию таблиц БД и поискового движка;
  2. операторам по загрузке в БД имеющихся html-словарей на lexicons.ru (около 500);
  3. операторам по сканированию и копированию новых словарей;
  4. книжным интернет-магазинам за покупку словарей;
  5. авторам словарей за использование их словарей для накопления слов;
  6. переводчикам для редактирования и экспертной оценки;
  7. филологам для поиска устаревших слов;
  8. организатору создания МСФ.

Также будут транспортные расходы для поездок в города с нужными библиотеками.

На главные работы - создание сервиса, поиск и загрузку словарей самых распространённых языков мира - понадобится не меньше 2 лет, а расходов - не меньше 4 млн. руб.

Прогнозируемые эффекты, видение результата реализации идеи

Наши поисковые системы превзойдут зарубежные в точности поиска. Также максимально повысится аналитика любой размещённой и индексируемой информации в Интернете. В свое время наша страна отстала по информационным технологиям. Описываемая цифровая технология позволит взять господство в этой сфере.

Информация о лидере / команде

Смотрите отдельную страничку.

Целевая аудитория

Компаративисты, этимологи, дешифровщики, компьютерные лингвисты, переводчики, составители словарей, филологи...

Готовы ли вы лично презентовать идею на очном Форуме 2023?

Да.

Есть ли опыт в реализации идеи (прототип решения)?

Нет.

Если есть опыт в реализации идеи, опишите измеримые эффекты и пользу от применения идеи

Прототип смогу написать сам - а там и опыт появится. Эффект - завоевание лидерской позиции в этой новой технологии - ядре Семантического веба, о котором давно говорят. Но сейчас мода на нейросети, семантический тренд ушел временно в тень. Кстати, к сравнению лексик разных языков (с целью установления уровня их родства) можно подключить и искусственный интеллект.

Видеопрезентация идеи за 1 минуту

Ссылка на выступление от первого лица: https://www.lexicons.ru .

Файлы (материалы идеи)

Основные скрин-шоты: lang-monogenetic-scheme.jpg rus-nem-rus.jpg, eng-lexic-levels.jpg, old-writtings-secrets.jpg, old-chinese-palindrom-q.gif, chin-keys1.jpg, chin-keys2.jpg, arabic-consonant-phonems.jpg, arabic-phonetics.jpg,

Филогения протоязыка по Медоварову
Немецко-русский и русско-немецкий словари

Обложка идеи

Вы можете загрузить 1 изображение в формате png, jpg, jpeg: world-lexic-fund.png [представлена в начале страницы].

Какая поддержка нужна вашей идее?

Оцифрованные копипастные словари - сетевые и из библиотечных фондов. Разработка поискового механизма в соответствии с ТЗ.

Соавторы, члены проектной команды

Соавторов нет.

Теги

Основные: #предпринимательство, #образовательный, #кадры, #технологический, #социальный, #платформа.

Заинтересованы ли вы в акселерации с целью доработки идеи/проекта?

Да.

Актуальность карточки идеи

Идея готова к экспертизе и комментариям.


Главная
Авторские инициативы для Росконгресса: Мировой словарный фонд | Исконный русский корнеслов | Поиск докириллических письмён (черновик); для АСИ: Методы сравнения письмён | Сеть обмена информацией | Язык управления дронами Система транзитных магистралей РФ (СТРМ)
На правах рекламы (см. условия): [an error occurred while processing this directive]    


© «Сайт Игоря Гаршина», 2002, 2005. Автор и владелец - Игорь Константинович Гаршин (см. резюме). Пишите письма (Письмо И.Гаршину).
Страница обновлена 22.03.2024
Яндекс.Метрика