Всеобщий цифровой словарный фонд с нечетким фоно-семантическим поиском (инициатива И.К.Гаршина)

Главная > Общество > Россия > Инициативы автора > Мировой словофонд

Алфавитный перечень страниц (Alt-Shift-): А | Б | В | Г | Д | Е (Ё) | Ж | З | И | Й | К | Л | М | Н | О | П | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Щ | Э | Ю | Я | 0-9 | A-Z | Акр

Разделы описания (карточки) моей инициативы по развитию России для Росконгресса (РК) в соответствии с их структурой:

Заголовок идеи (не более 150 символов)
Тема идеи
Зрелость идеи
Описание идеи (не более 3000 символов)
Описание проблемной ситуации (не более 1500 символов)
Затраты и ресурсы (не более 1500 символов)
Прогнозируемые эффекты, видение результата реализации идеи (не более 1500 символов)
Информация о лидере / команде
Целевая аудитория (не более 1500 символов)
Готовы ли вы лично презентовать идею на очном Форуме 2023?
Есть ли опыт в реализации идеи (прототип решения)?
Если есть опыт в реализации идеи, опишите измеримые эффекты и пользу от применения идеи (не более 1500 символов)
Видеопрезентация идеи за 1 минуту (ссылка на ваше выступление от первого лица)
Файлы (материалы идеи)
Обложка идеи
Какая поддержка нужна вашей идее? (не более 1500 символов)
Соавторы, члены проектной команды
Теги
Заинтересованы ли вы в акселерации [?] с целью доработки идеи/проекта?
Актуальность карточки идеи

Смотрите также страницы:

Заголовок идеи

Размещение в Интернете мирового словарного фонда (МСФ) для поиска слов с похожими звучанием и смыслом для переводчиков, дешифровщиков, компаративистов.

Тема идеи

Решения, способствующие развитию цифровой продвинутой аналитики (BigData, ИИ, прогнозные модели и пр.).

Зрелость идеи

Проработанная инициатива.

Описание идеи

Предлагаю разместить лексику всех языков мира (живых, вымерших, модельных, реконструированных, древних с ограниченным употреблением) в общей базе данных с доступом через веб-сервис. Поставить каждому слову семантический индекс для их поиска по смыслу. Для этого также надо разработать всеобъемлющее семантическое дерево с вертикальной иерархией и горизонтальными связями между узлами-смыслами. Затем разработать функционал с поиском слов по указанному звучанию или смыслу, а также по похожим фонетическим и семантическим значениям.

Это нужно:

этимологам и компаративистам, которые ищут связи между языками по словам с похожими звучанием по указанному смыслу для установления родственных отношений между языками и реконструкции словарей их праязыков;
для дешифровщиков текстов на неизвестных языках (например, этрусском), которые ищут смыслы по похожим звучаниям в окружающих языках;
переводчикам для более точного перевода; здесь сервис можно наполнить частью функционала, имевшегося у любимого переводчиками Яндекс.Словарей;
также это крайне необходимо поисковым веб-технологиям (нашим Яндексу, Мэйлру) для поиска веб-страниц с требуемым смыслом по поисковому запросу. Для этого можно рядом с метатегом ключевых слов "keywords" использовать новый метатег "semindex" или эмулировать этот метатег самой поисковой системой. К примеру, в нашей системе оформления заявок на гранты можно было бы назначить каждому проекту ключевые смыслы (а не слова) и сгруппировать их по ним. Например, среди социальных инициатив я случайно наткнулся на идеи, схожие с моим "Корнесловом", но смутные по целям. А если бы ранжировщик рассортировал все проекты по степени семантической близости их целей, то просмотр, обсуждение и дополнение проектов заняло на порядок меньше времени.

Описание проблемной ситуации

Нужно скопировать тексты копипастных файлов (TXT, DOC, Excel, копипастные PDF) со словарями, найденных в сети (если на них не распространяется авторское право), в текстовые файлы. С некопипастных файлов (DJV, некопипастные PDF) занести тексты с помощью распознования изображений. При отсутствии словарей в сети нужно их отсканировать или занести вручную. Затем структурировать информацию в файлы приемлемых форматов (например, CSV) для последующего экспорта в БД.

Затраты и ресурсы

Оплата труда

веб-программисту по созданию таблиц БД и поискового движка;
операторам по загрузке в БД имеющихся html-словарей на lexicons.ru (около 500);
операторам по сканированию и копированию новых словарей;
книжным интернет-магазинам за покупку словарей;
авторам словарей за использование их словарей для накопления слов;
переводчикам для редактирования и экспертной оценки;
филологам для поиска устаревших слов;
организатору создания МСФ.

Также будут транспортные расходы для поездок в города с нужными библиотеками.

На главные работы - создание сервиса, поиск и загрузку словарей самых распространённых языков мира - понадобится не меньше 2 лет, а расходов - не меньше 4 млн. руб.

Прогнозируемые эффекты, видение результата реализации идеи

Наши поисковые системы превзойдут зарубежные в точности поиска. Также максимально повысится аналитика любой размещённой и индексируемой информации в Интернете. В свое время наша страна отстала по информационным технологиям. Описываемая цифровая технология позволит взять господство в этой сфере.

Информация о лидере / команде

Смотрите отдельную страничку.

Целевая аудитория

Компаративисты, этимологи, дешифровщики, компьютерные лингвисты, переводчики, составители словарей, филологи...

Готовы ли вы лично презентовать идею на очном Форуме 2023?

Да.

Есть ли опыт в реализации идеи (прототип решения)?

Нет.

Если есть опыт в реализации идеи, опишите измеримые эффекты и пользу от применения идеи

Прототип смогу написать сам - а там и опыт появится. Эффект - завоевание лидерской позиции в этой новой технологии - ядре Семантического веба, о котором давно говорят. Но сейчас мода на нейросети, семантический тренд ушел временно в тень. Кстати, к сравнению лексик разных языков (с целью установления уровня их родства) можно подключить и искусственный интеллект.

Видеопрезентация идеи за 1 минуту

Ссылка на выступление от первого лица: https://www.lexicons.ru .

Файлы (материалы идеи)

Основные скрин-шоты: lang-monogenetic-scheme.jpg rus-nem-rus.jpg, eng-lexic-levels.jpg, old-writtings-secrets.jpg, old-chinese-palindrom-q.gif, chin-keys1.jpg, chin-keys2.jpg, arabic-consonant-phonems.jpg, arabic-phonetics.jpg,

Немецко-русский и русско-немецкий словари

Обложка идеи

Вы можете загрузить 1 изображение в формате png, jpg, jpeg: world-lexic-fund.png [представлена в начале страницы].

Какая поддержка нужна вашей идее?

Оцифрованные копипастные словари - сетевые и из библиотечных фондов. Разработка поискового механизма в соответствии с ТЗ.

Соавторы, члены проектной команды

Соавторов нет.

Заинтересованы ли вы в акселерации с целью доработки идеи/проекта?

Да.

Актуальность карточки идеи

Идея готова к экспертизе и комментариям.

Главная

Авторские инициативы для Росконгресса: Мировой словарный фонд | Исконный русский корнеслов | Поиск докириллических письмён (черновик); для АСИ: Методы сравнения письмён | Сеть обмена информацией | Язык управления дронами Система транзитных магистралей РФ (СТРМ)

На правах рекламы (см. условия): [an error occurred while processing this directive]

Ключевые слова для поиска сведений о глобальном фонде слов с нечётким поиском: На русском языке: всеобщий цифровой словарный фонд, мировой словофонд, глобальный лексический сервис, единая словарная база, нечеткий фоно-семантический поисковик, приблизительный звуко-смысловой поиск, веб-сервис выборки лексем любых языков; На английском языке: World Word Fund Service.

Страница обновлена 22.03.2024