Версия для печати

О каталогизации сетевых ресурсов и навигации по каталогу

Способы многоуровневой классификации и многовекторного поиска информационных ресурсов
Главная > Лингвистика > Прикладная лингвистика > Виды информации

Научные статьи автора: Галактические года | Золотоносная сеть | Ритм миграций | Законы орбит | Дуплетный генкод | Небесные теонимы



, Каспийский Трубопроводный Консорциум-Р, Россия, Новороссийск. E-mail: garchine@mail.ru.

Ключевые слова: категоризация информации, каталогизация сайтов, классификация текстов, виды электронных ресурсов, цифровые исследования литературы, информационная рубрикация, библиографическая обработка, навигация в веб-каталогах.

Keywords: information classification, cataloging sites, content categorization, types of electronic resources, textual digital researches.

Работа относится к проблеме классификации и рубрикации информационных ресурсов любых видов (материальных, библиографических, электронных, сетевых). Рассматривается частный случай каталогизации сайтов и документов в Интернете. Дается всесторонний комплекс навигации в веб-каталогах со сложной структурой информации.

Оглавление


1. Краткий исторический обзор

Трудно сказать, когда человек начал классифицировать окружающие объекты и зачем он это делал. Может быть, все началось с первобытного «складского учета», когда в общественных хранилищах разные виды продуктов и инструментов раскладывались в разные места. Может быть при обмене, когда вместе с товаром отправлялся его краткий список в виде особых насечек или узелков. Во всяком случае, в реликтовом языке нивхов, живущих на Амуре, нет универсальных счетных числительных, а используются отдельные счетные слова для каждого вида предметов: для круглых – одни числительные, для продолговатых – другие, для людей – третьи и т.д. Вид подсчитываемых предметов также оформляется с помощью особых частиц, например, в бирманском языке. А во всех языках банту классификация мира на дюжину сортов оформлена грамматически, обычно в виде согласовательных префиксов.

Но, если смотреть глубже, классификация возникла одновременно с появлением разума и речи. Известен научный опыт, когда гориллу учили общаться с человеком при помощи разноцветных предметов различной формы. И она, действительно, смогла таким образом «разговаривать», наделяя предметы связанными с цветом и формой значениями, а потом – значениями, связанными с этими значениями (по аналогии). Например (ручаюсь не за точность, а за смысл), желтый предмет обозначал и огонь и апельсин, потом – больно, горячо, сладкий, круглый… Из этого видим, что разум – это разной степени грубости «оцифровка» объектов окружающего мира на словомысли, каждая из которых несет набор похожих или связанных значений и вокруг которых потом сложатся гнёзда производных слов.

С развитием цивилизации сознательной классификацией всей окружающей действительности начали заниматься философыДревней Греции) и грамматисты (в Древней Индии). Первые – чтобы понять природу и происхождение объектов, вторые – вероятно, с целью составления словарей. Эти классификации сильно отличаются как по авторам, так и по эпохам, отражая разный менталитет и реалии тех лет.

Приближаясь к нашей теме классификации информационных ресурсов, заметим, что информационными ресурсами являются и материальные ресурсы, если их восприятие также несет или рождает в мозгу дополнительную информацию. Поэтому в первом исторически известном ресурсном центре – Александрийской библиотеке (которая, на самом деле, называлась музеем) хранились не только свитки текстов (40 000, потом 700 000 !), но и произведения искусства, артефакты.

2. Описание проблемы и постановка задач

Человек, активно работающий с внешней информацией, как и древние ученые в Александрийской библиотеке, использует все виды ресурсов – тексты, картины, музейные экспонаты… Кроме того, он ведет собственные записи и памятки, делает фото и зарисовки, для чего предназначены и все еще используются бумажные блокноты, ежедневники, альбомы. В наш век компьютеризации все источники информации могут быть оцифрованы и сохранены в виде файлов. А с бурным развитием Интернета часто нет смысла хранить файлы на своих электронных носителях, если есть надежный доступ к сетевому (в т. ч. «облачному») ресурсу с этой информацией. Ссылки на сетевые ресурсы обычно хранятся в «Избранной» папке браузера. Также имеются разделы для сохраненных объектов в ряде соцсетей. В Фэйсбуке, например, это раздел «Сохраненные» с 11 подразделами: Ссылки, Видео, Продукты, Фото, Места, Музыка, Книги, Фильмы, ТВ-шоу, Мероприятия, Архив.

А что делать, если нужных вам ссылок накопилось несколько сотен или даже тысяч? Можно их разделить на собственные группы или на группы из известных Интернет-каталогов. Например:

Все представленные группировки похожи, но в других сетевых каталогах они отличаются, например, в современном рейтинге Рамблера (компания обещает опять его развивать) – 29 категорий.

Можно для каталогизации применять и апробированные системы библиографической классификации (к примеру, УДК – тогда все делится будет по 10).

Наличие разнородных классификаций информации и неполнота способов навигации в веб-каталогах приводит к следующим вопросам:

  1. Существует ли объективный способ каталогизации электронной информации?
  2. По каким уровням классифицировать контент?
  3. Как группировать информационные объекты с несколькими признаками (в терминах ООП – с «множественным наследованием» по нескольким объективным иерархиям) и определять путь доступа к ним?
  4. Каким образом искать размещенную информацию?
  5. Где еще можно применить найденные способы категоризации информации?

Решения по этим вопросам могут стать основой Технического задания на разработку Интернет-каталога нового типа, который также может встраиваться в социальные сети или блоги как персонально настраиваемый веб-сервис.

3. Способы решения задач категоризации информации

§ 3.1. Способы каталогизации электронной информации

Классификация информации – дело очень субъективное. И надо давать возможность человеку менять предлагаемую стандартную классификацию или создавать свою с нуля. Даже если не брать в расчет личные предпочтения, взгляд на мир у каждой целевой аудитории свой: бизнес-аналитик может произвести достаточно объективный анализ бизнес-процессов во «всемирном масштабе» и соответственно распределить всю информацию по отдельным хозяйственным направлениям. К его взгляду будет близок взгляд бизнесмена. На взгляд ученого, любая область мира – объект определенной науки и он разделит мир по наукам. На взгляд ведического ария (да и традиционного индуса), все вещи можно распределить на те, которые находятся в области деятельности брахманов, кшатриев, шудр и неприкасаемых… Такие взгляды тоже можно отражать в классификациях. Но существует ли некий независимый способ группировки информации?

Думаю, такие способы можно найти. Например, предлагаю способ, основанный на оценки индекса цитируемости ключевых слов. Если все знания (или их основы, например, тексты из энциклопедий) оформить в виде веб-страниц, каждая из которых относится к единственной ключевой фразе с учетом ее синонимов (например, «английский язык», «речь англичан», «язык британцев»), проставить в их текстах ссылки друг на друга, а потом определить индекс цитируемости, то каталогами верхнего (корневого) уровня можно установить страницы именно с максимальным ИЦ. Ведь, например, на страницу «животные» будут ссылки со страниц «домашние животные», «млекопитающие», «собаки» и т.д.

§ 3.2. Уровни классификации контента

Тексты состоят из предложений, предложения – из слов и их сочетаний. А друг с другом соединяются в абзацы и главы, которые потом составляют книги. Поэтому можно выделить такие уровни контента:

  1. Тематически единый набор предложений - абзац, глава, рассказ, книга, сборник.
  2. Предложение - оформляющий законченное суждение набор слов, в т.ч. сочетающихся во фразах.
  3. Фраза (идиома) - сочетание слов, выражающее особое понятие, не равное сочетанию.
  4. Слово.

При цифровом исследовании литературы информацию нужно классифицировать по каждому такому уровню отдельно.

§ 3.3. Способы доступа к объектам, принадлежащим к разным группам

Если объект можно описать 2 словами «прилагательное + существительное», то группировку строить по существительному, а по прилагательному организовать дополнительный алфавитный поиск. Например, страницы, посвященные английскому и русскому языкам, положить в каталог «Языки». Затем создать алфавитные страницы от А до Я, где на страницу-А поместить ссылку на «Английский язык», а на страницу-Р – на «Русский язык». Далее, на всех страницах, связанных с Англией и английским поместить отдельной группой все ссылки друг на друга.

Кроме того, очень удобным средством будет традиционная тематическая группировка страниц, как это делается в сетевых каталогах, только темами должны стоять семантические признаки, а страницы, имеющие несколько признаков – должны находиться в разных группах.

§ 3.4. Способы навигации по многоуровневому каталогу

К сожалению, в большинстве сетевых каталогах, даже самых развитых и популярных, используются лишь 4-5 методов поиска материалов (по темам, по карте, строкой поиска, и иногда - по алфавиту и облаку тэгов). Серфинг электронных ресурсов должен быть тем полнее, чем больше самих этих ресурсов и их типов:

  1. Физическая навигация от уровня к уровню.
  2. Физическая навигация по полной карте сайта.
  3. Навигация с помощью ссылок внутри контента.
  4. Навигация через форму поиска.
  5. Алфавитная навигация по именам страниц.
  6. Тематическая классификация как в существующих Интернет-каталогах.
  7. Навигация по «взглядам» (взгляды учёного, бизнесмена, домохозяйки, политика, претендента…).
  8. Навигация по связанным группам страниц (порталы, форумы, библиографии, учреждения, персональные сайты специалистов, вакансии, новости, статьи, периодика…).
  9. Табличная навигация (совмещение п. п. 1 и 8 по вертикали и горизонтали).
  10. Навигация с помощью облака тэгов.
  11. Навигация по принципу подобия (как в учебных центрах или книжных магазинах): «после посещения этой страницы обычно посещают/ищут следующие: …» или: «пользователи, прочитавшие эту страницу, читают также следующие: …»

4. Перспективы найденных способов категоризации

Способ распределения информации (чем ее будет больше, тем это будет точнее) по индексу цитируемости ключевых слов позволит определить реальную иерархию информации об окружающем мире.

Это может найти применение, прежде всего, в следующих направлениях:

  1. Интернет-каталоги. В первую очередь разработка данной идеи относится к усовершенствованию современных сетевых каталогов (как DMOZ, Яндекс-каталог, каталог Yahoo и менее известных) и их вариантов – топ-каталогов и рейтингов (как Rambler Top-100). Реальное применение этой идеи осуществляется на авторском сайте garshin.ru.
  2. Интернет-магазины. Поскольку сетевые магазины являются частным случаем Интернет-каталогов, то к ним также можно применять предложенные способы классификации товаров, и навигации по их массиву, показа их групп и поиску отдельных товаров.
  3. Электронные библиотеки и книжные магазины. Это также варианты сетевых каталогов. Только категоризация в них должна проводится на уровень выше (не как к веб-страницам с ключевым контентом, а как к сборникам текстов).
  4. Электронные энциклопедии. Особенно это касается универсальных и наиболее популярных веб-энциклопедий, прежде всего, Википедии.
  5. Веб-поиск. Единое распределение сетевой информации поисковиками, что позволит быстро и точно находить страницы с похожим содержимым. Ссылки на соответствующие разделы такой универсальной семантической иерархии можно задавать на самой html-странице с помощью метаинформации, что более точно, чем описание смысла страницы с помощью ключевых слов.
  6. Компьютерный перевод. Единое распределение лексики разных языков в базах данных интерактивных переводчиков позволит быстрее и точнее найти нужный смысловой аналог, а впоследствии поможет создать язык-посредник для онлайн-переводов. Это, в свою очередь, геометрически ускорит развитие всей системы электронных переводчиков и сократит их количество.

5. Литература

  1. ГОСТ 7.90‑2007. Система стандартов по информации, библиотечному и издательскому делу. Универсальная десятичная классификация. Структура, правила введения и индексирования: издание официальное.

Главная
Прикладная лингвистика: Компьютерная лингвистика | Структурная лингвистика | ИС по матлингвистике | Авторские задачи по лингвистике текста | О рубрикации электронных ресурсов
Применение в лингвистике: Дешифровка письменностей | Сравнение этимобаз |
Привлекаемые разделы информатики: Алгоритмы | Языки программирования | Кибернетика
Привлекаемые дисциплины: Математика | Когнитивистика | Эвристика
На правах рекламы (см. условия):    


© «Сайт Игоря Гаршина», 2002, 2005. Пишите письма (Письмо И.Гаршину).
Страница обновлена 19.10.2017
Я.Метрика: просмотры, визиты и хиты сегодня