Версия для печати

О каталогизации сетевых ресурсов и навигации по каталогу

Способы многоуровневой классификации и многовекторного поиска информационных ресурсов
Главная > Лингвистика > Прикладная лингвистика > Виды информации

Научные статьи автора: Галактические года | Золотоносная сеть | Ритм миграций | Геофизика пассионарности | Дуплетный генкод | Законы орбит | Небесные теонимы
Технологические разработки автора (см. CV): Репликация распределённой БД Oracle | Веб-мониторинг трубопровода по SCADA



, Каспийский Трубопроводный Консорциум-Р, Россия, Новороссийск. E-mail: garchine@mail.ru.

Ключевые слова: категоризация информации, каталогизация сайтов, классификация текстов, виды электронных ресурсов, цифровые исследования литературы, информационная рубрикация, библиографическая обработка, навигация в веб-каталогах.

Keywords: information classification, cataloging sites, content categorization, types of electronic resources, textual digital researches.

Работа относится к проблеме классификации и рубрикации информационных ресурсов любых видов (материальных, библиографических, электронных, сетевых). Рассматривается частный случай каталогизации сайтов и документов в Интернете. Дается всесторонний комплекс навигации в веб-каталогах со сложной структурой информации.

Оглавление:


1. Краткий исторический обзор

Александрийский Мусеум - древний ресурсный центр

Трудно сказать, когда человек начал классифицировать окружающие объекты и зачем он это делал. Может быть, все началось с первобытного «складского учета», когда в общественных хранилищах разные виды продуктов и инструментов раскладывались в разные места. Может быть при обмене, когда вместе с товаром отправлялся его краткий список в виде особых насечек или узелков. Во всяком случае, в реликтовом языке нивхов, живущих на Амуре, нет универсальных счетных числительных, а используются отдельные счетные слова для каждого вида предметов: для круглых – одни числительные, для продолговатых – другие, для людей – третьи и т.д. Вид подсчитываемых предметов также оформляется с помощью особых частиц, например, в бирманском языке. А во всех языках банту классификация мира на дюжину сортов оформлена грамматически, обычно в виде согласовательных префиксов.

Но, если смотреть глубже, классификация возникла одновременно с появлением разума и речи. Известен научный опыт, когда гориллу учили общаться с человеком при помощи разноцветных предметов различной формы. И она, действительно, смогла таким образом «разговаривать», наделяя предметы связанными с цветом и формой значениями, а потом – значениями, связанными с этими значениями (по аналогии). Например (ручаюсь не за точность, а за смысл), желтый предмет обозначал и огонь и апельсин, потом – больно, горячо, сладкий, круглый… Из этого видим, что разум – это разной степени грубости «оцифровка» объектов окружающего мира на словомысли, каждая из которых несет набор похожих или связанных значений и вокруг которых потом сложатся гнёзда производных слов.

С развитием цивилизации сознательной классификацией всей окружающей действительности начали заниматься философыДревней Греции) и грамматисты (в Древней Индии). Первые – чтобы понять природу и происхождение объектов, вторые – вероятно, с целью составления словарей. Эти классификации сильно отличаются как по авторам, так и по эпохам, отражая разный менталитет и реалии тех лет.

Приближаясь к нашей теме классификации информационных ресурсов, заметим, что информационными ресурсами являются и материальные ресурсы, если их восприятие также несет или рождает в мозгу дополнительную информацию. Поэтому в первом исторически известном ресурсном центреАлександрийской библиотеке (которая, на самом деле, называлась музеем) хранились не только свитки текстов (40 000, потом 700 000 !), но и произведения искусства, артефакты.

2. Описание проблемы и постановка задач

Человек, активно работающий с внешней информацией, как и древние ученые в Александрийской библиотеке, использует все виды ресурсов – тексты, картины, музейные экспонаты… Кроме того, он ведет собственные записи и памятки, делает фото и зарисовки, для чего предназначены и все еще используются бумажные блокноты, ежедневники, альбомы.

В наш век компьютеризации все источники информации могут быть оцифрованы и сохранены в виде файлов. А с бурным развитием Интернета часто нет смысла хранить файлы на своих электронных носителях, если есть надежный доступ к сетевому (в т. ч. «облачному») ресурсу с этой информацией. Ссылки на сетевые ресурсы обычно хранятся в «Избранной» папке браузера. Также имеются разделы для сохраненных объектов в ряде соцсетей. В Фэйсбуке, например, это раздел «Сохраненные» с 11 подразделами: Ссылки, Видео, Продукты, Фото, Места, Музыка, Книги, Фильмы, ТВ-шоу, Мероприятия, Архив. Видно, что здесь, кроме файлов (причём, не всех категорий) и ссылок на сетевые ресурсы (с информацией и тоже файлами), имеются и чисто информационные разделы (тоже не всех категорий). Отсюда - первая задача: выработать всеобъемлющую классификацию хранимых информационных объектов (ХИО), а затем - внутреннюю классификацию для каждого типа ХИО, включая агрегатные уровни, если они есть.

А что делать, если нужных вам ссылок (или других объектов) накопилось несколько сотен или даже тысяч? Можно их разделить на группы, взяв за основу тематические категории из известных Интернет-каталогов, сравнив и интегрировав эти классификации. Это - вторая задача.

Классификация по категориям и подкатегориям, конечно, значительно облегчает доступ к ХИО, но, возможно, существуют и другие способы для ускорения их поиска? Это даёт третью задачу - проанализировать известные способы навигации по массиву информации и ресурсов, найти малоизвестные и, по возможности доработав чужие, предложить и миру собственные находки и разработки, создав интегральную систему навигации по информационным объектам и ресурсам.

Наличие разнородных классификаций информации и неполнота способов навигации в веб-каталогах приводит к следующим вопросам:

  1. Существует ли объективный способ каталогизации электронной информации?
  2. По каким уровням классифицировать контент?
  3. Как группировать информационные объекты с несколькими признаками (в терминах ООП – с «множественным наследованием» по нескольким объективным иерархиям) и определять путь доступа к ним?
  4. Каким образом искать размещенную информацию?
  5. Где еще можно применить найденные способы категоризации информации?

Решения по этим вопросам могут стать основой Технического задания на разработку Интернет-каталога нового типа, который также может встраиваться в социальные сети или блоги как персонально настраиваемый веб-сервис.

3. Способы решения задач категоризации информации

§ 3.1. Типы объектов - источников информации

  1. .

§ 3.2. Виды источников информации по типам

Для поиска релевантной информации, а также для навигации по информационным материалам полезно определять их вид.

  1. для литературы это: материальный носитель (сборник, книга, журнал, проспект...), жанр, тема;
  2. для сайтов: порталы, форумы, библиографии, учреждения, персональные сайты специалистов, вакансии, новости, статьи, периодика….

§ 3.3. Агрегатные уровни классификации контента

Тексты состоят из предложений, предложения – из слов и их сочетаний. А друг с другом соединяются в абзацы и главы, которые потом составляют книги. Поэтому можно выделить такие уровни контента:

  1. Тематически единый набор предложений:
    1. для литературы: сборник, книга, рассказ, глава, абзац;
    2. для веб-проектов: сайт, портал, раздел (глава) 2..6 уровней, абзац.
  2. Предложение - оформляющий законченное суждение набор слов, в т.ч. сочетающихся во фразах.
  3. Фраза (идиома) - сочетание слов, выражающее особое понятие, не равное сочетанию.
  4. Слово.

При цифровом исследовании литературы информацию нужно классифицировать по каждому такому уровню отдельно.

§ 3.4. Сравнение и обобщение готовых решений по каталогизации

Для начала не будем изобретать велосипед и сравним имеющиеся группировки сайтов (как один из видов ХИО) в (когда-то) развитых сетевых каталогах. Хотелось бы, чтобы в основу этих группировок были положены научные исследования, но сделаны они были, скорее всего на основе практических нужд и субъективных мнений менеджеров и разработчиков. К примеру:

Сравним это по наполненности, поставив рядом тематически близкие:

----------------------------------------------------------------------------------------------------------------
№    dmoz:	  	Яндекс:		 	Улитка:				 	Апорт:
     (3 лакуны)	  	(6 лакун)		(4 лакуны)				(2 лакуны)
----------------------------------------------------------------------------------------------------------------

---------------------------------------- Народное хозяйство ----------------------------------------------------
1.   Бизнес	  	Бизнес, Пр-во, Работа	Бизнес, Финансы, Экон.; Работа и Обуч. 	Бизнес и экономика
2.   Покупки 	  	- 			Товары и Услуги			 -

---------------------------------------- Семья -----------------------------------------------------------------
3.   Дом 	  	Дом			-					Дом и семья
4.   Дети и подростки  	-			-					Дом и семья

---------------------------------------- Личное время ----------------------------------------------------------
5.   Игры 	  	Игровая		 	Развлечения				Развлечения
6.   Досуг 	  	Развлечения, Отдых	Развлечения, Отдых			Развлечения и отдых
7.   Искусство 	  	Культура		Культура и Искусство			Культура и искусство

---------------------------------------- Здоровье и физические возможности человека ----------------------------
8.   Спорт	  	Спорт			Спорт					Спорт
9.   Здоровье 	  	-			Медицина				Медицина и здоровье
10.  -		  	-			Люди					Знакомства и общение

---------------------------------------- Окружающий мир --------------------------------------------------------
11.  - (Наука?)	  	-			Природа				 	-

---------------------------------------- Общественные устройства -----------------------------------------------
12.  Общество 	  	Общество		Общество и Государство			Общ-во, По странам и рег.

---------------------------------------- Знание ----------------------------------------------------------------
13.  Источ. информ.  	Справки		 	-					Справка
14.  Новости и СМИ   	СМИ			Средства Массовой Информации		Новости и СМИ
15.  Образование   	Учёба			Работа и Обучение			Наука и образование
16.  Наука 	  	-			-					Наука и образование

---------------------------------------- Техника и технологиии -------------------------------------------------
                              
17.  Интернет 	  	Порталы		 	Интернет				Интернет
18.  Компьютеры   	Hi-Tech		 	Компьютеры и программы, Моб.технологии	Компьютеры
19.  -		  	Авто			Автомобили, Транспорт			АвтоМото
----------------------------------------------------------------------------------------------------------------

Теперь сведём всё это вместе, 1) устранив лакуны, 2) разделив некоторые группы (чтобы 1 группа одного каталога не соответствовала двум группам другого) и 3) вложив подтемы в темы:

  1. Транспорт (с подтемой "Автомобили")
  2. Компьютеры и моб. технологии
  3. Интернет и программы
  4. Справки
  5. Новости
  6. Образование
  7. Наука
  8. Общество (с подкатегорией "Государство"?)
  9. Культура и искусство (можно включить как подкатегорию в "Общество")
  10. Люди (с подкатегорией "Знакомства и общение")
  11. Страны и регионы
  12. Природа
  13. Медицина и здоровье
  14. Спорт
  15. Дом и семья (с подкатегорией "Дети и подростки")
  16. Досуг / Развлечения и отдых (с подкатегорией "Игры")
  17. Экономика (с подкатегориями "Производство", "Финансы", "Работа", "Товары и Услуги")

Здесь, правда, не представлены другие виды техники, нет армии, религии, литературы, законов, туров, а наука, по идее, обхватывает все остальные сферы. Тем не менее, видим, что всё разнообразие жизни можно попытаться загнать в пару десятков категорий.

Все представленные группировки похожи, но в других сетевых каталогах они отличаются, например, рассмотрим и сравним группировку сайтов в когда-то функционировавшем рейтинге Рамблера (компания обещает опять его развивать), в котором 29 категорий:

  1. Авто, мото (Автомобили, Мотоциклы, Запчасти, оборудование, ...);
  2. Безопасность (Безопасность бизнеса, Информационная безопасность, Охранные системы, ...);
  3. Бизнес и экономика (Промышленность, Сельское хозяйство, Финансы, ...);
  4. Государство и общество (Власть, Неправительственные организации, Партии и организации, ...);
  5. Досуг, развлечения (Игры, Общение, знакомства, Юмор, ...);
  6. Женский клуб (Рукоделие, Свадьбы, Психология общения, ...);
  7. Красота и здоровье (Фитнес-клубы, Салоны красоты, Косметика, ...);
  8. Мода и стиль (Парфюмерия, Одежда, обувь, Магазины, Ателье, ...);
  9. Закон и право (Законы, Юридические услуги, Формы документов, ...);
  10. Интернет, связь (Доступ в интернет, Электронная почта, Мобильная связь, ...);
  11. Культура и искусство (Музыка, Кино, Фотография, ...);
  12. Личные финансы (Банки, Страхование, Инвестиции);
  13. Медицина (Болезни, Медицинские препараты, Медицинское обслуживание, ...);
  14. Наука (Журналы, публикации, Гуманитарные, Естественные и точные, ...);
  15. Недвижимость (Страхование имущества, Аренда, ЖКХ, ...);
  16. Новости и СМИ (Информационные агентства, Газеты, журналы, Телевидение, ...);
  17. Образование (Вузы, Методические материалы, Образовательные услуги, ...);
  18. Путешествия (Туроператоры и агентства, Гостиницы, Рейтинги, отзывы, ...);
  19. Подросткам и детям (Учеба, Развлечения, Общение, ...);
  20. Работа и карьера (Повышение квалификации , Вакансии, резюме, Фриланс, ...);
  21. Религия (Христианство, Ислам, Буддизм, ...);
  22. Непознанное (Астрология и гороскопы, Гадание, Сонники, ...);
  23. Семья и быт (Дети, Кулинария, Сад и огород, ...);
  24. Спорт (Командные виды, Зимние виды, Спортивные клубы, ...);
  25. Справки (Погода, Карты и схемы, Расписания транспорта, ...);
  26. Строительство и ремонт (Подрядчики, бригады, Материалы и оборудование, Советы и рекомендации, ...);
  27. Торговля (Товары для дома, Электронная техника, Книги, ...);
  28. Транспорт, перевозки (Такси, Ж/д транспорт, Воздушный транспорт, ...);
  29. Электронная техника (Телефоны, Компьютеры, Аудио-видео, ...).

Можно для каталогизации применять и апробированные системы библиографической классификации (к примеру, УДК – тогда все делится будет по 10). Или взять за основу каталог тем научных статей на основе Государственного рубрикатора научно-технической информации (ГРНТИ).

§ 3.5. Способы объективной каталогизации электронной информации

Дерево классификации информации ы мозгу человека

Классификация информации – дело очень субъективное. И надо давать возможность человеку менять предлагаемую стандартную классификацию или создавать свою с нуля. Даже если не брать в расчет личные предпочтения, взгляд на мир у каждой целевой аудитории свой. К примеру, бизнес-аналитик может произвести достаточно объективный анализ бизнес-процессов во «всемирном масштабе» и соответственно распределить всю информацию по отдельным хозяйственным направлениям. К его взгляду будет близок взгляд бизнесмена. На взгляд ученого, любая область мира – объект определенной науки и он разделит мир по наукам. На взгляд ведического ария (да и традиционного индуса), все вещи можно распределить на те, которые находятся в области деятельности брахманов, кшатриев, шудр и неприкасаемых… Такие взгляды тоже можно отражать в классификациях. Но существует ли некий независимый способ группировки информации?

Думаю, такие способы можно найти. Например, предлагаю способ, основанный на оценки индекса цитируемости ключевых слов. Если все знания (или их основы, например, тексты из энциклопедий) оформить в виде веб-страниц, каждая из которых относится к единственной ключевой фразе с учетом ее синонимов (например, «английский язык», «речь англичан», «язык британцев»), проставить в их текстах ссылки друг на друга, а потом определить индекс цитируемости, то каталогами верхнего (корневого) уровня можно установить страницы именно с максимальным ИЦ. Ведь, например, на страницу «животные» будут ссылки со страниц «домашние животные», «млекопитающие», «собаки» и т.д.

§ 3.4. Способы доступа к объектам, принадлежащим к разным группам

Если объект можно описать 2 словами «прилагательное + существительное», то группировку строить по существительному, а по прилагательному организовать дополнительный алфавитный поиск. Например, страницы, посвященные английскому и русскому языкам, положить в каталог «Языки». Затем создать алфавитные страницы от А до Я, где на страницу-А поместить ссылку на «Английский язык», а на страницу-Р – на «Русский язык». Далее, на всех страницах, связанных с Англией и английским поместить отдельной группой все ссылки друг на друга.

Кроме того, очень удобным средством будет традиционная тематическая группировка страниц, как это делается в сетевых каталогах, только темами должны стоять семантические признаки, а страницы, имеющие несколько признаков – должны находиться в разных группах.

4. Перспективы найденных способов категоризации

Способ распределения информации (чем ее будет больше, тем это будет точнее) по индексу цитируемости ключевых слов позволит определить реальную иерархию информации об окружающем мире.

Это может найти применение, прежде всего, в следующих направлениях:

  1. Интернет-каталоги. В первую очередь разработка данной идеи относится к усовершенствованию современных сетевых каталогов (как DMOZ, Яндекс-каталог, каталог Yahoo и менее известных) и их вариантов – топ-каталогов и рейтингов (как Rambler Top-100). Реальное применение этой идеи осуществляется на авторском сайте garshin.ru.
  2. Интернет-магазины. Поскольку сетевые магазины являются частным случаем Интернет-каталогов, то к ним также можно применять предложенные способы классификации товаров, и навигации по их массиву, показа их групп и поиску отдельных товаров.
  3. Электронные библиотеки и книжные магазины. Это также варианты сетевых каталогов. Только категоризация в них должна проводится на уровень выше (не как к веб-страницам с ключевым контентом, а как к сборникам текстов).
  4. Электронные энциклопедии. Особенно это касается универсальных и наиболее популярных веб-энциклопедий, прежде всего, Википедии.
  5. Веб-поиск. Единое распределение сетевой информации поисковиками, что позволит быстро и точно находить страницы с похожим содержимым. Ссылки на соответствующие разделы такой универсальной семантической иерархии можно задавать на самой html-странице с помощью метаинформации, что более точно, чем описание смысла страницы с помощью ключевых слов.
  6. Компьютерный перевод. Единое распределение лексики разных языков в базах данных интерактивных переводчиков позволит быстрее и точнее найти нужный смысловой аналог, а впоследствии поможет создать язык-посредник для онлайн-переводов. Это, в свою очередь, геометрически ускорит развитие всей системы электронных переводчиков и сократит их количество.

5. Другие решения по ускорению доступа к информации

К сожалению, в большинстве сетевых каталогах, даже самых развитых и популярных, используются лишь 4-5 методов поиска материалов (по темам, по карте, строкой поиска, и иногда - по облаку тэгов). Серфинг электронных ресурсов должен быть тем полнее, чем больше самих этих ресурсов и их типов.

A. Какие виды навигации распространены (и знакомы автору):

  1. Физическая навигация от уровня к уровню.
  2. Навигация с помощью ссылок внутри контента.
  3. Тематическая классификация - как в существующих Интернет-каталогах.
  4. Физическая навигация по полной карте сайта.
  5. Навигация по принципу подобия (как в учебных центрах или книжных магазинах): «после посещения этой страницы обычно посещают/ищут следующие: …» или: «пользователи, прочитавшие эту страницу, читают также следующие: …»
  6. Навигация с помощью облака тэгов (ключевых слов).
  7. Навигация через форму поиска.

B. Какие виды навигации автор считает своим ноу-хау, и осуществил на главном своём проекте garshin.ru:

  1. Алфавитная навигация по именам страниц.
  2. Навигация по «взглядам» (взгляды учёного, бизнесмена, домохозяйки, политика, претендента…).
  3. Навигация по связанным группам страниц (порталы, форумы, новости, организации, специалисты, история, классификаторы, литература, законы…).
  4. Табличная навигация, например:
    1. совмещение по времени и пространству (регионально-хронологическая), как в портале Археология;
    2. совмещение п.п. A-1 и B-3 по вертикали и горизонтали.

6. Литература

  1. ГОСТ 7.90‑2007. Система стандартов по информации, библиотечному и издательскому делу. Универсальная десятичная классификация. Структура, правила введения и индексирования: издание официальное.
  2. Каталог тем научных статей на основе Государственного рубрикатора научно-технической информации (ГРНТИ) в научной библиотеке КиберЛенинка.

  

Главная
Прикладная лингвистика: Компьютерная лингвистика | Структурная лингвистика | ИС по матлингвистике | Авторские задачи по лингвистике текста | О рубрикации электронных ресурсов
Применение в лингвистике: Дешифровка письменностей | Сравнение этимобаз |
Привлекаемые разделы информатики: Алгоритмы | Языки программирования | Кибернетика
Привлекаемые дисциплины: Математика | Когнитивистика | Эвристика
На правах рекламы (см. условия):    


© «Сайт Игоря Гаршина», 2002, 2005. Автор и владелец - Игорь Константинович Гаршин (см. резюме). Пишите письма (Письмо И.Гаршину).
Страница обновлена 29.09.2022
Яндекс.Метрика