|
|
|
Ключевые слова: категоризация информации, каталогизация сайтов, классификация текстов, виды электронных ресурсов, цифровые исследования литературы, информационная рубрикация, библиографическая обработка, навигация в веб-каталогах.
Keywords: information classification, cataloging sites, content categorization, types of electronic resources, textual digital researches.
Работа относится к проблеме классификации и рубрикации информационных ресурсов любых видов (материальных, библиографических, электронных, сетевых). Рассматривается частный случай каталогизации сайтов и документов в Интернете. Дается всесторонний комплекс навигации в веб-каталогах со сложной структурой информации.
Оглавление:
![]() Трудно сказать, когда человек начал классифицировать окружающие объекты и зачем он это делал. Может быть, все началось с первобытного «складского учета», когда в общественных хранилищах разные виды продуктов и инструментов раскладывались в разные места. Может быть при обмене, когда вместе с товаром отправлялся его краткий список в виде особых насечек или узелков. Во всяком случае, в реликтовом языке нивхов, живущих на Амуре, нет универсальных счетных числительных, а используются отдельные счетные слова для каждого вида предметов: для круглых – одни числительные, для продолговатых – другие, для людей – третьи и т.д. Вид подсчитываемых предметов также оформляется с помощью особых частиц, например, в бирманском языке. А во всех языках банту классификация мира на дюжину сортов оформлена грамматически, обычно в виде согласовательных префиксов. Но, если смотреть глубже, классификация возникла одновременно с появлением разума и речи. Известен научный опыт, когда гориллу учили общаться с человеком при помощи разноцветных предметов различной формы. И она, действительно, смогла таким образом «разговаривать», наделяя предметы связанными с цветом и формой значениями, а потом – значениями, связанными с этими значениями (по аналогии). Например (ручаюсь не за точность, а за смысл), желтый предмет обозначал и огонь и апельсин, потом – больно, горячо, сладкий, круглый… Из этого видим, что разум – это разной степени грубости «оцифровка» объектов окружающего мира на словомысли, каждая из которых несет набор похожих или связанных значений и вокруг которых потом сложатся гнёзда производных слов. С развитием цивилизации сознательной классификацией всей окружающей действительности начали заниматься философы (в Древней Греции) и грамматисты (в Древней Индии). Первые – чтобы понять природу и происхождение объектов, вторые – вероятно, с целью составления словарей. Эти классификации сильно отличаются как по авторам, так и по эпохам, отражая разный менталитет и реалии тех лет. Приближаясь к нашей теме классификации информационных ресурсов, заметим, что информационными ресурсами являются и материальные ресурсы, если их восприятие также несет или рождает в мозгу дополнительную информацию. Поэтому в первом исторически известном ресурсном центре – Александрийской библиотеке (которая, на самом деле, называлась музеем) хранились не только свитки текстов (40 000, потом 700 000 !), но и произведения искусства, артефакты. |
Человек, активно работающий с внешней информацией, как и древние ученые в Александрийской библиотеке, использует все виды ресурсов – тексты, картины, музейные экспонаты… Кроме того, он ведет собственные записи и памятки, делает фото и зарисовки, для чего предназначены и все еще используются бумажные блокноты, ежедневники, альбомы.
В наш век компьютеризации все источники информации могут быть оцифрованы и сохранены в виде файлов.
А с бурным развитием Интернета часто нет смысла хранить файлы на своих электронных носителях,
если есть надежный доступ к сетевому (в т. ч. «облачному») ресурсу с этой информацией.
Ссылки на сетевые ресурсы обычно хранятся в «Избранной» папке браузера.
Также имеются разделы для сохраненных объектов в ряде соцсетей.
В Фэйсбуке, например, это раздел «Сохраненные» с 11 подразделами:
А что делать, если нужных вам ссылок (или других объектов) накопилось несколько сотен или даже тысяч? Можно их разделить на группы, взяв за основу тематические категории из известных Интернет-каталогов, сравнив и интегрировав эти классификации. Это - вторая задача.
Классификация по категориям и подкатегориям, конечно, значительно облегчает доступ к ХИО, но, возможно, существуют и другие способы для ускорения их поиска? Это даёт третью задачу - проанализировать известные способы навигации по массиву информации и ресурсов, найти малоизвестные и, по возможности доработав чужие, предложить и миру собственные находки и разработки, создав интегральную систему навигации по информационным объектам и ресурсам.
Наличие разнородных классификаций информации и неполнота способов навигации в веб-каталогах приводит к следующим вопросам:
Решения по этим вопросам могут стать основой Технического задания на разработку Интернет-каталога нового типа, который также может встраиваться в социальные сети или блоги как персонально настраиваемый веб-сервис.
Что может храниться в архивных фондах:
Для поиска релевантной информации, а также для навигации по информационным материалам полезно определять их вид.
Тексты состоят из предложений, предложения – из слов и их сочетаний. А друг с другом соединяются в абзацы и главы, которые потом составляют книги. Поэтому можно выделить такие уровни контента:
При цифровом исследовании литературы информацию нужно классифицировать по каждому такому уровню отдельно.
Для начала не будем изобретать велосипед и сравним имеющиеся группировки сайтов (как один из видов ХИО) в (когда-то) развитых сетевых каталогах. Хотелось бы, чтобы в основу этих группировок были положены научные исследования, но сделаны они были, скорее всего на основе практических нужд и субъективных мнений менеджеров и разработчиков. К примеру:
Сравним это по наполненности, поставив рядом тематически близкие:
---------------------------------------------------------------------------------------------------------------- № dmoz: Яндекс: Улитка: Апорт: (3 лакуны) (6 лакун) (4 лакуны) (2 лакуны) ---------------------------------------------------------------------------------------------------------------- ---------------------------------------- Народное хозяйство ---------------------------------------------------- 1. Бизнес Бизнес, Пр-во, Работа Бизнес, Финансы, Экон.; Работа и Обуч. Бизнес и экономика 2. Покупки - Товары и Услуги - ---------------------------------------- Семья ----------------------------------------------------------------- 3. Дом Дом - Дом и семья 4. Дети и подростки - - Дом и семья ---------------------------------------- Личное время ---------------------------------------------------------- 5. Игры Игровая Развлечения Развлечения 6. Досуг Развлечения, Отдых Развлечения, Отдых Развлечения и отдых 7. Искусство Культура Культура и Искусство Культура и искусство ---------------------------------------- Здоровье и физические возможности человека ---------------------------- 8. Спорт Спорт Спорт Спорт 9. Здоровье - Медицина Медицина и здоровье 10. - - Люди Знакомства и общение ---------------------------------------- Окружающий мир -------------------------------------------------------- 11. - (Наука?) - Природа - ---------------------------------------- Общественные устройства ----------------------------------------------- 12. Общество Общество Общество и Государство Общ-во, По странам и рег. ---------------------------------------- Знание ---------------------------------------------------------------- 13. Источ. информ. Справки - Справка 14. Новости и СМИ СМИ Средства Массовой Информации Новости и СМИ 15. Образование Учёба Работа и Обучение Наука и образование 16. Наука - - Наука и образование ---------------------------------------- Техника и технологиии ------------------------------------------------- 17. Интернет Порталы Интернет Интернет 18. Компьютеры Hi-Tech Компьютеры и программы, Моб.технологии Компьютеры 19. - Авто Автомобили, Транспорт АвтоМото ----------------------------------------------------------------------------------------------------------------
Теперь сведём всё это вместе, 1) устранив лакуны, 2) разделив некоторые группы (чтобы 1 группа одного каталога не соответствовала двум группам другого) и 3) вложив подтемы в темы:
Здесь, правда, не представлены другие виды техники, нет армии, религии, литературы, законов, туров, а наука, по идее, обватывает все остальные сферы. Тем не менее, видим, что всё разнообразие жизни можно попытаться "загнать" в пару десятков категорий.
Все представленные группировки похожи, но в других сетевых каталогах они отличаются, например, рассмотрим и сравним группировку сайтов в когда-то функционировавшем рейтинге Рамблера (компания обещает опять его развивать), в котором 29 категорий:
Можно для каталогизации применять и апробированные системы библиографической классификации, например, универсальную десятичную классификацию (УДК), где все уровни делятся по 10 групп. Или взять за основу каталог тем научных статей на основе Государственного рубрикатора научно-технической информации (ГРНТИ).
![]() Классификация информации – дело очень субъективное. И надо давать возможность человеку менять предлагаемую стандартную классификацию или создавать свою с нуля. Даже если не брать в расчет личные предпочтения, взгляд на мир у каждой целевой аудитории свой. К примеру, бизнес-аналитик может произвести достаточно объективный анализ бизнес-процессов во «всемирном масштабе» и соответственно распределить всю информацию по отдельным хозяйственным направлениям. К его взгляду будет близок взгляд бизнесмена. На взгляд ученого, любая область мира – объект определенной науки и он разделит мир по наукам. На взгляд ведического ария (да и традиционного индуса), все вещи можно распределить на те, которые находятся в области деятельности брахманов, кшатриев, шудр и неприкасаемых… Такие взгляды тоже можно отражать в классификациях. Но существует ли некий независимый способ группировки информации? Думаю, такие способы можно найти. Например, предлагаю метод, основанный на оценке индекса цитируемости ключевых слов. Если все знания (или их основы, например, тексты из энциклопедий) оформить в виде веб-страниц, каждая из которых относится к единственной ключевой фразе с учетом ее синонимов (например, «английский язык», «речь англичан», «язык британцев»), проставить в их текстах ссылки друг на друга, а потом определить индекс цитируемости, то каталогами верхнего (корневого) уровня можно установить страницы именно с максимальным ИЦ. Ведь, например, на страницу «животные» будут ссылки со страниц «домашние животные», «млекопитающие», «собаки» и т.д. |
Если объект можно описать 2-мя словами «прилагательное + существительное», то группировку строить по существительному, а по прилагательному организовать дополнительный алфавитный поиск. Например, страницы, посвященные английскому и русскому языкам, положить в каталог «Языки». Затем создать алфавитные страницы от А до Я, где на страницу-А поместить ссылку на «Английский язык», а на страницу-Р – на «Русский язык». Далее, на всех страницах, связанных с Англией и английским поместить отдельной группой все ссылки друг на друга.
Кроме того, очень удобным средством будет традиционная тематическая группировка страниц, как это делается в сетевых каталогах, только темами должны стоять семантические признаки, а страницы, имеющие несколько признаков – должны находиться в разных группах.
Способ распределения информации (чем ее будет больше, тем это будет точнее) по индексу цитируемости ключевых слов позволит определить реальную иерархию информации об окружающем мире.
Это может найти применение, прежде всего, в следующих направлениях:
К сожалению, в большинстве сетевых каталогах, даже самых развитых и популярных, используются лишь 4-5 методов поиска материалов (по темам, по карте, строкой поиска, и иногда - по облаку тэгов). Серфинг электронных ресурсов должен быть тем полнее, чем больше самих этих ресурсов и их типов.
A. Какие виды навигации распространены (и знакомы автору):
B. Какие виды навигации автор считает своим ноу-хау, и осуществил (или планирует осуществлять) на главном своём проекте «Сайт Игоря Гаршина» (garshin.ru):
Ключевые слова для поиска сведений по группировке информ-ресурсов:
На русском языке: категоризация информации, каталогизация сайтов, рубрикация веб-ресурсов, навигация в веб-каталогах,
классификация текстов, виды и группы электронных ресурсов, цифровые исследования литературы, библиографическая обработка,
группировка информ-ресурсов, информационная структуризация;
На английском языке: Information classification.
|
|