приветствие

Здравствуйте! Приветствую Вас в профессиональном сообществе, посвященном электронно-библиотечным системам. Сегодня это направление очень актуально для каждой вузовской библиотеки, а для меня оно является ещё и темой кандидатской диссертации. В блоге будут выложены статьи (со ссылками, конечно), которые мне удастся найти. Так же очень надеюсь на Ваш профессиональный взгляд и опыт! Давайте общаться и помогать друг другу!

суббота, 16 апреля 2011 г.

Для чего нужны библиотечно-библиографические классификации при поиске в электронных библиотеках?

2011/03/29 23:25
http://www.aselibrary.ru/blogs/archives/672/#more-672
Для чего нужны библиотечно-библиографические классификации при поиске в электронных библиотеках?

Речь идет о наиболее развитых классификациях: УДК, ББК (отечественная национальная классификация), Десятичная классификация Дьюи, классификация Библиотеки Конгресса США. Может быть, они излишни в век расцвета полнотекстового поиска?

В одной из статей о тематическом поиске данного блога на основе анализа примеров продемонстрировано обоснование того непреложного факта, что без учета смысловых связей при поиске в электронных библиотеках неизбежны огромные потери данных при поиске, причем скрытые от пользователя. Учет иерархических связей и отношений синонимии при поиске в ЭК возможен только с использованием структур типа классификаций, рубрикаторов или тезаурусов. Рубрикаторы, как правило, ориентированы на построение иерархических деревьев смысловых связей типа «шире-уже» только на 2-4 уровня, что неприемлемо для поиска в больших объемах данных. Информационно-поисковые тезаурусы до сих пор не удалось создать для документальных фондов универсального содержания в силу необычайной трудоёмкости этой задачи. Они разрабатываются для отдельных областей знаний.

На этом фоне библиотечные классификации занимают выигрышное положение: они уже существуют, постоянно совершенствуются специальными службами, их поисковые функции отлаживались многими десятилетиями использования при тематическом поиске в электронных каталогах не только традиционных библиотек, но и в системах, называемых электронными библиотеками (ЭБ). Давно доказано, что они существенно повышают полноту поиска документов.

Почему же полнотекстовый поиск не компенсирует функций классификаций? В документах ЭБ так соблазнительно много слов…, но нет гарантированного успеха отыскания документов, содержащих более узкие понятия при поиске по более широкой теме.

Эта ситуация имеет простое объяснение: существует закон экономии использования языковых средств в речи (и письменной, и устной). В статье, диссертации, книге, предназначенной для определенного круга лиц, владеющих общими с автором знаниями, человек не станет останавливаться на понятиях, ими априорно знакомых, и если и употребит соответствующие слова, то при необходимости пояснения новых. Зачем указывать в тексте, что марийский язык относится к волжской группе финно-угорских языков, если пишешь работу для лингвистов?

Соответственно, ЭБ как система должна «знать» иерархию «тем», по которым происходит поиск, и уметь дополнять при поиске запросы более узкими «темами». Использование в ЭБ иерархических классификаций как раз позволяет учесть при поиске не только непосредственно указанную в запросе тему, но и все более узкие темы (стоящие ниже по иерархии) в её структуре. Это и повышает полноту поиска.

Проверим на примере, найдется ли полный текст автореферата диссертации Игнатьевой Е.И., описание которого в электронном каталоге (ЭК) РГБ /ссылка http://aleph.rsl.ru/F/?func=file&file_name=find-a/ приведено ниже, на запрос «Авторефераты по волжской группе языков».

Ø В заглавии нет слов «волжская группа».

Ø В тексте автореферата в ЭБ диссертаций РГБ тоже нет таких слов.

Ø Библиографическая запись в ЭК РГБ содержит, кроме индекса ББК, его словесную формулировку. При этом расшифрован каждый уровень иерархии основного индекса и иерархия специального типового деления (часть индекса после дефиса – дерево разделов языкознания).

Запрос в ЭК РГБ: волжск? групп? язык? (с отсечением окончаний слов).

Документ удалось найти только по словесной формулировке индекса ББК, где зафиксированы иерархические связи между темами. Вывод: если не использовать классификацию, пользователь может не узнать, что по его запросу имеется в ЭБ и данный автореферат.

Неполная БИБЛИОГРАФИЧЕСКАЯ ЗАПИСЬ в ЭК РГБ
Индекс ББК |Ш166.32-211,0 |2 rubbk
Автор
|Игнатьева, Елизавета Ивановна
Заглавие |Деривация отрицания в марийском языке : |автореферат дис. … кандидата филологических наук : 10.02.22 Марийс. гос. ун-т
Место издания Йошкар-Ола 2004
Словесная

формулировка

индекса ББК
|Филологические науки. Художественная литература — Языкознание — Финно-угорские языки — Волжская группа языков — Марийские (мари, черемисский) языки — Грамматика — Морфология — Словообразование rubbk
Эл. адрес в ЭБ http://dlib.rsl.ru/rsl01002000000/rsl01002732000/rsl01002732180/rsl01002732180.pdf

Потери при поиске без учета иерархических связей могут достигать 90 %.

Пользователь поисковой системы Yandex может легко убедиться в том, что по нашему запросу тексты будут выданы в ней только хотя бы при одном из двух условий: 1) слова имеются в этом тексте, 2) для них созданы метаданные, содержащие соответствующие более широкие темы. Это естественно, так как в данной системе не используются семантические иерархические деревья.

Хотя в серьёзных поисковых системах сети Интернет учитывается синонимия (языкознание=лингвистика), используются мощные грамматические средства (например, парадигмы склонения существительных), строятся сложные алгоритмы вычисления близости расположения слов в текстах и оценки их частотности, на выходе пользователь видит, как правило, огромное количество страниц (текстов), которые с уменьшающейся вероятностью должны соответствовать его запросу. При этом никто и не обещает полноты выдачи информации. При поиске в глобальной сети человек ищет хоть что-то по заданному запросу в слабо неорганизованном массиве данных.

Электронные библиотеки потому и называются «библиотеками», что они хранят вполне определённые фонды и должны обеспечивать вполне определённые характеристики полноты и точности поиска в них, предоставляя пользователю (читателю) вполне определённые гарантии получения документов по своему запросу. Следовательно, в них необходимо применять соответствующие средства представления данных. Однако поиск словоформ в полных текстах ЭБ полезен как дополнительная возможность найти «хоть что-нибудь» в дополнение к организованному поиску. Решение об использовании в этом режиме грамматических словарей или других методов анализа текста принимается, разумеется, в зависимости от экономических возможностей организации.

Что касается форм представления семантических связей в классификациях для ЭБ, то они могут быть реализованы весьма разнообразными способами и совсем не обязательно должны выглядеть так же, как на бумаге. Программистам – и «карты в руки». У нас есть идеи и некоторые их решения, а у вас?

Комментариев нет:

Отправить комментарий

Выскажите Ваше мнение...