Индексирование тем - Subject indexing

Индексирование тем это акт описания или классификация а документ к условия индекса или другие символы, чтобы указать, что это за документ около, чтобы подвести итог содержание или увеличить его находимость. Другими словами, речь идет об идентификации и описании предмет документов. Указатели составляются отдельно на трех различных уровнях: термины в документе, таком как книга; объекты в коллекции, например, в библиотеке; и документы (например, книги и статьи) в определенной области знаний.

Предметная индексация используется в поиск информации особенно для создания библиографические указатели для поиска документов по определенной теме. Примеры служб академической индексации: Zentralblatt MATH, Химические рефераты и PubMed. Термины индекса в основном назначались экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с любого анализа тематики документа. Затем индексатор должен идентифицировать термины, которые надлежащим образом идентифицируют тему, либо извлекая слова непосредственно из документа, либо назначая слова из контролируемый словарный запас.[1] Затем термины в указателе представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными должны быть термины. Вместе это дает глубину индексации.

Предметный анализ

Первый шаг в индексации - это определиться с тематикой документа. При ручном индексировании индексатор будет рассматривать предмет с точки зрения ответа на ряд вопросов, таких как «Имеет ли документ дело с конкретным продуктом, состоянием или явлением?».[2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и, таким образом, предлагать разные термины индекса. Это повлияет на успех поиска.

Автоматический и ручной анализ темы

Автоматическая индексация следует установленным процессам анализа частот встречаемости словосочетаний и сравнения результатов с другими документами для отнесения к тематическим категориям. Это не требует понимания индексируемого материала. Таким образом, это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не понимает смысла утверждений и, следовательно, может не назначить некоторые соответствующие термины или назначить неправильно. Индексаторы-люди сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку углубленный анализ всего текста требует больших затрат и времени. [3] Автоматическая система снимает ограничение по времени и позволяет анализировать весь документ, но также имеет возможность быть направленной на определенные части документа.

Выбор срока

Второй этап индексации предполагает перевод предметного анализа в набор условия индекса. Это может включать извлечение из документа или назначение из контролируемый словарный запас. Имея возможность проводить полнотекстовый поиск широко доступны, многие люди полагаются на свой собственный опыт в проведении информационного поиска и полнотекстовый поиск стал очень популярным. Предметное индексирование и его специалисты, профессиональные индексаторы, каталогизаторы, и библиотекари, остается критически важным для организации информации и поиска. Эти эксперты понимают контролируемые словари и могут найти информацию, которую не может найти полнотекстовый поиск. Стоимость экспертного анализа для создания предметного указателя нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для создания сопоставимого набора полнотекстовых материалов с полной возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрел популярность, особенно в сети.[4]

Одно приложение индексации, указатель книг, остается относительно неизменным, несмотря на информационную революцию.

Извлечение / производное индексирование

Индексирование с извлечением подразумевает извлечение слов непосредственно из документа. Оно использует естественный язык и хорошо поддается автоматизированным методам, в которых вычисляются частоты слов, а слова с частотой выше заранее определенного порога используются в качестве терминов индекса. Стоп-лист, содержащий общие слова (например, «the», «и»), будет ссылаться и такие стоп слова будут исключены из индекса.

Индексирование с автоматическим извлечением может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно выделить часто встречающиеся фразы, это становится труднее, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему, заключающуюся в том, что даже при использовании стоп-листа для удаления общих слов некоторые часто используемые слова могут оказаться бесполезными для разрешения различий между документами. Например, термин «глюкоза» может часто встречаться в любом документе, относящемся к диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшило бы этот эффект, но ответственность за связывание соответствующих терминов будет лежать на искателе, а не на профессиональном информационном центре. Кроме того, нечасто встречающиеся термины могут иметь большое значение, например, новое лекарство может упоминаться нечасто, но новизна объекта делает любую ссылку значительной. Одним из методов, позволяющих включать более редкие термины и исключать общие слова с помощью автоматизированных методов, может быть подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Следовательно, термин, который встречается в документе чаще, чем можно было бы ожидать, исходя из остальной части базы данных, затем можно было бы использовать в качестве индексного термина, а термины, которые встречаются одинаково часто повсюду, будут исключены. не распознает, когда обсуждается концепция, но не идентифицируется в тексте индексируемым ключевым словом.[5]

Индексация присвоения

Альтернативой является индексация присвоений, при которой термины индекса берутся из контролируемого словаря. Это дает преимущество контроля за синонимы поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, используемого автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы.[6] Это также устраняет любую путаницу, вызванную омографы путем включения квалификационного термина. Третье преимущество состоит в том, что он позволяет связывать связанные термины, связаны ли они иерархией или ассоциацией, например в индексной позиции для перорального препарата другие пероральные препараты могут быть указаны как связанные термины на том же уровне иерархии, но также могут быть указаны более широкие термины, такие как лечение. Индексирование присвоения используется при ручном индексировании для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют несоответствия полностью, поскольку два индексатора могут интерпретировать предмет по-разному.[2]

Представление указателя

Заключительный этап индексации - представление записей в систематическом порядке. Это может включать ссылки на записи. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В пост-скоординированном указателе записи представлены по отдельности, и пользователь может связать записи посредством поиска, обычно выполняемого с помощью компьютерного программного обеспечения. Посткоординация приводит к потере точности по сравнению с предварительной координацией [7]

Глубина индексации

Индексаторы должны принимать решения о том, какие записи должны быть включены и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации с точки зрения полноты и специфичности. [8]

Исчерпание

Исчерпывающий указатель - это тот, в котором перечислены все возможные термины индекса. Большее исчерпание дает более высокую отзыв, или большая вероятность того, что все соответствующие статьи будут извлечены, однако это происходит за счет точность. Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые имеют мало общего с предметом. В ручной системе более высокий уровень полноты влечет за собой большие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое на автоматизированную систему, было бы гораздо менее значительным. На другом конце шкалы в выборочном индексе охвачены только самые важные аспекты.[9] В выборочном указателе количество напоминаний сокращается, поскольку если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена из виду. Следовательно, индексаторы должны стремиться к сбалансированности и учитывать, какой документ можно использовать. Возможно, им также придется учитывать влияние времени и средств.

Специфика

Специфика описывает, насколько близко термины индекса соответствуют темам, которые они представляют. [10] Индекс считается конкретным, если индексатор использует параллельные дескрипторы для концепции документа и точно отражает концепции.[11] Специфичность имеет тенденцию увеличиваться с увеличением полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексации

Hjørland (2011)[12] обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:

  • Рационалистические теории индексации (например, теория Ранганатана) предполагают, что предметы логически конструируются из фундаментального набора категорий. Тогда основным методом предметного анализа является «аналитико-синтетический», чтобы выделить набор основных категорий (= анализ), а затем сконструировать предмет любого данного документа, комбинируя эти категории в соответствии с некоторыми правилами (= синтез).
  • Эмпирические теории индексации основаны на отборе похожих документов на основе их свойств, в частности, с применением методов численной статистики.
  • Исторические и герменевтические теории индексации предполагают, что тема данного документа относится к данному дискурсу или предметной области, поэтому индексация должна отражать потребность в конкретном дискурсе или предметной области. Согласно герменевтике - это документ, который всегда пишется и интерпретируется с определенного горизонта. То же самое и с системами организации знаний и со всеми пользователями, которые ищут такие системы. Любой вопрос, задаваемый такой системе, ставится с определенного горизонта. Все эти горизонты могут быть более или менее согласованными или противоречивыми. Чтобы проиндексировать документ, нужно попытаться внести свой вклад в поиск «соответствующих» документов, зная об этих различных горизонтах.
  • Прагматические и критические теории индексации (например, Hjørland, 1997)[13] согласуется с историцистской точкой зрения, согласно которой субъекты относятся к конкретным дискурсам, но подчеркивает, что анализ субъектов должен поддерживать заданные цели и ценности и должен учитывать последствия индексации тем или иным способом. Эти теории считают, что индексирование не может быть нейтральным и что пытаться индексировать нейтральным образом - неправильная цель. Индексирование - это действие (а индексирование на основе компьютера действует в соответствии с намерениями программистов). Действия служат человеческим целям. Библиотеки и информационные службы также служат человеческим целям, поэтому их индексация должна выполняться таким образом, чтобы максимально поддерживать эти цели. На первый взгляд это выглядит странно, потому что целью библиотек и информационных служб является идентификация любого документа или фрагмента информации. Тем не менее, любой конкретный способ индексации всегда поддерживает одни виды использования за счет других. Индексируемые документы предназначены для определенных целей в сообществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими различными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).[14] и в музыке Абрахамсена (2003).[15]

Как утверждают Роули и Фэрроу, суть индексации[16] оценить вклад статьи в знания и соответственно проиндексировать ее. Или, по словам Хьёрланда (1992,[17] 1997), чтобы проиндексировать его информативный потенциал.

«Чтобы добиться хорошего последовательного индексирования, индексатор должен хорошо понимать структуру предмета и характер вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000,[16] п. 99).

Смотрите также

Рекомендации

  1. ^ Ф. В. Ланкастер (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Фацет ISBN  1-85604-482-3. стр. 6
  2. ^ а б Г.Г. Чоудхури (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фацет. ISBN  1-85604-480-7. стр.71
  3. ^ Ф. В. Ланкастер (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Фацет ISBN  1-85604-482-3. стр.24
  4. ^ Восс, Якоб (2007). «Теги, фольксономия и совместное возрождение ручного индексирования?». Материалы Международного симпозиума информатики. С. 234–254. arXiv:cs / 0701072. Bibcode:2007cs ........ 1072V.
  5. ^ Дж. Лэмб (2008): Индексы, созданные человеком или компьютером? В архиве 2014-06-04 в Wayback Machine [онлайн] Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.
  6. ^ К. Тенопир (1999): «Человек или автоматизация, важна индексация». Библиотечный журнал 124(18) страницы 34-38.
  7. ^ Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной координации и пост-координации». Журнал Американского общества информационных наук, 49(14), 1254-1269.
  8. ^ Д. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN  1-56308-641-7. стр.105
  9. ^ B.H. Вайнберг (1990): «Исчерпывающий перечень указателей: книги, журналы и полные электронные тексты; резюме семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова, 7(5), страницы 1+.
  10. ^ Дж. Д. Андерсон (1997): Рекомендации по индексам и соответствующим устройствам поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.
  11. ^ Д. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN  1-56308-641-7. стр.106
  12. ^ Хьёрланд, Биргер (2011). Важность теорий познания: индексирование и поиск информации в качестве примера. Журнал Американского общества информационных наук и технологий, 62(1,), 72-77.
  13. ^ Hjørland, Б. (1997). Поиск информации и представление темы. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.
  14. ^ Ørom, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30 (3/4), 128-143.
  15. ^ Абрахамсен, Кнут Т. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144-169.
  16. ^ а б Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Alderstot: издательская компания Gower
  17. ^ Hjørland, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48 (2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

дальнейшее чтение

  • Фугман, Роберт (1993). Тематический анализ и индексация. Теоретические основы и практические советы. Франкфурт-на-Майне: Index Verlag.
  • Фроманн, Б. (1990). «Правила индексации: критика ментализма в теории поиска информации». Журнал документации. 46 (2): 81–101. Дои:10.1108 / eb026855.