Пер. с анл. — СПб.: Диалектика, 2020. — 528 с.: ил. — ISBN 978-5-907203-20-4.
Введение в информационный поиск — это первый учебник, который содержит взаимосвязанное изложение проблем классического информационного поиска и поиска в вебе, включая смежные задачи классификации и кластеризации текстов. Учебник написан с позиций информатики (computerscience) и содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов. Несмотря на то что учебник задуман как вводный курс по информационному поиску, он будет интересен исследователям и профессионалам. Полный набор слайдов для лекций и упражнений, сопровождающих книгу, доступен в Интернете.
Предисловие авторов книги к русскому изданиюМы рады предоставленной возможности написать краткое предисловие к русскому изданию книги Introduction to Information Retrieval. Поскольку оригинальное издание вышло в 2008 году, важность поиска по текстовым и другим неструктурированным информационным источникам к текущему моменту еще больше возросла. Этот поиск важен и как техническая задача, и как главная часть социального и делового взаимодействия людей в современном информационном мире. Прошедший период представляет собой захватывающий период широкого распространения блогов, микроблогов и социальных сетей, а также все более широкого применения инструментов, использующих методы машинного обучения и более глубокую интерпретацию текстов. В частности, в России это было восхитительное и, вероятно, поворотное время появления успешных компаний, занимающихся веб-поиском, оптическим распознаванием символов и автоматической обработкой текста. Кроме того, за прошедшее время активизировалась организационная и академическая деятельность. Мы хотели бы отметить, в частности, семинар РОМИП, упомянутый в главе 8, который организовал форум по оценке методов информационного поиска в русскоязычных источниках (http://romip.ru/), аналогичный конференциям TREC, а также недавно организованную Российскую летнюю школу по информационному поиску. Мы надеемся, что публикация этой книги будет способствовать дальнейшему развитию методов информационного и веб-поиска в русскоязычном мире.
Об авторахКристофер Д. Маннинг (Christofer D. Manning) - профессор компьютерных наук в Станфордском университете (Stanford University).
Прабхакар Рагхаван (Prabhakar Raghavan) - директор департамента Yahoo! Research и профессор-консультант по компьютерным наукам Станфордского университета.
Хайнрих Шютце (Hinrich Schutze) - заведующий кафедрой теоретической вычислительной лингвистики Института обработки текстов на естественных языках (Университет Штутгарта).
Предисловие
Благодарности
Булев поискПример информационного поиска
Первая попытка создать инвертированный индекс
Обработка булевых запросов
Сравнение расширенной булевой модели и ранжированного поиска
Библиография и рекомендации для дальнейшего чтения
Лексикон и списки словопозицийСхематизация документа и декодирование последовательности символов
Определение лексикона терминов
Быстрое пересечение инвертированных списков с помощью указателей пропусков
Словопозиции с координатами и фразовые запросы
Библиография и рекомендации для дальнейшего чтения
Словари и нечеткий поискПоисковые структуры для словарей
Запросы с джокером
Исправление опечаток
Фонетические исправления
Библиография и рекомендации для дальнейшего чтения
Построение индексаОсновы аппаратного обеспечения
Блочное индексирование, основанное на сортировке
Однопроходное индексирование в оперативной памяти
Распределенное индексирование
Динамическое индексирование
Другие типы индексов
Библиография и рекомендации для дальнейшего чтения
Сжатие индексаСтатистические характеристики терминов в информационном поиске
Сжатие словаря
Сжатие инвертированного файла
Библиография и рекомендации для дальнейшего чтения
Ранжирование, взвешивание терминов и модель векторного пространства
Параметрические и зонные индексы
Частота термина и взвешивание
Модель векторного пространства для ранжирования
Варианты функций tf-idf
Библиография и рекомендации для дальнейшего чтения
Ранжирование в полнофункциональной поисковой системе
Эффективное ранжирование
Компоненты информационно-поисковой системы
Влияние операторов языка запросов на ранжирование в векторном пространстве
Библиография и рекомендации для дальнейшего чтения
Оценка информационного поискаОценка информационно-поисковой системы
Стандартные тестовые коллекции
Оценка неранжированных результатов поиска
Оценка ранжированных результатов поиска
Оценка релевантности
Более широкая точка зрения: качество системы и ее полезность для пользователя
Сниппеты
Библиография и рекомендации для дальнейшего чтения
Обратная связь по релевантности и расширение запросаОбратная связь по релевантности и псевдорелевантности
Глобальные методы для переформулирования запроса
Библиография и рекомендации для дальнейшего чтения
XML-поискОсновные концепции языка XML
Проблемы, связанные с XML-поиском
Модель векторного пространства для XML-поиска
Оценка XML-поиска
Методы XML-поиска, ориентированные на текст и на данные
Библиография и рекомендации для дальнейшего чтения
Вероятностная модель информационного поискаОсновы теории вероятностей
Принцип вероятностного ранжирования
Бинарная модель независимости
Вероятностные модели и некоторые модификации
Библиография и рекомендации для дальнейшего чтения
Языковые модели для информационного поиска
Языковые модели
Модель правдоподобия запроса
Сравнение языкового моделирования с другими подходами к информационному поиску
Расширения языковых моделей
Библиография и рекомендации для дальнейшего чтения
Классификация текстов и наивный байесовский подходКлассификация текстов
Наивная байесовская классификация текстов
Модель Бернулли
Свойства наивной байесовской модели
Выбор признаков
Оценка классификации текстов
Библиография и рекомендации для дальнейшего чтения
Классификация в векторном пространствеПредставление документов и меры близости в векторном пространстве
Метод Роккио
Метод k ближайших соседей
Линейные и нелинейные классификаторы
Классификация с несколькими классами
Компромисс между смещением и дисперсией
Библиография и рекомендации для дальнейшего чтения
Метод опорных векторов и машинное обучение на документахМетод опорных векторов: случай линейно разделимых классов
Расширения модели опорных векторов
Проблемы, связанные с классификацией текстовых документов
Методы машинного обучения для поиска по запросу
Библиография и рекомендации для дальнейшего чтения
Плоская кластеризацияКластеризация в информационном поиске
Формулировка задачи
Оценивание кластеризации
Метод К-средних
Кластеризация, основанная на моделяхБиблиография и рекомендации для дальнейшего чтения
Иерархическая кластеризацияАгломеративная иерархическая кластеризация
Кластеризация методами одиночной и полной связи
Агломеративная кластеризация на основе усреднения по группе
Кластеризация методом центроидов
Оптимальность агломеративной иерархической кластеризации
Нисходящая кластеризация
Именование кластеров
Вопросы реализации
Библиография и рекомендации для дальнейшего чтения
Разложение матриц и латентно-семантическое индексированиеОбзор сведений из линейной алгебры
Матрицы "термин-документ" и сингулярные разложения
Малоранговые аппроксимации
Латентно-семантическое индексирование
Библиография и рекомендации для дальнейшего чтения
Основы поиска в вебеОсновы и история
Характеристики веба
Реклама как экономическая модель
Опыт пользователей поисковых систем
Размер индекса и оценка его размера
Нечеткие дубликаты и алгоритм шинглов
Библиография и рекомендации для дальнейшего чтения
Обход и индексирование вебаОбзор
Обход веба
Распределение индексов
Серверы проверки ссылочной связности
Библиография и рекомендации для дальнейшего чтения
Анализ ссылокВеб как граф
Метод PageRank
Порталы и авторитетные источники
Библиография и рекомендации для дальнейшего чтения
Библиография
Предметный указатель