|
Интернет-это гигантское неструктурированное хранилище свободно размещаемых
страниц, не поддающееся четкой классификации. Это делает поиск информации трудным
и непредсказуемым. Поисковые системы Интернета (search engines) обладают важным
свойством: каждый желающий информации попадает куда ему нужно на основе собственной
способности задавать вопросы. Но даже задав самый адекватный вопрос мы получаем
ответ на основе синтаксиса и приходится открывать множество страниц прежде чем
найдешь то, в чем действительно нуждаешься. Майкл Дертоузос (Michael Dertouzos),
- человек, стоявший во главе процесса создания Всемирной паутины как международного
эталона (умер 27 августа 2001г.) и большую часть своей карьеры посвятивший изучению
и прогнозированию будущего новых технологий, говорил "Будущее за автоматизацией,
распознаванием речи и удобными средствами поиска полезной информации. Без всего
этого информационная революция не состоится. Сейчас мы должны
научиться выбирать информацию по смыслу, а не по синтаксису".
Эволюция технологий web-поиска приведет к упорядочиванию средств поиска. Они
будут автоматически и точно категоризировать распределенные и быстро меняющиеся
источники знаний, упрощая их использование в коммерческих приложениях.
В настоящий момент, по данным исследования агентства iProspect(осень 2002г.), три четверти пользователей Сети получают нужную им информацию с помощью поисковых систем. Более 50% респондентов всегда используют одну и ту же поисковую систему. Лишь 13% участников прибегают к услугам нескольких поисковиков в зависимости от интересующего вопроса. Также выяснилось, что в том случае, если пользователь не может найти интересующую его информацию, он чаще всего пытается воспользоваться другим поисковиком. И лишь 7,5% пользователей пытаются переформулировать свой запрос, если поиск оказался неудачным. Для большинства проектов электронной коммерции повышение рейтинга сайта в поисковых системах является приоритетным направлением рекламы.
Американское бюро интерактивной рекламы Interactive Advertising Bureau - IAB собирается опубликовать список всех поисковых роботов и пауков.
Киберпространство (cyberspace)- совокупность информационных ресурсов, доступных посредством глобальной компьютерной сети Интернет. Термин введен в употребление писателем-фантастом Уильямом Гибсоном.
Wayback Machine http://web.archive.org - поиск уже не существующих сайтов в Архиве Интернета(Internet Archive) (http://www.archive.org), основанном в 1996 году Брюстером Кале в сотрудничестве с Библиотекой Конгресса США. В проекте принимают участие National Science Foundation, Markle Foundation, Compaq. По мнению Кале глобальную сеть нужно рассматривать, как единственную предпосылку сохранения истории человечества. Архив обновляется каждые два месяца (это чуть меньше, чем средний срок жизни страницы). На октябрь 2001г. в архиве уже было собрано более 10 миллиардов сайтов, созданных с 1996 по 2001 год. Объем архива составлял более 100 терабайт, и каждое обновление приносит по 12 терабайт.Сайты Интернета, файлы, рассылки в электронных конференциях- все это имело объем в 5 раз больший нежели библиотека конгресса
Что касается действующего Интернета, то по оценке американских экспертов его объем в 500 раз больше, чем представляют нам популярные поисковые машины Yahoo!, Googl.com, AltaVista. Специалисты компании BrightPlanet занимаются исследованием «катакомб» киберпространства. Создав специальное программное обеспечение LexiBot www.lexibot.com для исследования «глубокой Сети »они оценили, что в Интернете сейчас содержится более 550 миллиардов документов. Общее же число страниц, проиндексированных всеми поисковыми машинами, превышает миллиард. Поисковый робот собирает информацию с 600 поисковых машин и баз данных. Поисковая машина по одному запросу отыскивает не только статические страницы, но и погружается в базы данных динамических страниц.
Собирают информацию только с тех сайтов, которые имеют непосредственное отношение к избранной области. Поэтому в найденной по ключевым словам информации "мусора" на несколько порядков меньше. В настоящее время все известные поисковые машины имеют специальный раздел "для шопинга".
Развитые средства получения информации позволяют быстро находить нужную информацию независимо от ее источника место нахождения. Полезную информацию можно найти в разных местах. Даже аудиофайлы с записями переговоров между представителями службы поддержки и перспективными клиентами могут стать источником поистине бесценных данных. Предприятия нуждаются в технологиях, которые позволяют предоставить сотрудникам средства мощного поиска данных, их визуализации и анализа. Важно не только найти информацию, но и структурировать ее в соответствии с препочтениями пользователя, т.е. автоматически сгруппировать входящую информацию в структуры некоего персонального рабочего пространства, представить ее в персонализированном, адаптированном к способу мышления пользователя виде(кастомизация).
Хорошо организованное управление потоками информации, возможности персонализации, позволяющие пользователям выбирать способы сбора и представления информации в соответствии со своими потребностями, ускоряют деловые процессы и улучшают принятие решений,
Например компания AltaVista предлагает ПО, в котором для поиска данных в
корпоративных ПК или ноутбуках служащих создается P2P-сеть, в которую включаются
все файлы на компьютерах компании. Сегодня в России холдинг "Росбизнесконсалтинг"
совместно с AltaVista предлагают корпоративные сервисы, позволяющие искать
информацию по собственным базам крупных компаний. Возможен поиск по любым
типам документов, в том числе почтовым сообщениям, файлам Word, Excel, базам
Oracle и многим другим. AltaVista русифицирована и поиск может выполняться
с учетом русской морфологии. Для демонстрации возможностей эта поисковая система
установлена на www.rbc.ru,
www.cnews.ru и другие интернет-
и интранет-проекты РБК.
Другой пример - в ПО Enfish Onespace используется поисковая система,
способная искать информацию в электронной почте и приложениях, находящихся
в папке входящих сообщений, архивированных каталогах и в Интернете. Пользователи
могут использовать и манипулировать данными из многих источников через единое
приложение, организовав в соответствии со своими потребностями свое рабочее
пространство и объединив электронную почту, любимые Web-сайты, важнейшие документы
и источники данных в единую персонализированную форму. Таким образом персональные
средства классификации информационного наполнения представляют собой еще одно
средство, позволяющее решить проблему больших объемов неструктурированной
информации из различных источников.
Еще одна технология Autonomy предназначенная для управления потоками
структурированной и неструктурированной информации (Интернет, почтовые сообщения,
рабочие документы, видео, аудио и т.д.), поступающей из разных источников.
Применяется в корпоративных порталах, системах управления работой с клиентами,
электронной коммерции, технологиях управления публикацией контента.
Компания Google первой предложила
аппаратную реализацию программно-аппаратный поисковый движок для корпоративных
сетей Google Search Appliance. Google . Движок предназначен для поиска документов
во внутренних локальных базах данных и может быть установлен за корпоративным
брандмауэром. Поиск может производиться в документах самых разнообразных форматов
документации, текстах программ, в электронной почте служащих. Параметры
характера и глубины поиска могут настраиваться в зависимости от нужд компании-клиента.
При корпоративном поиске важно предоставить быстрый доступ к новой
информации. В декабре 2001г. компании Inktomi Corp. и Interwoven, Inc. объявили о решении совместно поставлять
партнерам и клиентам интегрированную систему, которая обеспечивает своевременный
доступ к самой актуальной и точной корпоративной информации. Интеграция поисковых
серверов Inktomi и информационных систем Interwoven позволит получать новые
производственные документы сразу после их публикации. Вся опубликованная информация
службы TeamSite от Interwoven автоматически включается в поисковые индексы
Inktomi, Пользователям на предприятиях гарантируется упрощение процессов публикации
и управления документами, эффективный поиск и немедленный доступ к новой производственной
информации в корпоративных интрасетях, экстрасетях, на порталах и Web-сайтах.
Компания Verity производит
рыночные продукты, предназначенные для извлечения знаний из всего многообразия
информационных ресурсов современного предприятия, таких как интернет- и интранет-сайты
предприятий и организаций, сторонние интернет-сайты, файловая система, хранилища
документов различных ведущих производителей, текстовые поля баз данных, репозитории
различных бизнес-приложений, а также записанные на компакт-диски информационные
выборки с сохранением полноценного поиска и анализа по ним.
Управление потоками информации в Интернет-экономике. В ближайшем
десятилетии управление потоками информации превратится в средство повышения
отдачи от Интернета - и не только. Управление потоками информации в корпорации
Intel.
www.intel.ru
SearchEngineWatch.com - www.SearchEngineWatch.com
Поисковые мащины и каталоги "Энциклопедия Интернет-рекламы" Глава 5 http://book.promo.ru/book/chapter5
Регистрация в поисковых системах и каталогах. Как наиболее правильно и с наибольшей эффективностью произвести регистрацию Web-сервера в каталогах и как добиться успешной индексации в поисковых системах. www.oborot.ru/article/82/5