Механизм поиска в интернете не менялся в течение десятилетий. И наконец, исследователи Google представили новую концепцию поисковых систем. Они будут работать на основе языковых моделей, а сам процесс поиска будет похож на разговор с человеком-экспертом.
Исследователи Google предложили новую концепцию поиска: готовый ответ вместо списка статей
Дарья Сидорова
В 1998 году двое аспирантов из Стэнфордского университета опубликовали статью, описывающую новый тип поисковой системы под названием Google, которая использует структуру гипертекста. Google, как утверждалось, «разработан для эффективного сканирования и индексации интернета, а также предоставляет более подходящие результаты, чем существующие системы».
В основе инновации лежал алгоритм PageRank. Он ранжировал результаты поиска по тому, насколько они соответствуют запросу пользователя, основываясь на количестве ссылок на страницу. C помощью PageRank Google открыл ворота в интернет, а Сергей Брин и Ларри Пейдж построили одноименную компанию, которая стала одной из крупнейших в мире.
Конкурс ВТБ – придумай имя голосовому помощнику и выиграй Iphone 12
Недавно команда исследователей Google опубликовала предложение по модернизации механизма работы поисковой системы. Они предлагают заменить метод ранжирования одной большой языковой ИИ-моделью — будущей версией BERT или GPT-3. Пользователям больше не придется самостоятельно искать информацию в обширном списке веб-страниц. Вместо этого они будут задавать вопросы, а языковая модель будет отвечать им напрямую. Такой подход может изменить не только поисковые системы, но и то, как мы взаимодействуем с ними.
Однако для начала потребуется устранить проблемы существующих языковых моделей. К примеру, как указывают исследователи Google и других компаний, иногда эти ИИ генерируют предвзятые и оскорбительные ответы.
Современные поисковые системы
С годами поисковые системы работают все быстрее и точнее. Теперь результаты ранжируются с помощью ИИ, а Google использует языковую модель BERT, чтобы лучше понимать поисковые запросы. Но, помимо этих нововведений, все основные поисковые системы работают так же, как и 20 лет назад.
Поисковый робот (ПО, которое непрерывно сканирует интернет и поддерживает список всех обнаруженных результатов) индексирует веб-страницы.
Результаты, соответствующие запросу пользователя, собираются из этого индекса и ранжируются.
Даже лучшие современные поисковые системы все еще отвечают списком документов, содержащих запрошенную информацию, но не предоставляют сам ответ. Они также плохо справляются с запросами, требующими ответов из нескольких источников. Представьте, что вы спрашиваете совет у врача, а он, вместо прямого ответа, предоставляет вам список статей, которые потребуется изучить.
Концепция поисковых систем будущего
Дональд Метцлер и его коллеги из Google Research хотят создать поисковую систему, которая выступит в роли человека-эксперта. Она будет предоставлять ответы на естественном языке, собранные из нескольких документов, а также подкреплять их ссылками на подтверждающие данные, как это делается в статьях Wikipedia.
Большие языковые модели частично соответствуют этим требованиям. К примеру, GPT-3 обучен на большей части данных из интернета и сотнях книг. Он извлекает информацию из нескольких мест и дает ответы на естественном языке. Однако GPT-3 не отслеживает используемые источники и не может предоставить доказательств своих ответов. В результате невозможно сказать, насколько верна предоставляемая информация.
Метцлер и его коллеги называют языковые модели дилетантами: «Считается, что они умны, но их знания поверхностны». По их мнению, эту проблему можно решить, если обучить будущие версии BERT и GPT-3 сохранять записи источников. На данный момент ни одна из подобных моделей не способна на это. Но в целом это возможно, и в этом направлении уже начались исследования.
Мнения экспертов
Цзыци Чжан из Университета Шеффилда изучает методы поиска информации в интернете. По его словам, за последние десятилетия был достигнут прогресс в различных областях поиска — от ответов на запросы до резюмирования документов и структуризации данных. Однако ни одна из этих технологий не изменила механизм поиска, так как каждая из них решает конкретную проблему и не поддается обобщению.
Концепция большой языковой модели, способной выполнять все эти действия одновременно, кажется Чжану интересной. Тем не менее он отмечает, что ИИ плохо справляется с техническими и специализированными темами из-за недостатка примеров в тексте, по которому они обучаются. «Вероятно, в интернете в сотни раз больше информации об электронной коммерции, чем о квантовой механике», — утверждает Чжан. Кроме того, современные языковые модели в основном ориентированы на английский язык.
Ханна Гаджиширзи, изучающая обработку естественного языка в Вашингтонском университете, поддерживает новую концепцию, добавляя, что она «полностью изменит процесс поиска». Тем не менее она считает, что на практике могут возникнуть проблемы, так как крупные языковые модели требуют много памяти и вычислительных ресурсов. «Думаю, они не заменят индексацию», — утверждает Гаджиширзи.
Источник.
Источник: