Всего за несколько лет алгоритмы глубокого обучения развились настолько, чтобы побеждать чемпионов по настольным играм и узнавать лица с той же точностью, что и люди (или даже лучше). Одна из самых тяжелых задач для искусственного интеллекта — разобраться в тонкостях человеческого языка. Вот как ее решают.
Языковой барьер: как и зачем ИИ учится понимать человека
Елена Лиханова
Если компьютеры смогут понимать все человеческие языки, это полностью изменит наше взаимодействие с брендами, бизнесом и организациями по всему миру. Сейчас у большинства компаний просто нет времени на то, чтобы ответить на каждый вопрос клиента. Но представьте, что бизнес действительно слушал бы нас, понимал и был готов помочь в любое время и через любые каналы связи.
Питер Бутенирс из Sinch рассказывает, что его команда в сотрудничестве с самым инновационными организациями и их экосистемами технологических платформ уже пытается решить проблему. Однако до того, чтобы алгоритмы могли общаться со всеми клиентами одновременно, еще далеко.
Только в 2015 году был создан алгоритм, который может распознавать лица с точностью, сравнимой с человеческой.
Точность распознавания лиц у человека — 97,5%, у алгоритма Facebook DeepFace — 97,4%, у аналогичной программы ФБР — всего 85%.
Алгоритм ФБР был разработан вручную командой инженеров. Каждая особенность, например размер носа и относительное расположение глаз, была запрограммирована вручную. В свою очередь, программа Facebook работает с изученными функциями. Она использует специальную архитектуру глубокого обучения, которая называется CNN (convolutional neural network, свёрточная нейронная сеть) и имитирует, как разные слои нашего зрительной коры обрабатывают изображения. Мы точно не знаем, как мы видим, и алгоритм изучает связи между этими слоями.
Facebook удалось это сделать благодаря двум компонентам:
-
архитектуре, которая способна обучаться,
высококачественным данным, размеченным миллионами пользователей, которые указывали своих друзей на фотографиях.
Трудности перевода
Благодаря эволюции зрение имеют миллионы различных видов, но с речью все сложнее. Насколько мы знаем, человек — единственный вид, который общается с помощью сложного языка.
Менее десяти лет назад, чтобы понять содержание текста, алгоритмы искусственного интеллекта могли только считать, как часто встречаются определенные слова. Но этот подход игнорирует существование синонимов и тот факт, что некоторые слова имеют смысл только в определенном контексте.
В 2013 году Томас Миколов и его команда в Google обнаружили, как создать архитектуру, способную изучать значение слов. Их алгоритм word2vec сопоставлял синонимы и мог моделировать такие значения, как размер, пол, скорость, и даже изучать функциональные связи, например страны и их столицы.
Однако алгоритм не учитывал контекст. Настоящий прорыв в этом направлении произошел в 2018 году, когда Google представил модель BERT. Джейкоб Девлин и его команда переработали архитектуру, обычно используемую для машинного перевода, и заставили ее изучать значение слова по отношению к его контексту в предложении.
Научив модель заполнять недостающие слова в статьях «Википедии», команда смогла встроить языковую структуру в модель BERT. С ограниченным количеством качественно размеченной информации они смогли научить модель выполнять самые разные задачи — от поиска правильного ответа на вопрос до понимания смысла предложения. Они были первыми, кто по-настоящему определил две основы для понимания языка: правильную архитектуру и большое количество высококачественных данных для изучения.
В 2019 году исследователи из Facebook смогли улучшить результат. Они обучали модель, похожую на BERT, на более 100 языках одновременно. Она была способна изучать задания на одном языке, например английском, а затем использовать информацию для вопрос на любом другом — арабском, китайском или хинди. На языке обучения у нее та же производительность, что и у BERT.
Все эти методы впечатляют, но в начале 2020 года исследователи из Google наконец-то смогли обойти человеческую производительность в широком спектре задач по пониманию языка. Google довел архитектуру BERT до предела, обучив гораздо большую сеть еще большему количеству данных. Теперь модель T5 справляется с разметкой предложений и поиском правильных ответов лучше, чем люди. Языковая агностическая модель mT5, выпущенная в октябре, почти так же хорошо переключается с одного языка на другой, как билингвы. Но она может делать это с более чем 100 языками одновременно. А модель с триллионом параметров, недавно анонсированная Google, делает ее еще больше и мощнее.
Новые возможности
Представьте себе чат-ботов, которые могут понять ваши сообщения, какой бы язык вы не использовали, Они действительно поймут контекст и вспомнят прошлые разговоры. Все это время вы будете получать ответы — уже не общие, а по существу.
Поисковые системы смогут понять любой ваш вопрос. Они дадут правильные ответы, и вам даже не придется подбирать ключевые слова. У вас появится коллега с искусственным интеллектом, который знает все, что нужно о процедурах вашей компании. Больше никаких очевидных вопросов от клиентов. И коллеги больше не будут удивляются, почему пользователи не читали все документы.
Наступит новая эра баз данных. Больше не придется наводить в них порядок. Любая памятка, электронная почта и отчет будут автоматически распознаны, сохранены и проиндексированы. Больше не нужно будет просить ИТ-отдел запускать запросы, чтобы подготовить отчет. Достаточно сказать базе данных, что нужно.
И это только верхушка айсберга. Любая процедура, которая все еще требует от человека понимания языка, теперь кардинально изменится или будет автоматизирована.
Цена вопроса
Здесь есть подвох. Почему эти алгоритмы не используются повсеместно?
Обучение алгоритма T5 с помощью облачных вычислений обойдется примерно в $1,3 млн.
К счастью, исследователи из Google были достаточно любезны, чтобы поделиться этими моделями. Но эти модели нельзя использовать для чего-то конкретного, не настроив их на конкретную задачу. Так что даже это будет дорого стоить. И как только вы оптимизировали эти модели для вашей конкретной задачи, они по-прежнему требуют больших вычислительных мощностей и длительного времени для выполнения.
Со временем, по мере того как компании инвестируют в тонкую настройку, будут появляться приложения с ограниченными возможностями. И, если мы доверяем Закону Мура, мы могли бы увидеть более сложные приложения примерно через пять лет. Но появятся и новые модели, которые превзойдут алгоритм Т5.
В начале 2021 года мы как никогда близки к самому значительному прорыву в ИИ и бесконечным возможностями, которые он откроет.
Источник.
Источник: