Wikimedia сделала данные Википедии более удобными для искусственного интеллекта
В Германии представили новый проект, который позволит системам искусственного интеллекта легче работать с Википедией и Викиданными. Благодаря семантическому поиску почти 120 миллионов записей теперь можно будет находить по смыслу, а не только по ключевым словам, пишет УНН со ссылкой на TechCrunch.
Детали
"Система под названием "Проект встраивания Wikidata" применяет векторный семантический поиск - технику, которая помогает компьютерам понимать значение и связи между словами - к существующим данным в Википедии и ее сестринских платформах, состоящих из почти 120 миллионов записей", - пишет издание.
В сочетании с поддержкой нового протокола контекста модели (MCP) - стандарта, который позволяет системам искусственного интеллекта эффективнее работать с источниками данных, - "проект открывает возможность выполнять запросы на естественном языке непосредственно к LLM". Инициативу, как указано, реализовало немецкое отделение Wikimedia в сотрудничестве с компанией нейронного поиска Jina.AI и DataStax, специализирующейся на технологиях обработки данных в режиме реального времени.
Как это работало раньше
Викиданные годами предлагали машиночитаемые данные из ресурсов Викимедиа, но предыдущие инструменты позволяли только поиск по ключевым словам и запросы SPARQL - специализированный язык запросов. Новая система будет лучше работать с системами дополненного поиска (RAG), которые позволяют моделям искусственного интеллекта получать внешнюю информацию, предоставляя разработчикам возможность базировать свои модели на знаниях, проверенных редакторами Википедии.
Данные также структурированы таким образом, чтобы обеспечить важный семантический контекст. Например, запрос к базе данных по слову "ученый" выдаст списки выдающихся ученых-ядерщиков, а также ученых, работавших в Bell Labs. Также есть переводы слова "ученый" на разных языках, изображения ученых за работой и лиц, связанных с понятиями "исследователь" и "научный сотрудник".
Суть нового проекта
Новый проект появляется на фоне того, что разработчики искусственного интеллекта пытаются найти высококачественные источники данных, которые можно использовать для точной настройки моделей. Сами обучающие системы стали сложнее - часто они собираются как сложные обучающие среды, а не как простые наборы данных, но для надлежащего функционирования они все еще нуждаются в тщательно отобранных данных.
Для систем искусственного интеллекта, требующих максимальной точности, потребность в проверенных и надежных данных особенно остра. И хотя Википедию иногда недооценивают, ее информация значительно более фактологически ориентирована, чем общие массивы данных вроде Common Crawl - огромной подборки веб-страниц со всего интернета, говорится в публикации.
Впрочем, поиск качественных данных может иметь высокую цену для лабораторий ИИ. Так, в августе компания Anthropic согласилась урегулировать иск группы авторов, чьи произведения использовались в качестве учебных материалов, и выплатить 1,5 миллиарда долларов, чтобы избежать дальнейших претензий.
Руководитель проекта Wikidata AI Филипп Сааде в заявлении для прессы подчеркнул независимость инициативы от крупных ИИ-лабораторий и технологических корпораций.
Запуск этого проекта Embedding Project показывает, что мощный искусственный интеллект не обязательно должен контролироваться горсткой компаний. Он может быть открытым, совместным и созданным для обслуживания всех