- Ошибки извлечения и хранилище знаний
- Веб-ресурсы без троек
- Основная тема сайта и другие проблемы
- Где граф знаний после Freebase?
- Что за факт, Джек?
- Основанное на знаниях доверие: не весь матч по стрельбе
- Еще одна несовершенная мера доверия или убийца ссылок?
Статья от Хэл Ходсон опубликованный в New Scientist, он выглядит как-то гиперболично: «Google хочет ранжировать сайты на основе фактов, а не ссылок».
Но самый первый абзац исследовательская статья Google цитата, приведенная Ходсоном, показывает, что заголовок был довольно-таки фактическим. Это исследовательское предложение по замене ссылок фактической точностью в качестве средства оценки надежности веб-страницы или веб-сайта.
Качество веб-источников традиционно оценивалось с использованием экзогенных сигналов, таких как структура гиперссылки на графике. Мы предлагаем новый подход, основанный на эндогенных сигналах, а именно правильность фактической информации, предоставленной источником. Источник, имеющий мало ложных фактов, считается заслуживающим доверия.
Я принял первоначальный взгляд на бумаге, под названием «Knowledge-Based Trust: Оценка благонадежности веб-источники», и есть много о нем, это и убедительных и спорном, так как она, а иногда предлагает непреднамеренное понимание других проектов Google и приоритеты.
я бросил мои первоначальные мысли в Google+, и здесь расскажите об этих мыслях и дополните их.
Ошибки извлечения и хранилище знаний
Возможно, неудивительно, что оказывается, что автоматизация процесса извлечения фактов делает его подверженным ошибкам. Они отмечают, что «ошибки извлечения гораздо более распространены, чем ошибки источника. Игнорирование этого различия может привести к неправильному недоверию к веб-сайту».
Веб-ресурсы без троек
Опять же неудивительно, что оказывается, что нехватка данных для ресурса затрудняет оценку этого ресурса (предполагая, что я, возможно, не был полностью не в состоянии говорить о SEO с данными ).
Несколько удивительно то, что, как оказалось, сколько ресурсов имеет так мало извлекаемых троек (и, что интересно, троек, кажется, является мерой того, имеет ли данный ресурс «данные» в глазах хранилища знаний).
Этот [механизм оценки для автоматически извлеченных фактов] может вызвать проблемы, когда данные редки. Например, для более чем одного миллиарда веб-страниц KV может извлечь только одну тройку (другие системы извлечения имеют аналогичные ограничения). Это затрудняет надежную оценку достоверности таких источников.
Но, видимо, они добились прогресса в взломе обоих этих орехов.
Наш основной вклад - более сложная вероятностная модель, которая может различать два основных источника ошибок: неверные факты на странице и неправильные извлечения, сделанные системой извлечения.
Основная тема сайта и другие проблемы
Одной из выявленных областей для улучшений является утвержденная способность идентифицировать основной объект страницы.
Чтобы избежать оценки KBT по темам, не относящимся к теме, нам необходимо определить основные темы веб-сайта и отфильтровать тройки, чья сущность или предикат не имеет отношения к этим темам.
(Кстати, механизм, идентифицирующий основную сущность с использованием schema.org, давно обсуждался, и недавно предложенный .)
В соответствующей заметке говорится, что для того, чтобы «избежать оценки KBT для тривиально извлеченных троек, нам нужно решить, является ли информация в тройке тривиальной».
В целом очевидно, что «недостаточно данных» (недостаточно триплетов) и «слишком много данных» (слишком много триплетов) являются постоянными проблемами на противоположных концах спектра объема данных. Даже если определенная цель улучшения возможностей извлечения приводит к «большему троекратно, они могут вносить больше шума».
Где граф знаний после Freebase?
Я просто упомяну, как и в Google+, что График Знаний не просто полагается на классы Freebase, но точно их копирует.
Мы использовали График знаний Google (KG) (чья схема и, следовательно, набор классов идентичны схеме Freebase), чтобы сопоставить значения ячеек с сущностями, а затем с классами в KG, к которым они принадлежат.
Так что я хочу отметить, что будет интересно посмотреть, как это все работает для Google, когда Freebase закрывается, и Wikidata становится новым BFF Графика знаний. Будут ли классы просто извлечены из Викиданных, как, казалось бы, из Freebase?
Что за факт, Джек?
Первые два предложения реферата замечательны с точки зрения того, что следует, поскольку первое говорит о «фактической информации», а второе - о «фактах», без какого-либо последующего обсуждения того, что составляет «факт».
Мы, однако, имеем это при оценке правильности фактов. Акцент мой.
Мы извлекаем множество фактов со многих страниц, используя методы извлечения информации. Затем мы совместно оцениваем правильность этих фактов и точность источников, используя выводы в вероятностной модели. Вывод - это итеративный процесс, поскольку мы считаем источник точным, если его факты верны, и мы считаем, что факты верны, если они получены из точного источника.
Позже, когда в статье описываются достижения в вероятностном моделировании, проведенные исследованиями, снова делается упор на то, чтобы лучше оценивать достоверность источника.
Это обеспечивает гораздо более точную оценку надежности источника.
Стесняюсь много говорить о Предположение об открытом мире Поскольку я всегда, кажется, ставлю свою ногу на это, когда я делаю, но мне кажется, что это стоит упомянуть в связи с направлением доверия, основанного на знаниях.
Предположение об открытом мире, говорит Хуан Секеда «это предположение о том, что то, что неизвестно, чтобы быть правдой, просто неизвестно», тогда как предположение о закрытом мире «то, что неизвестно, чтобы быть правдой, должно быть ложным».
Он говорит:
Напомним, что OWA применяется в системе с неполной информацией. Угадай, что такое Интернет? Сеть - это система с неполной информацией. Отсутствие информации в Интернете означает, что информация не была сделана явной. Вот почему Semantic Web использует OWA. Суть семантической паутины - возможность вывести новую информацию.
Доверие, основанное на знаниях, несомненно, дает возможность делать выводы. Фактически, сущность того, что предлагают исследователи, - это «способ отличить ошибки, допущенные в процессе извлечения, от фактических ошибок в веб-источнике как таковом, используя совместный вывод в новой многослойной вероятностной модели».
Но полагается ли модель на «точные источники», чтобы определить, является ли что-то фактом, само по себе априорное существование фактически правильных источников, скорее противоречащее предположению об открытом мире? Снова, я, вероятно, положил свою ногу в это, но если Предположение Открытого мира не Слон в комнате здесь этот принцип, кажется, стоит задуматься в отношении доверия, основанного на знаниях, будь то его применение, игнорирование или и то, и другое.
Разумеется, авторы статьи взяли быка за рупор более чем на примере использования гражданства Барака Обамы, поскольку по перевесу ссылок и других сигналов можно было бы неверно оценить, что он был гражданином Кении.
А как насчет иронии, или пародии, или непреднамеренной ироничной самопародии?
Но независимо от того, как подробно описывается метод оценки достоверности ресурса с использованием фактов, в нем не дается прямого решения вопроса о том, с чего начать «факт».
Бернард Ватант прокомментировал что Google передает «(может быть, неохотно) (очень наивное) представление о том, что График Знаний находится в четкой проекции в данных« реальных »четко определенных вещей-объектов-объектов и доказанных (истинных) фактов о них». (Смотрите также последующий обсуждение .)
Он говорит это в отношении основанного на знаниях целевого документа.
Мне кажется, что эта статья, независимо от естественного научного качества и интереса метода и экспериментов - которые, я должен признаться, у меня недостаточно понимания, чтобы провести тщательную оценку, - представляет ту же фундаментальную путаницу, на которую я ранее указывал в презентационной прозе Google Knowledge Graph. Здесь снова значение «фактов» четко не определено и воспринимается как должное.
Если такая терминологическая неопределенность уже граничит с общим распространением и маркетингом концепции графа знаний, это гораздо сложнее признать в контексте научной публикации. Термин «факт», по-видимому, явно используется для обозначения «утверждения», обычно выражаемого как (субъект, предикат, объект) тройной (как в RDF). Но такие выражения, как «правильное значение для факта (например, национальность Барака Обамы)» или «факты, извлеченные автоматическими методами, такими как К.В., могут быть ошибочными», действительно показывают очень слабое использование понятия «правильность» или «правда» применяется к «фактам», которые следует использовать в контексте научной публикации с гораздо большей осторожностью.
Я не чувствую себя достаточно компетентным, чтобы комментировать целесообразность использования в статье слова «факт» в контексте научной статьи, но даже этому относительному непрофессионалу, который говорит о подходе, основанном на «правильности», кажется довольно вопиющим фактической информации "без рассмотрения только того, что составляет" фактическую информацию ", является довольно вопиющей эпистемологической ошибкой упущения.
Основанное на знаниях доверие: не весь матч по стрельбе
Еще одна вещь, о которой следует упомянуть в первом абзаце статьи, который упоминался выше, заключается в том, что в нем говорится об использовании ссылок для оценки « качества веб-источников» (выделено мной).
Поэтому я не думаю, что авторы предположили, что ссылки не могут быть использованы для оценки веб-ресурсов, только то, что KBT должен заменить их в качестве механизма для веб-качества. Они все еще могут, например, использоваться для оценки релевантности или свежести, или степени вирусности.
И это, конечно, не говорит о том, что другие факторы не должны приниматься во внимание при ранжировании веб-ресурсов в результатах поиска. Действительно, авторы рано подчеркивают, что «достоверность источника предоставляет дополнительный сигнал для оценки качества веб-сайта», и обсуждают «новые исследовательские возможности для его улучшения и использования в сочетании с существующими сигналами, такими как PageRank».
Таким образом, даже если в полной мере использовать Google Knowledge-Based Trust, это никогда не будет полным перестрелкой.
Как следует из названия « Доверие на основе знаний», которое в статье описывается как «показатель достоверности », механизм оценивает, насколько можно доверять ресурсу, и существует гораздо больше типов оценок, чем надежность. когда поисковая система предоставляет ответ на запрос.
Нельзя сказать, что достоверность сама по себе не может быть или определяющим фактором того, что Google отвечает на запрос.
Разумеется, в соответствии с общепринятым мнением SEO, что ссылки являются или являются определяющим фактором того, что Google отвечает на запрос, поэтому, если справедливость ссылок будет вытеснена фактической точностью - PageRank от KBT, - тогда мы должны учитывать знание. Доверие как очень влиятельный сигнал.
Еще одна несовершенная мера доверия или убийца ссылок?
Я вполне могу представить ответ многих на это предложение: мы все можем видеть, что Google иногда смешивает свои факты в ответ на запрос, поэтому безумие оценивать веб-ресурсы на основе фактической точности, когда Google фактически неточен. Или то, что Google слишком полагается на некорректную Википедию для извлечения фактов и проверки фактов, так что искажается в пользу предвзятости или недостатков, очевидных там.
Это верные аргументы в отношении методологии, и я, конечно, чуть выше я высказал возражения против легкомысленного предположения о том, что факт является очевидным.
Но факт (ха) в том, что оценка ресурсов на основе гиперссылок сама по себе не отражает объективную реальность. Он подвержен ошибкам, подвержен играм и является собственным особым брендом субъективности.
Будет ли полагаться на кажущуюся правдивость, а не на кажущуюся популярность веб-страницы или веб-сайта, привести к лучшим результатам в Интернете?
Очевидно, мы не узнаем, пока не сможем сравнить эти результаты. Но несмотря на все разговоры о том, что Google в один прекрасный день может больше не полагаться на ссылки, это редкий серьезный взгляд на то, как Google может на самом деле прийти к такому будущему.
Что за факт, Джек?Где граф знаний после Freebase?
Будут ли классы просто извлечены из Викиданных, как, казалось бы, из Freebase?
Что за факт, Джек?
Угадай, что такое Интернет?
А как насчет иронии, или пародии, или непреднамеренной ироничной самопародии?
Еще одна несовершенная мера доверия или убийца ссылок?
Будет ли полагаться на кажущуюся правдивость, а не на кажущуюся популярность веб-страницы или веб-сайта, привести к лучшим результатам в Интернете?