2020年9月10日にGoogle公式サイト上で「Googleはどのようにして信頼性の高い検索結果を提供しているのか?」”How Google delivers reliable information in Search”というレポートが発表されました。
この発表は、Google公式サイト(https://blog.google/products/search/)で発表されたGoogleの中でも公式性が高い情報です。

公式サイトは英文ですので、ざっくりとですがどのような内容が書かれているのか、そして私たちにどのような影響があるのかを解説したいと思います。

誤った情報を提供しないための3つのアプローチ

このレポートでは、Googleは検索したユーザーに誤った情報を提供しないように3つのアプローチをとっていると言っています。

  1. 検索ユーザーにとって有益で信頼があると思われる情報を見つけてもらえるランキングシステムをデザインするようにしています。
  2. そのようなことを実現するために、情報を理解するのに役立つサイトだけでなく、保健機関や政府機関のようなオーソリティーのサイトに直接アクセスできるようにする数多くの検索機能も開発しました。
  3. 高品質で役立つコンテンツを表示するために、検索機能に表示できる内容に関するポリシーを掲げてます。

この3つのアプローチにより、検索の品質を継続的に改善し、水準を上げ、世界中の人々に信頼されるような経験を提供する、としています。

今回はその中で最新のAIの技術によって、この3つのアプローチがどのように行われているのかを解説します。

高度な人工知能であるBERTを使った言語解析機能により、スペルミスや、同義語を理解するようになっている

BERTとは?
BERTとは、Bidirectional Encoder Representations from Transformers の略で、「Transformerによる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルです。翻訳、文書分類、質問応答など自然言語処理の仕事の分野のことを「(自然言語処理)タスク」と言いますが、BERTは、多様なタスクにおいて当時の最高スコアを叩き出しました。
BERTの特徴として「文脈を読むことが可能になった」ことを挙げられます。BERTにはTransformerというアーキテクチャ(構造)が組み込まれており、文章を双方向(文頭と文末)から学習することによって「文脈を読むこと」が実現しました。

Googleは、2019年末よりこのBERTというAI技術を使った言語解析機能の導入により検索の精度を高めていると発表しています。

このAIでの解析により、例えば「印鑑」というキーワードで上位表示を目指す際にページ内に何度も何度も印鑑という言葉を書かなくても、「はんこ」、「ハンコ」、「印」、「実印」、「会社印」、「シャチハタ」という言葉を書けばそのページのテーマは「印鑑」だということを類義語機能によって認識できるようになったということになります。

AIを使っても、誇張された言語や画像、不正確、低品質、または無益な言語や画像までは理解出来ない

これは、逆に考えると「誇張されておらず、正確で、高品質、有益なテキスト・画像は理解できる」ということになります。
文字情報はもちろんですが、ページに配置する画像についても内容に関連があるものである必要があるということです。
検索順位への貢献だけでなく、クリック率や直帰率の低下などへの貢献効果も画像にも気を配っていきたいものです。

まとめ

AIの進歩は検索エンジンにも大きな影響を与えています。つまるところ、ホームページの運営にも大きな影響を与える要素となってきています。

文章については、類義語が理解できるようになったことになりますので、「正確で有益な情報ならば」キーワードを過剰に意識することなく、自然な文面を認識してくれるようになったことになります。
一方で、画像については、上位表示を狙っている検索キーワードと関連性が高い画像を多く配置しているとより評価が高まる可能性が出てきています。(素材集ではなく、オリジナルの画像が評価されるようです)

次回は、このレポートに書かれている内容の続きを解説したいと思います。