に投稿

AI導入時陥りやすい失敗

ディープラーニングのプロセスを進めていく中で、「ディープラーニングの闇」という言葉がよく使われます。何かといえば、AI導入・運用が失敗に陥りやすい、逆にいえばここをうまく克服すれば成功させられるポイン卜があります。「データの取得」では、とにかく大量のデータが必要です。このとき、APIや負荷分散の仕組みがないと、大量のデータが一度に送られてしまって、エラーが起きます。また、システムとして使っている以上、セキュリティの担保も必要です。次の「データの蓄積」という観点では、データウェアハウスを用意して、テラ級、ペタ級のどんなに巨大なデータであっても溜められる状況をつくっておく必要があります。次が「データの確認」で、データフォーマットの正確性の確認です。「こういうデータを送ってください」と事前に打合せをしておきますが、入力の部分でフォーマット形式が違うものが来ると、たとえば画像でJPEG形式の予定だったものがPNG形式で来るとか、画素数もある範囲内で合っていないと、出力がむずかしくなります。

に投稿

教師データの作成~再学習

AI導入のサブプロセスの中間に位置する、「❹教師データの作成」では、アノテーションと呼ばれる、手入力で「タグ付け」作業を行ないます。ディープラーニングの場合にはそれこそ1万枚とか2万枚など、かなりの枚数が必要です。そうすると、教師データの作成のための人集め(海外含む)も必要ですし、作業を効率化するためのツールがないと大変厳しいことになります。PaaS(Platform as a Service)を導入しようとする企業の場合、社内で手入力でタグ付けをしようとして行き詰まったり、諦めたりするケースもあります。アノテーションのアシストツールを開発しているAI企業もありますので、誰が入力するのか(別に入力部隊がいるのか)、外注するときはその予算を取ってあるか、アシストツールはあるのか。その辺のことはAI企業を選択するときの判断材料の一つになりますので、きちんと確認しておいたほうがよいでしょう。そうでないと、高給取りのエンジニアがカチカチと一人でタグ付け作業をすることになります。また、アノテーションの精度も重要です。アノテーションを頼りにモデルを学習させることになるためアノテーションが正しくないとモデルの精度は高くなりません。アノテーションはAIの自動化イメージとはほど遠いアナログの人海戦術の世界です。しかし、越えなければならないプロセスでもあります。次に、「❺モデルの設計」ですが、ここはかなり専門的な人材を必要とします。「こういうケースなら、4層か5層のニューラルネットワークを使えばいい」とか、「もっと複雑なものを使うほうがいい」と判断できるような人材がいない限り、イチからモデル設計をするのは、相当ハードな話になります。「❻学習」も同様です。GPUの環境の準備、仮想化、分散など、それぞれ技術的な話ですが、これらができるかどうか。どのモデルを使ってどういう結果が出てきたかということを、すべてバージョンごとに管理する必要があります。どのデータで試したとき、どうなったかが不明になると、データ量が多いだけにカオス状態に陥ります。次の「❼デプロイ」は、学習から推論に引き渡していくフェーズです。そういうと簡単そうですが、実は、環境の異なる本番環境に、学習のフェーズでつくったモデルだけを引き渡す作業は、技術的にかなり高度です。最終的に「❽推論していく場合には、冗長性やGPUリソースの担保の問題があります。また、クラウドでなくエッジ側(現場)で動かす場合には、どのようにしてエッジ側にそのシステムをもっていくのかという連係も課題です。「冗長性の担保」というのは、予備システムのことです。一つの推論システムだけで動かしていると、何らかの不具合で止まったときに困ります。最低限、二つの推論システムを同時に運用するということです。GPUのリソースも推論用に確保できていなければ問題です。エッジ側に推論システムを置く場合、常にクラウド側から運用状況を監視しておく必要があります。検査などの推論システムが止まると、たとえば工場の製造ラインも止めざるを得ず、そうすると1時間で数億円の損失になる、といったケースも珍しくありません。それらをきちんと監視する必要があります。❾再学習のプロセスに関しても、環境の変化で精度が下がってしまうおそれがあるので、どのタイミングで再学習を行なうのか、この辺もむずかしい判断が求められます。ただ、再学習を行なう場合でも、パージョン管理が正しくできていないと❾再学習の方針を決めることができません。ですから、このパージョン管理は後の工程にも影響を及ぼす大事な作業です。

に投稿

強調スニペットの増加

SEOの進化は止まるところを知らず、日々動きを見せています。私もグーグルのリエゾンの発言には気を付けており、2019年に発表された「3200件を超えるアップデート」には驚かされました。SEOの専門家として企業のマーケティング部門と話をすると、決まってSEOの抽象化が話題になります。SEOの意味が急速に変わっていることは確かで、もはや順位の意味が消失していると言っても過言ではありません。それは強調スニペットの増加やリッチリザルトの重視にも見られるので、気が付いている人は賛同してくれるでしょう。クリック数は一つの指標に過ぎないのです。もちろんこうした動きをSEOの技術者も把握しています。ここでは2019年の注目すべき変化を見ていくことにします。まず誰の目にも明らかだったのは、検索結果画面が変わったことでした。前述したように強調スニペットは増えましたし、リッチリザルトも多様化しました。いわゆる仕事検索ではデザインが変わりました。またディスカバーやアシスタントといった機能が検索エンジンとは関係ない分野で活躍し始めました。これはグーグルが単なる順位付け屋ではなくなり、複雑なマーケティングの中に投げ込まれたことを意味しています。筆者にとって興味深いのは、リッチリザルトのリニューアルによって、我々の対応はどう変わるのかという問題です。とりあえず今のリッチリザルトを見てみると、30種類くらいが存在しています。内訳は、FAQ、求人情報、商品、レシピ、イベント等です。中でもFAQは我々の頭を悩ませました。確かにユーザーのために導入すべきだとは思うのですが、サイトのトラフィックにつながらないという問題で躓いたのです。問題はそればかりではありません。ユーザーの好みを検索行動から読み取り、検索結果以上の答えを用意するグーグルディスカバーについても、どう対処すればよいのか分かりませんでした。例えば急にサイトのPVが増えたのですが、ディスカバーが関係していました。グーグルの幅はどんどん広がっており、それは画像検索にも見られます。画像検索は純粋な検索機能だけでなく、グーグルフォトやグーグルレンズアプリの影響を受けた自然検索を有するようになったのです。どういうことかというと、グーグルレンズは被写体を判断するAIなのですが、写真に含まれるあらゆるアイテムを識別し、それらを特定してしまうのです。これはよく似た商品をリスティングすることになるのですが、その影響を測りかねているのです。

に投稿

Webサイトレイアウト「ユーザー・ビュー」

ウェブサイトを運営する中で、お気をつけていただきたいのが、コンテンツが増えるにあたって、情報量が増えてくるための対処法です。

情報量が増えるということは、ユーザーたちが、皆さんのサイトを訪れた時に、迷子になってしまう可能性があるということです。

サイトのトップページでは、様々な情報が得られるということをアピールしたいのはもちろんですが、何よりもシンプルかつ、単純に、ユーザーたちが、このサイトはどんなサイトであるのかということを端的に把握できることが、何よりも重要だと言われています。

また、皆さんがネット上で自社プロデュースする製品を販売されたいと言うのであれば、 Web サイトに訪れてくれたお客様に対して、接客から営業までを行わなくてはならないのです。

競合するライバルサイトなどのレイアウトを参考に、皆さんの Web サイト運営について、見直しされるのも良いかもしれませんね。

ライバルサイトとの差別化も、WebサイトレイアウトをSEOに活かすには重要なポイントです。

また、SEO などの対策においてもお客様が出来る限り長く滞在していただけるサイトの構築などが重要視されているようです。

             

に投稿

時代とともに検索エンジンの変化

以前の検索エンジンでは、コンテンツの内容が「質」として薄っぺらいものであったとしても、単純に、その検索キーワードを用いることで、比較的安易に検索エンジンに表示される検索結果順位を上位にすることができたようです。

当時はユーザーを無視したような SEO が普及していたようですが、現在では、何よりもユーザーを主体とした検索エンジンの機能を重要視しているようです。

さらに現在においては、SEO を意識した薄っぺらなサイトは、迷惑行為として除外されてしまうようなことになっているようです。

実際に、このような迷惑行為を行っているようなサイト自身は、質の低いコンテンツを大量に含むサイトとして、検索結果から除外されてしまうようなこともあるようです。

現在では、ユーザー主体の検索エンジンとして質の良いコンテンツや、皆さんが必要としている Web サイトが、必然的に上位に表示されるようになっているようです。

何よりもユーザーが知りたい調査したいと言ったような情報を、きちんと伝えられる検索エンジンとして、世界中の人々に必要とされています。

             

に投稿

SEOとクローラの挙動について

robots.txtを作成したら、間違って重要なページがブロックされていないかどうか必ずチェックすべきです。

クローラの挙動をチェックするには、文法チェックで問題がないことを確認したら、テストをします。特定のクローラを禁止すべきケースもあります。

想定されるケースとして個人のブログなどです。投稿記事の中でも、プライベートな写真といった画像を画像検索結果に表示されたくないといった場合です。グーグルにも画像検索結果への表示を止めることもできます。

各種SEOツールなどで、クロールして情報を取得するサービスはたくさんあります。クローラの一部には、高い頻度でアクセスするものもあるといいます。

ウエブサイトである程度ページ数があると、悪質なクローラのアクセスでサーバー負荷が高まったりもします。サーバーの処理が追いつかないためにレスポンスが遅くなったりもしますし、サーバーがダウンするというような最悪なことになりかねません。一般のユーザーに迷惑がかかるので、対応しなければなりません。

robot.txtで、アクセス負荷が高く、クロールさせる必要がないとクローラをアクセス禁止をするとよいでしょう。robot.txtは誰でもみることができます。管理者用ページなどセキュリティのあるURLには記述してはいけません。さらに外部から閲覧されたくないというページには、サーバー側でアクセスを制限するべきです。

また、robot.txtは、クローラのアクセス禁止だけではなくて、XMLサイトマップの置き場所を知らせて、クロールを促すということも可能となります。

他社のrobots.txtを実際に閲覧して参考にするのもよいでしょう。

             

に投稿

SEOと構造化タグで示す文書構造

人間が「Tシャツ」という単語を見ると、それが洋服であると感じますし、半袖や綿素材ということを想起したりします。

これは「Tシャツ」というものの概念を理解しているからといえます。

けれど、コンピューターは「Tシャツ」というのは文字の並びとしか認識できません。これでは本当の意味の情報整理ができないといえます。グーグルの検索エンジンの開発におけるミッションというのがあります。それは「世界中の情報を整理し、世界中の人々がアクセスできてつかえるようにする」ことだといいます。そういうことで、情報を整理するのに、それぞれのデータをコンピューターでも理解できる形で記述することが求められるのです。

そこで「構造化タグ」「構造化マークアップ」というものが登場しました。

構造化タグを利用する時に、間違いや混乱が発生しやすいといいます。文書構造を意識するということは、ユーザーにも理解しやすいコンテンツを作るということに結果的に繋がります。コンテンツの作成時には文書構造を意識するように常に意識するべきです。構造化マークアップを利用するとより高い検索結果を返し、ユーザーは探したいページを簡単に見つけることができるようになります。

構造化マークアップというのは、要素に意味を付与することです。

例えば、お菓子が「ふわふわねじねじ」という名称の商品が発売されたとして、コンピューターは大工道具の「ねじ」として認識するかもしれません。そういったことを防ぐために、未知の「ふわふわねじねじ」を食べ物であるということをコンピューターに正しく認識させます。

構造化マークアップは検索結果に反映され、クリック率の上昇などSEO効果が高いといえます。