メインコンテンツにスキップ
ブログデータベースデータの山:ビッグとスモール、そしてワイド

データの山:ビッグとスモール、そしてワイド

データの山:ビッグとスモール、そしてワイド

テック業界の方なら(おそらくそうでない方も)、人工知能 についてよく 耳にするようになりました。私たちが長年楽しんできたSFの「スカイネットが地球を支配する」的な人工知能 のことではなく、人工知能や機械学習の日常生活における実用化についてです。

人工知能/MLの生命線であり糧となるのは、ビッグデータです。巨大なデータ。膨大な量のデータ。それとも、そうなのだろうか。ビッグデータは今日の人工知能/MLを支えるエンジンである。私たちは常に大量のデータを必要としているかもしれないが、近年、組織はビッグデータからスモール&ワイドへとシフトし始めたのである。 

この2つを比較してみましょう。

データ量の多さ 

ビッグデータは2つに分けられる。

1つ目は、大規模なデータセットを収集・整理することです。これはシンプルなコンセプトですが、うまく実行するのは困難です。このプロセスには、大量のデータが素早く入力され、通常は非構造化データが必要です。このデータストリームに対応するためのバックエンドインフラ は、ネットワーク帯域幅、ストレージスペース、大規模なデータベース展開をサポートする処理能力を必要とし、リソースを集約します。そして、高価です。

2つ目の方法は、より厄介です。膨大なデータの山を手に入れたら、そこから洞察と価値を引き出す必要があります。ビッグデータのサイズに対応するために技術は進化してきましたが、これらの情報の山から何を導き出すかについては、あまり進歩していません。

このようなときこそ、より賢くなるチャンスなのです。無限のストレージスペースと完璧なNoSQLの導入が可能な環境であっても、それに見合った適切なモデルがなければ、世界中のすべてのデータは意味を持ちません。 

ここにもチャンスがあります。企業は、より多くのソースからのより少ないデータがより実用的であるユースケースを見つけ、データセットからより良い結論と相関性を引き出しています。

スモール&ワイド

スモール&ワイドのアプローチでは、より多様なソースに目を向け、相関関係を探し、生の量を増やすだけではありません。このような戦術的なアプローチでは、必要なデータ量が少ないため、コンピューティングリソースも少なくて済みます。バラエティが重要であり、スモール&ワイドとは、構造化、非構造化など多様なデータ形式を探し、それらの間のリンクを見つけることを意味します。

2021年のガートナーのレポートによると、"スモールデータとワイドデータを活用できる可能性のある分野は、小売業における需要予測、超パーソナライゼーションに適用される顧客サービスにおけるリアルタイム行動・感情知能、顧客経験改善 "とあります。

多くの可能性を秘めていますが、実際にはどうなのでしょうか。膨大なデータセットは、すぐに扱いにくくなったり、古くなったりすることがあります。人間の傾向や行動は、文化や経済の変化に左右されやすい情報化時代において、急変する可能性があります。このような変化に動的に対応できるような、より小さなデータセットを使った俊敏なモデルを作る余地があるのです。

ハーバード・ビジネス・レビューのレポートによると、「組織で最も価値のあるデータセットの多くは非常に小さく、エクサバイトではなくキロバイトやメガバイトと考えてください。このようなデータは、ビッグデータのような量と速度がないため、見過ごされがちで、PCや機能的なデータベースに滞留し、企業全体のIT革新イニシアチブとは無縁のものとなっています。

このレポートでは、彼らが医療コーダーを対象に行った実験が紹介されており、スモールデータを使ったトレーニング人工知能 、人間的な要素を浮き彫りにしています。この研究に目を通すことをお勧めしますが、最終的な結論は、小さなデータに加え、人間の要素を考慮することで、モデルを改善し、ビッグデータの軍拡競争において組織に競争優位性を与えることができるというものでした。

つまり、スモールデータ、ワイドデータ、スマートデータを勝ち組とする話です。

結論の導き方

これらのことは何を意味するのでしょうか。このテーマについては、これまでにも何冊もの本が出版されていますが、ここでは、簡単に、全体像を把握することで、そのメッセージを読み取ってみましょう。私は、自宅オフィスの暖房器具として十分な強度とパワーを備えたPCを愛用していますが、「もっと」という言葉には限度があります。あるソフトウェアは、たとえ最高級のワークステーションであっても、最適化が不十分で、ひどい動作をすることがあります。 

多くの場合、問題に多くのリソースを投入することは非現実的であり、真の問題を見落とすことになります。多くの場合、改善するための大きなチャンスがあり、これは今日のビッグデータで見られるようになったことです。しかし、データを最大限に活用するためのモデルを設計することも重要であり、単にデータを多く持つための方法を設計するのではありません。

コメント 

コメントを残す

あなたのメールアドレスは公開されません。必須項目には*印がついています。