Everything You Ever wanted to Know About Computer Vision.

Here’s A Look Why It’s So Awesome.は、コンピュータビジョンについて知りたかったことのすべてです。
The Evolution Of Computer Vision
How Long Does It Take To Decipher An Image
CV In Self-Driving Cars
CV In Facial Recognition
CV In Augmented Reality & Mixed Reality

Here’s A Look Why It’s So Awesome.は、コンピュータビジョンについて知りたかったことのすべてです。

最も強力で魅力的な AIの種類の1つはコンピュータビジョンで、あなたはほとんど知らないうちにいろいろと体験していると思われます。ここでは、コンピュータービジョンとは何か、どのように機能するのか、そしてなぜそれほどまでに素晴らしいのか (そして、さらに良くなっていくのか) を見ていきます。

コンピュータービジョンは、人間の視覚システムの複雑さの一部を再現し、人間と同じように画像やビデオ内のオブジェクトをコンピューターで識別および処理できるよう、コンピューターサイエンスの一分野として焦点をあてています。最近まで、コンピュータービジョンは限られた能力でしか機能しませんでした。

人工知能の進歩とディープラーニングやニューラルネットワークの革新により、この分野は近年大きく飛躍し、物体の検出やラベル付けに関するいくつかのタスクで人間を超えることができるようになりました。

コンピュータービジョンの成長の原動力の 1 つは、今日私たちが生成する大量のデータで、それをトレーニングしてコンピュータービジョンをより良いものにするために使用します。

YOLO Multi-Object Detection And Classification

膨大な量の視覚データとともに（毎日 30 億枚以上のイメージがオンラインで共有されています）、そのデータを解析するための演算能力も手に入れられるようになりました。コンピュータービジョンの分野が新しいハードウェアとアルゴリズムで成長するにつれ、オブジェクト識別の精度も向上してきました。コンピュータビジョンの初期の実験は 1950 年代に始まり、1970 年代にはタイプされたテキストと手書きのテキストを区別するために初めて商業的に使用されましたが、今日では、コンピュータビジョンのアプリケーションは飛躍的に成長しています。

2022 年までに、コンピュータービジョンとハードウェアの市場は 486 億ドルに達すると予想されます

神経科学と機械学習の両方における主要な未解決問題の 1 つは、人間の脳は一体どのように機能しているのか、そして、独自のアルゴリズムでそれをどのように近似できるのか、ということです。したがって、ニューラルネットは「脳の働き方を模倣する」とされていますが、それが実際に正しいかどうかは誰にもわかりません。

同じパラドックスがコンピュータービジョンにも当てはまります。つまり、視覚データを理解する方法をコンピュータに訓練させる1つの方法は、ラベル付けされた何千、何百万もの画像を送り、それらをさまざまなソフトウェア技術、つまりアルゴリズムにかけることです。

たとえば、コンピュータに猫の画像を 100 万枚与えると (私たちは皆、猫が大好きです😄😹)、コンピュータはそれらすべてをアルゴリズムにかけ、写真の色、形、形同士の距離、オブジェクトが互いに接している場所などを分析して、「猫」が意味するプロファイルを識別することができるようにします。それが終わると、コンピューターは (理論的には) 他のラベルのない画像を与えた場合の経験を使用して、猫の画像を見つけることができます。

私たちのふわふわした猫の友人はちょっと横に置いておいて、もっと技術的に話をしましょう🤔😹。以下は、エイブラハム・リンカーンの画像を保存するグレースケールイメージバッファの簡単な図解です。各ピクセルの明るさは、0 (黒) から 255 (白) までの 8 ビット数値で表されます。

ピクセルデータダイアグラム。左はリンカーンの画像、中央は明るさを表す 0 ～ 255 の数字が付いたピクセル、右はこれらの数字そのものです。

深層学習は機械学習を行う上で根本的に異なるアプローチを提供しました。ディープラーニングは、例によって表現可能なあらゆる問題を解決できる汎用関数であるニューラルネットワークに依存しています。ニューラルネットワークに、特定の種類のデータのラベル付けされた多くの例を与えると、それらの例間の共通のパターンを抽出し、将来の情報の断片を分類するのに役立つ数式に変換することができます。

たとえば、深層学習で顔認識アプリケーションを作成するには、あらかじめ構築されたアルゴリズムを開発または選択して、検出すべき人物の顔の例でそれを訓練するだけです。十分な例 (たくさんの例) があれば、ニューラルネットワークは、特徴や測定値についてさらなる指示がなくても顔を検出できるようになります。

ディープラーニングは、コンピュータービジョンを行うための非常に効果的な方法です。ほとんどの場合、優れた深層学習アルゴリズムを作成するには、ラベル付けされた学習データを大量に集め、ニューラルネットワークの種類や層の数、学習エポックなどのパラメーターを調整することに尽きます。以前のタイプの機械学習と比較して、深層学習は開発と展開が簡単かつ迅速です。

Most of current computer vision applications such as cancer detection, self-driving cars and facial recognition makes use of deep learning.がん検知、自動運転車、顔認識など、現在のコンピュータービジョンアプリケーションのほとんどは、深層学習を利用しています。ディープラーニングとディープニューラルネットワークは、ハードウェアとクラウドコンピューティングリソースの利用可能性と進歩のおかげで、概念的な領域から実用的なアプリケーションへと移行しました」

How Long Does It Take To Decipher An Image

In short not much. これが、コンピュータビジョンがスリリングである理由の鍵です。以前は、スーパーコンピューターでさえ、必要なすべての計算を完了するのに数日、数週間、あるいは数か月かかったかもしれませんが、今日の超高速チップと関連ハードウェア、および高速で信頼できるインターネットとクラウドネットワークにより、プロセスが非常に高速になりました。もう 1 つの重要な要因は、AI 研究を行っている多くの大企業が、Facebook、Google、IBM、Microsoft など、特に機械学習の一部をオープンソース化することによって、その研究を共有しようとする意欲があることです。その結果、AI 産業はどんどん発展し、少し前まで数週間かかっていた実験が、今では 15 分で終わるようになりました。また、コンピュータービジョンの多くの実世界のアプリケーションでは、このプロセスはすべてマイクロ秒単位で継続的に行われるため、今日のコンピューターは科学者が「状況認識」と呼ぶものを実現することができます。

CV In Self-Driving Cars

しかし、画像アプリケーションに機械学習を活用しているのは、ハイテク企業だけではありません。カメラは車の周囲のさまざまな角度からビデオをキャプチャし、コンピュータビジョンソフトウェアに送ります。コンピュータビジョンソフトウェアはリアルタイムで画像を処理し、道路の端を見つけ、交通標識を読み、他の車、オブジェクト、および歩行者を検出します。

CV In Facial Recognition

Computer Vision は、顔認識アプリケーションにおいても重要な役割を担っており、コンピュータが人の顔の画像とその身元を照合するための技術です。コンピュータビジョンのアルゴリズムは、画像から顔の特徴を検出し、顔のプロフィールのデータベースと比較します。消費者向け機器では、顔認識により所有者の身元が認証されます。ソーシャルメディアのアプリでは、顔認識を使ってユーザーを検出し、タグ付けしています。

CV In Augmented Reality & Mixed Reality

Computer Vision は、スマートフォン、タブレット、スマートグラスなどのコンピューティングデバイスで、現実世界の画像に仮想オブジェクトを重ねたり埋め込むことを可能にする技術である拡張現実および複合現実でも重要な役割を担っています。 AR機器では、コンピュータビジョンを使って現実世界の物体を検出し、デバイスのディスプレイ上に仮想オブジェクトを配置する位置を決定する。たとえば、コンピュータビジョンアルゴリズムは、AR アプリケーションで、タブレット、壁、床などの平面を検出するのに役立ち、奥行きと寸法を確立し、物理世界に仮想オブジェクトを配置するのに非常に重要な役割を果たします。コンピュータビジョンアルゴリズムは、皮膚画像から癌性のほくろを検出したり、X 線や MRI スキャンから症状を発見したりといったタスクの自動化に役立っています。

人間のように見る機械を発明することは、コンピュータにそれをさせるのが難しいだけでなく、そもそも人間の視覚がどのように機能するのかが完全にわかっていないため、ごまかしのきかない難しい作業です。

生物学的視覚を研究するには、目などの知覚器官と、脳内での知覚の解釈について理解することが必要です。プロセスを図式化する上でも、システムが使用するトリックやショートカットを発見する上でも、多くの進歩がありましたが、脳に関わる他の研究と同様に、まだまだ先のことです。

Credit For The Image Goes To: Mike Tamir

Free Press