データ活用

2021-12-27

画像認識の仕組みをわかりやすく解説 導入事例も

人工知能(AI)が持つさまざまな機能のひとつに、「画像認識」があります。 AI はどのようにしてさまざまな物や人、文字などを見分けているのでしょうか。また、その機能はどういったことに役立つのでしょうか。本記事では、画像認識の仕組みや活用事例などについてわかりやすく解説します。

画像認識とは

まずは、「画像認識」の定義や開発史について簡単にご説明します。

画像認識の定義

画像認識とは、人工知能が持つ代表的な機能のひとつであり、画像や動画データから被写体(人・動物・物・文字・数字・記号など)のパターンを掴んで、それが何かを認識する技術です。画像認識は、画像・動画内容のラベリングや検索、自律型ロボットや自動運転車の制御など、機械を使った視覚的な作業に数多く利用されています。身近なところでは、スマホの顔認証機能などにも使われています。

画像認識の歴史

最新技術のイメージが強い画像認識ですが、その実、開発の歴史は古く、半世紀以上も前からスタートしています。最も古いものとしては、バーコードの研究が挙げられますが、これは 1940 年代までさかのぼります。バーコードは線とスペースの二進法的な画像パターンをスキャンして、機械に識別させる技術であり、画像認識技術の原型といえます。

また、 1960 年代には顔認証の研究もスタートしています。これは当初、顔の特徴を手作業で入力していましたが、 1980 年代には統計学的手法による自動認証の基盤を作ることに成功しています。

画像認識の研究は、 PC が登場した 1980 年代以降に活発化し、 90 年代にはさまざまな関連ソフトウェアが普及し始めました。そして、後述する AI のディープラーニング技術の開発により、 2000 年代に入ってから研究はさらに加速し、今や一部 AI の画像認識能力に至っては人間を凌ぐほどまで成長しています。

画像認識の流れ

コンピューターの画像認識は、以下のように複数のステップに分けて進みます。

1. 画像処理

最初に必要なのが、コンピューターが画像認識を正確に行いやすいように、画像の中から識別したい対象以外の物(ノイズ)を消したり、輪郭を強調したりといった画像処理を行うことです。たとえば、人間も勉強でノート作りをするときに、大事な単語や文章を色ペンでマーキングしたり、太字にしたりして目を引くようにしますが、それと同じことが画像認識においても行われるのです。

2. 画像から特徴を抽出

画像処理が終わったら、次は画像の中からピクセル単位で特徴やパターンを抽出します。「ピクセル」とは画像を構成する最小要素のことであり、そこにはさまざまな情報が付与されています。画像認識においては、こうしたピクセル情報のパターンを分析して、最終的にそれが何なのかという判断の材料とします。

3. 特定物体認識

画像を読みとって、それが何かを最終的に判断するのがこの段階です。たとえば、犬を見分けるようにしたければ、事前に大量の犬の画像を「犬」としてラベル付けしたうえで機械学習させます。すると、先のパターン分析により、コンピューターは「犬とはこういうパターンを共通して持つものだ」と理解します。そして、次に類似した画像が入力された際、ラベル付けがされていなくても、それが犬だと自律的に特定できるようになります。

画像認識における機械学習やディープラーニングの役割

ここまでの解説の中でも「機械学習」や「ディープラーニング」などの単語が登場しましたが、これらは画像認識にどのように関わるのでしょうか。

まず、ディープラーニングとは AI の機械学習の一種で、その最新モデルともいうべき技術です。日本語では「深層学習」と訳されます。ディープラーニングでは、人間の脳の仕組みを模した「ニューラルネットワーク」というアルゴリズムが用いられます。たとえば犬と猫を識別する場合、「犬と猫の違いはどこに着目したらわかるか」といった見分け方のポイントまで自ら学習することで、機械学習の効果を飛躍的に高めています。

従来の画像認識は、人間が大量の画像のパラメータを逐一手作業で入力するなどして行われていました。これをコンピューターに学習させて、労力を大幅に削減させるのがAIの機械学習です。しかし、従来の機械学習においては、学習のためのルールを人間が設定しなければ、効率的な学習ができないという欠点を抱えていました。ディープラーニングなら、この欠点を克服し、「どこに注目すべきか」という根本のルールさえも自ら学習することで、自力で画像認識の精度を高められるのです。

画像認識の活用事例

画像認識技術は、すでにさまざまな領域で活用されています。以下では、その主だった事例を簡単にご紹介します。

不良品の発見

画像認識は、工場などにおける検品作業にも利用されています。たとえば、AIに「正常な部品」あるいは「異常な部品」の画像を大量に学習させることで、部品の外観から自動で不良品を検知することが可能です。これによって、検品作業の自動化や不良品を見落とすリスクの低減が期待できます。

文字の読みとり

画像認識は文字の読みとりも可能にします。たとえば、手書きのアンケート用紙などをスキャンしてデジタル化する場合、そのままで処理すると画像データとして保存されるため、テキスト検索ができないうえ、集計時も手作業で回答を入力し直さなければなりません。しかし、文字の読みとり機能を搭載した「OCR」という技術を使ってデータ処理すれば、スキャン画像から文字を認識して自動でテキスト化してくれるため、そうした手間を削減できます。

病理検査

医療現場においても画像認識技術は活用されています。これも要領としては、不良品の検知作業と同じです。あらかじめ AI に大量の CT 画像などを機械学習させておくことで、 AI は正常な画像と問題のある画像を自動で見分けられるようになります。これを利用すれば、がんの早期発見などが可能になり、医師の検査業務のサポートや、検査技術の標準化などに寄与します。

数千人を瞬時にカウント

画像認識を活用した、数千人規模の群衆の人数を瞬時に自動計測する製品も登場しています。これは人間の頭部を見分けることで、人数をカウントする仕組みです。たとえば、コロナ禍においては「密集・密閉・密接」の 3 密に対処するため、街や施設内の混雑状況など人流の調査を行う必要があります。その際、この自動計測技術を活用すれば、わざわざ人が手作業で計測する必要はありません。

感情の推定

高度な画像認識は、人の表情の変化を見分けることが可能です。身近な例でいうと、一部のカメラに搭載されている笑顔検知機能などがこれに該当します。近年ではこうした技術をさらに前進させ、戸惑いや不安などの微妙な感情の変化さえ推定できるようにする研究が進んでいます。こうした感情の機微を客観的に可視化する技術は、接客やマーケティングなどの分野での活用が期待されます。

画像認識の展望

上記のように、画像認識技術はさまざまな領域で活用が進んでいます。特に近年は、高速大容量通信の普及やクラウド技術の発展により、ビッグデータの取得・活用が容易となりました。 GPU をはじめとするハードウェアが高性能化したことや、高精度のスマホカメラが普及しているのも相まって、その成長速度はさらに加速しています。今後も車の自動運転や自動翻訳など、さまざまな技術とのコラボレーションが進み、その活用の幅は大きく拡大していくことが予想されます。

まとめ

画像認識とは、画像や動画データをコンピューターが参照し、そこに映った人や物、文字などを区別する機能です。画像認識は、 AI の機械学習やディープラーニングの開発などに伴って、飛躍的にその精度を向上させてきました。画像認識技術はすでに製造業の検品作業や医療における画像診断、あるいは私たちが使うスマホカメラなどの中にも活用されており、今後もさらに発展していくことが予想されます。

スタッフおすすめ記事 ベスト 3

タグ

データ活用 データ分析 ツール 組織 DX ビジネス オープンデータ BI データプラットフォーム 課題 中小企業