2022-11-06
本記事の読み切り時間は約4分となります。
本記事の対象者は
・IOT関連の事業に携わる方。
・セキュリティ関連のDX化に携わる方。
・モニター/センサー関連のデータ活用を考えている方。
となります。
それでは、お楽しみください!
1.
Kaggleとは
2.
Kaggle事例紹介「自動運転車向けLyftモーション予測」
3.
画像認識技術
4.
画像認識の仕組み
5.
画像認識の歴史と現在
6.
画像認識の活用事例
2022年9月30日から10月2日までさいたまスーパーアリーナで開催された「NBA JAPAN GAMES」日本では8度目になるNBA JAPAN GAMESは約3年ぶりの日本開催ということもあり、観戦チケットが事前に完売するほどの大盛況となりました。
試合の盛り上がりは言うまでもなく、それ以外にも幕間を盛り上げるコンテンツがあったことを皆さんはご存じでしょうか。
今回の NBA JAPAN GAMES は3日間にわたる開催ですが、プレシーズンのオープンマッチとなる試合は9月30日と10月2日に2試合行われました。
間の1日には「サタデーナイト」としてファンイベントが開催され、パートナーである日産がプロデュースした特別なコンテンツが発表される場となりました。
コンテンツの内容としては、2分30秒の制限時間のなかで、いかに観客を盛り上げるダンクシュートを決めることが出来るかを競う「スラムダンクコンテスト」のさなかに、日産の電気自動車「アリア」がコートインし、ゴール下に停車。選手が悠然とアリアに向かって走り出し、アリアを飛び越えてダンクシュートを決めるというものでした。
その直後にも、日産の「プロパイロット2.0」という自動運転技術を用いた自動運転モップが登場し、360度センサーを活かして、無人でコートを清掃するさながら魔法のモップのようなパフォーマンスが行われ大盛況のコンテンツとなりました。
さて、冒頭の自動運転は近年開発が進んでいるジャンルの一つとなりますが、今回はその基幹となる画像認識について、Kaggleの事例の紹介から、概要と活用事例までを一挙にご紹介していきます。
まずは、Kaggleについて簡単に説明をしていきます。
Kaggleとは、データサイエンティスト達が、自分たちのデータ分析力を磨く場として機能しているプラットフォームとなります。
カグルとは「カグル」と読み、カグルに参加し、スキルを磨く方々をカグラーと呼びます。
「the home of Data Science & Machine Learning」
と表記されるように、データサイエンスと機械学習の家と呼ばれ、世界中の、機械学習・データサイエンスに携わる約40万人が集まるコミュニティです。
Kaggleの中では、企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアを繋げるプラットフォームとして機能しており単純にエンジニアと企業をマッチングするのではなく、コンペも行われ盛り上がりをみせています。
冒頭の日産自動車の技術にも用いられている自動運転技術ですが、様々な企業が開発を進めている中で、完全なる実現のために解決しなければいけない課題がいくつか存在しています。
その内の一つとなるのが、運転中に車や自転車、歩行者等を確実に見分け、その動きを予測し、適切に対応することができるような予測モデルを構築することです。
今回ご紹介するコンペは、自動詞運転者のモーション予測モデルを構築するために、3Dオブジェクトデータを用いて、まずは物体の識別そしてその後の予測までを可能にするモデル構築を貸すものでした。
参考記事はこちら
本コンペは、ライドシェアリングの会社であるLyft社が主催したもので、全935チーム、14900エントリーとなるコンペとなりました。
今回ご紹介したコンペの主な焦点は、自動運転下でいかに正確に物体を捉え、認識し、動きを予測して、適切な動作を行うかというものでしたが、それら一連のアルゴリズムには、画像認識着技術が大きく関連しています。
自動運転やカメラなどに使用されている技術であるということは何となくご存じの方も多いかと思いますが、もう少し突っ込んでご紹介をしていきます。
そもそも、画像認識とはどのようなものでしょうか。
一言でいうと、画像や動画の中に「見逃せない」特徴を見出し、「それが何か?」を認識する技術。といえるでしょう。
自動運転で例えるならば、カメラで認識できる景色の中に、道路があり、道路外に鳥が飛び去り風が吹いて葉が舞っている状況です。その最中に、対向車が接近しており、進行方向には自転車が少々ふらつきながら前に進んでいる。そんな状況を想定してください。
そのような状況下では、見逃していい特徴と、見逃してはいけない特徴があります。
例を挙げると、道路外の飛び去る鳥や風に舞う葉は見逃してよい情報になりますが、対向車や前方のふらつく自転車は見逃せない情報となります。
このように、認識できる範囲上に存在する物質がどのようなもので、それがどのような意味を持つのかを瞬時に識別する技術が画像認識となります。
上記のような判断を人間であれば過去の経験から瞬時に判断しますが、コンピュータが判断をするとなると、それ相応の高い技術が必要となる為、常に日進月歩で開発が進んでいるというわけです。
画像認識がどういうものかは何となく理解できたかと思いますが、いったいどういった仕組なのでしょうか。
画像認識の仕組みは、対象物の特徴を特定し、その特徴に似たものを照らし合わせて正解を導き出すことです。これを「パターン認識」といって、普段私達人間が当たり前のように行っている行為を、特別なプログラムによって行っているものとなります。
また、静止画像はもちろんの事、動画においても画像認識を行うことが可能で、その際に必要となる技術が「動体検知」となります。動体検知では、動画を一枚ずつ静止画として分析し、パラパラ漫画のようにその情報量を比較するというアプローチを行います。
その為、例えば景色の中で動物が動いた場合、ある場所では動物のいた分の情報量が減り、またある場所では動物が移動した分の情報量が増えるということが発生します。
結果として、元の情報量と差が生じることで、「何かが動いた」と認識されます。その後、静止画像を細かく解析することで動いたものが動物であったと判明すると認識されるわけです。
上記のような画像認識は、昨今ディープラーニング(深層学習)の登場によって様々な分野で注目を集めるようになりました。
ところが、その技術自体は以外にも歴史が古く、もっとも古い画像認識技術は1940年代に活用され始めたバーコードがその始まりとされています。
バーコードとは、バーとスペースの組合せによって、数字や文字を機械が読み取れるように表現したものを指します。
そのバーコードを、バーコードスキャナと呼ばれる光学認識装置によって読み取ることで商品情報などを瞬時に導くことができます。
このような画像認識では、テンプレートマッチングとよばれる技術が主に用いられていました。
テンプレートマッチングとは、画像に移っている物体の位置を検出する「画像検出」という技術の一つで、この方法では、検出したい物体の画像そのものをテンプレートとして、対象画像の一部分との類似性を、領域内でその違いを比較していきます。
そうすることで、対象とする物体が画像内のどこに映っているのか、いくつ映っているのかといった情報を抽出することが出来ていました。
しかし、照明による変化が大きい場合や、テンプレート画像との違いがあまりにも大きい場合ではどうしても認識率が下がってしまうという課題がありました。
そこで、2000年代にはいって、計算機の技術が発展することで、データの処理速度も大幅に向上しました。
結果、大量の画像データを用いた機械学習による画像認識が実現可能となり、2012年のディープラーニングの登場によって、いままでの画像認識の誤認識率から4割ものミスの削減を実現する等と、飛躍的な精度の向上を成し遂げることとなりました。
そんな画像認識技術ですが、自動運転はもちろんの事様々な分野で応用活用されています。
今回ご紹介する事例としては
パナソニックコネクト開発 顔認証ゲート(参考サイトはこちら)
アリババ 画像検索システム(参考サイトはこちら)
となります。
一つ目の事例として、セキュリティの分野では「顔認証ゲート」という形での導入が行われています。
パナソニックコネクトが開発した、顔認証ゲートは法務省入国管理局で採用され、日本国内の空港で日本人帰国者の入国手続きの効率化に貢献しています。
日本のパスポートに内蔵されているICチップ内の顔写真と、入国ゲートで撮影した本人の写真を照合し、本人確認を行うというシンプルな仕組みですが、老化や化粧、表情による顔の変化ももれなく認識し、さらには共連れなどの不正も検知してアラートを上げるという精度を誇ります。
このように防犯セキュリティの分野では雑踏の中から特定の人物を探し出すといった技術は大いに活用が進むことが予想されますね。
他にも、Eコマースの世界的大手、中国のアリババ・グループは、早くからオンライン通販サイトに画像検索技術を取り入れています。
アリババの通販サイト「淘宝(タオバオ)」や「天猫(Tmall)」では、欲しい商品の写真をアップロードすると、サイトに掲載されている膨大な商品の中から類似のものを見つけ出してくれます。
本サービスは、Eコマースプラットフォームに関するユーザーのクレームである
「欲しいアイテムを見つけるのが困難」「アイテムが豊富すぎて混乱する」
という内容を解決するのに大いに役立っています。自分の欲しい商品写真をアップロードするだけで類似商品を探し出す画像検索によって、より快適な購買活動を支援し、ユーザーの獲得に貢献しています。
同様に検索エンジンGoogleでも画像検索などの機能が実装されており、目当ての情報をテキストで検索できなくても画像や映像から検索することが可能となっています。
いかがでしたでしょうか。
人間の目の役割をセンサーが果たし、その情報をAIによって処理することで様々な予測が可能となってきています。
その予測精度はこの近年で飛躍的に向上しており、近く完全自動運転技術も実現されることとなるでしょう。
また、様々な分野で応用のできる技術ですので、様々な事例を参考に、活用の道を模索してみてください。