画像認識AIプロジェクトのPoCを進める際に定めておくべき指標とは？

2024/11/26

労働力が減少する現代において、特に製造業ではAIの導入による業務効率化と生産性向上が急務です。例えば、画像認識AIによる外観検査の自動化は業務効率化に大きな効果を発揮します。そんなAIを生産現場に導入する際には、まずPoC（概念実証）から始めることが一般的です。

PoCを進めるためには、目的を明確にし、その目的に応じた評価指標を設定しておくことが不可欠です。本記事では、外観検査AIの導入プロジェクトにおけるPoCを進める際、どのような評価指標を設定すべきか、用語の解説を交えながら紹介します。また、記事後半では仮想事例として「弁当検査AI」を題材に、具体的な指標の活用方法を考察します。

PoCで設定する指標・項目
AIの精度に関する評価指標
正答率（Accuracy）
再現率（Recall）
適合率（Precision）
誤検出率（False Positive Rate）
F1スコア（F1 Score）
データに関する指標
画像枚数
データの多様性
AIの処理性能に関する評価指標
サイクルタイム（Cycle Time）
スループット（Throughput）
コストに関する評価指標
イニシャルコスト
ランニングコスト
導入効果に関する評価指標
製品検査効率の向上率
クレーム削減率
導入後の運用に関する評価項目
サポート体制
弁当製造ラインでの具体例
AIの精度：どの指標を重要視するか
良品：誤検出率（False Positive Rate）を優先
異物混入：再現率（Recall）を優先
具材の不足：再現率（Recall）を優先
盛り付けの乱れ：ケースバイケース
導入検討
AIをPoC止まりにしないために
ノーコードAI 開発ツール「TechSword Vision」

PoCで設定する指標・項目

AIの精度に関する評価指標

AIが正確に不良品を検出し、効率的に製造ラインを支えるには、以下の精度指標が重要です。

正答率（Accuracy）

製品が良品か不良品かを正確に分類する割合です。例えば、正答率95%以上を目標とすることで、AIによる品質管理を高めることができます。

正答率（Accuracy） = （良品・不良品かかわらず正しく分類されたサンプル数） / （全サンプル数）

再現率（Recall）

不良品を見逃さずに検出する割合です。

再現率（Recall） = （正しく不良品と判定された数） / （実際の不良品の総数）

不良品の見逃しを防ぐことが重要で、特に異物混入のような重大なリスクを避けるためには高い再現率が求められます。

適合率（Precision）

AIが「不良品」と判断した製品のうち、本当に不良品である割合を示します。

適合率（Precision） = （正しく不良品と判定された数） / （AIが不良品と判定した総数）

誤検出が多いと生産効率に悪影響を与えるため、適合率を高めることも重要です。

誤検出率（False Positive Rate）

良品を誤って不良品と判断する割合です。

誤検出率（False Positive Rate） = （誤って不良品と判定された良品の数） / （実際の良品の総数）

この割合が高いと、必要以上に製品を廃棄してしまうことになるため、これを低く保つことで生産効率が向上します。

F1スコア（F1 Score）

適合率と再現率のバランスを評価するための指標です。

F1スコア（F1 Score） = 2 × （適合率 × 再現率） / （適合率 + 再現率）

F1スコアが高いほど、適合率と再現率のバランスが取れており、全体的に優れたモデルであることを示しています。製造において、誤検出を減らしつつ、不良品を確実に検出することが求められる場面で、この指標は特に役立ちます。

各精度指標のより詳細な説明については下記をご覧ください。

参考：AIの精度は一つじゃない？精度の評価指標をご紹介

データに関する指標

AIが十分な精度を発揮するためには、適切な量と質のデータが必要です。

画像枚数

できるだけ多く（可能ならば数万枚レベル）画像を準備するのが理想ですが、多くのAIプロジェクトはデータがない状態から始まります。そこで「画像何枚でどれだけの精度を達成するか」をあらかじめ定めておくことで、スムーズにPoCを進められます。

データの多様性

実際の使用環境を反映するデータが重要です。画像データの多様性自体は数値化できるものではありませんが、一般的には多様であればあるほど良いとされています。とはいえ、あらゆる条件の画像を数多く撮影することは難しいため、現実的にどの程度バラエティに富んだ画像を集めることができるかのすり合わせが重要です。

ライティング条件: 明るさの違い、影の有無
角度や視点の違い: 製品の傾きや撮影時の画角の違い
背景の変化: 検査ラインの背景色や模様の違い
製品の個体差: 同じ製品でも微妙な形状や色味の差異

AIの処理性能に関する評価指標

次に、製造ラインでのAIの処理性能を評価するための指標について説明します。

サイクルタイム（Cycle Time）

検査1サイクルあたりの処理速度を測定します。例えば、製品が1つずつ流れてくるようなラインにおいては「1製品あたり0.5秒以内」などのように目標を設定します。ここでの処理速度が製造効率を左右します。

AIの判定にかかる時間もさることながら、例えば製品を回転させたり反転させたりする必要がある場合は、その処理時間も考慮する必要があります。

スループット（Throughput）

一定時間内にAIが判定可能な製品の個数です。

例えば、次の2つのパターンがあったとします。

1回の判定にかかる時間（サイクルタイム）は0.5秒だが、1度に1個しか処理できない
1回の判定にかかる時間（サイクルタイム）は1秒だが、同時に2個まで処理できる

この場合、1秒あたりのスループットはいずれも2個ということになります。製造ラインの形態や要求に応じて目標値を設定することが重要です。

コストに関する評価指標

AI導入にかかるコストについても考慮する必要があります。

イニシャルコスト

AIシステムのハードウェア、ソフトウェア、セットアップ費用など、初期投資が予算内に収まるかどうかを評価します。

ランニングコスト

ソフトウェアの年間利用額やハードウェアのメンテナンス費用など、継続的にかかるコストを評価します。

導入効果に関する評価指標

AI導入による改善効果を評価する指標です。

製品検査効率の向上率

検査にかかる時間や必要な人員の削減効果を評価し、効率化の達成度を測定します。

AIの導入により完全自動化ができればベストですが、完全自動化とまでは言わずとも、省人化につながる可能性もあります。例えばこれまで2人工必要だった検査工程が、AI導入によって検査項目が大幅に削減され、1人工で十分となれば1名分の省人化につながります。

クレーム削減率

市場に不良品が流出してクレームが発生する割合の削減も評価の対象となるでしょう。

例えば、現在のクレーム率は全出荷数の2％、つまり人間は98％を正しく判定できる現状があったとします。そこに、正答率99.5%のAIを導入したとします。

人間：98%
AI：99.5%

これだけでも、AIの導入によって見逃しの確率が2%から0.5%に減少し、不良品検出精度が向上することが分かります。

次に、人間とAIがそれぞれ独立して検査を行い、どちらか一方でも不良品を検出できれば不良品を見逃さない場合を考えます。

両方が見逃す確率は次の式で計算できます：人間の見逃し確率 × AIの見逃し確率

数値を代入すると、「0.02 × 0.005 = 0.0001（0.01%）」

つまり、人間とAIを併用した場合の見逃し確率はわずか0.01%にまで減少します。

導入後の運用に関する評価項目

導入を前提とした場合に考慮に入れておくべき項目もあります。

サポート体制

AIは1度作って終わりではなく、継続的にアップデートしていくことが求められます。そのためには、現場担当者が利活用できるようベンダーが積極的に支援してくれるか、ソフトウェアの不具合が発生したときの対応の可否なども事前に確認しておきましょう。

弁当製造ラインでの具体例

ここからは、弁当製造ラインで、AI導入によりどのような課題が解決できるのかを具体的に説明します。実際の現場でよく発生する問題や検査基準をさらに詳しく掘り下げ、AIがどのように役立つかを解説します。

例えば、次のような検査基準があると仮定します。

良品：すべての具材が正しく盛り付けられており、見た目も問題がない弁当。
異物混入：プラスチック片や髪の毛が混入した弁当。重大リスクであり、消費者への健康被害や企業の信頼低下につながる。
具材の不足: 唐揚げが入っていない、卵焼きが欠けているなどの具材不足。消費者満足度の低下が懸念されるが、健康リスクは低い。
盛り付けの乱れ: 食材の配置が崩れていたり、容器が汚れているなど。見た目に影響するものの、健康には問題がない。

AIの精度：どの指標を重要視するか

AIの精度指標にも様々あると先述しました。もちろん、正解率（Accuracy）・再現率（Recall）・適合率（Precision）に関しては100％を、誤検出率（False Positive Rate）に関しては0％を達成することがベストですが、人間が違いを犯すのと同様にAIも完璧ではありません。PoCの段階であればなおさらです。

では、どの指標に重きを置いて評価すればよいのでしょうか。それは、検査対象によって異なります。

良品：誤検出率（False Positive Rate）を優先

良品を不良品と誤って判断すると、本来問題のない商品が廃棄され、無駄なコストが発生します。特に、大量生産のラインでは、この影響が顕著になります。そのため、誤検出率を低く抑え、良品を適切に見逃さない仕組みが求められます。

異物混入：再現率（Recall）を優先

食品の中に異物が混入している場合、それを見逃すことは消費者の健康や企業の信用に大きな悪影響を与えるため、見逃しを防ぐことが最重要となります。そのため、異物が確実に検出できているかを評価する「再現率」が最優先されます。

具材の不足：再現率（Recall）を優先

具材の不足自体は、健康上のリスクはありません。とはいえ、消費者の満足度を下げる要因となり、せっかく味に満足してもリピートされなくなるという可能性があります。そのため、異物と同じく具材の不足が確実に検出できているかを評価する「再現率」を最優先するのが良いと考えられます。

仮に良品を具材不足と誤判定してしまっても、後から人間が再チェックして問題なければ良品として出荷すればよいため、多少ならば許容できるでしょう。

盛り付けの乱れ：ケースバイケース

盛り付けの問題は視覚的な満足度に影響するものの、必ずしも全商品で厳しく管理する必要はない場合もあります。取引先や顧客の要求に応じて、再現率と適合率のどちらを重視するか決めます。

例えば、百貨店で販売する高価格帯の弁当では、見た目が非常に重要視されるため、再現率を重要視する方がよいでしょう。一方、社員食堂等、比較的廉価でコスト重視の客層が多いのであれば、多少の乱れは許容されると考えられるため、誤判定による余計な作業の発生を防ぐ意味でも適合率を最優先した方が効率的でしょう。