
生成AIは“見る”ことができるのか?最新モデルで検証!
2025/02/18
文章や画像の作成、さらにはプログラミングまでできてしまう生成AI。
皆さんは有効活用できていますか?
今回はそんな生成AIのモデルをいくつかピックアップし、その特徴を取り上げます。また、文章や画像の生成ではなく、手元の画像を与えて写っているものを認識させる、「画像認識」を試してみます。
- 生成AIって、他のAIと何が違うの?
- 目的が違う
- 学習方法が違う
- 柔軟性が違う
- よく使われるモデルについて
- GPT-4o (OpenAI)
- OpenAI o1 (OpenAI)
- OpenAI o3-mini (OpenAI)
- Claude 3.5 sonnet (Anthropic)
- 生成AIを使った画像認識を試してみよう!
- Type Aのケーブル
- GPT-4oの回答
- OpenAI o1の回答
- gemini 2.0 Flashの回答
- Claude 3.5 Sonnetの回答
- 所感
- Type Cのケーブル
- GPT-4oの回答
- OpenAI o1の回答
- gemini 2.0 Flashの回答
- Claude 3.5 Sonnetの回答
- 所感
- アヒルのおもちゃ2つ
- GPT-4oの回答
- OpenAI o1の回答
- gemini 2.0 Flashの回答
- Claude 3.5 Sonnetの回答
- 所感
- 追加検証
- GPT-4oの回答
- OpenAI o1の回答
- gemini 2.0 Flashの回答
- Claude 3.5 Sonnetの回答
- 所感
- まとめ
- ノーコードAI 開発ツール「TechSword Vision」
生成AIって、他のAIと何が違うの?
目的が違う
これまでのAI(機械学習)は、分類、予測、認識、推論といったタスクが得意です。これは、モデル作成者が意図して学習用のデータを収集し、それを使用して特定のタスクが得意になるようにトレーニングしているためです。
一方、生成AIは新しいコンテンツを生成することが目的です。学習したデータをもとに文章や画像を新しく作り出すことができます。
学習方法が違う
一般的なAI、分類器や回帰モデルは入力されたデータを特定のカテゴリに割り当てたり、未来の数値を予測することに焦点を当てています。
一方で、生成AIは大量のデータを学習し、そのデータのパターンを基に新しい出力を生み出すため、深層学習モデルを用いています。使用するデータ量は一般的なAIと比べて何千倍の大きさとなるため、だれでもモデルを作れるというわけではありません。
柔軟性が違う
一般的なAIは、決まったルールやパターンに基づいて動作するため出力は安定します。1度モデルを作ると、それを使用して継続的に判定を行ってくれるのです。
一方で生成AIは、既存のパターンを学習はしているものの、その都度、オリジナルな出力を行うため、毎回安定した回答を得ることは難しいです。
さらに、ハルシネーションと呼ばれる誤情報を出すこともあるので、運用には注意が必要です。
よく使われるモデルについて
GPT-4o (OpenAI)
2024年8月8日に公開されたGPT-4oは、GPT-4やGPT-3.5と比べてより高度な論理的推論やプログラミングにおけるエラー検出が可能なモデルで、修正能力も向上しています。
さらに、これまでのモデルよりも応答速度が大幅に向上し、少ない計算リソースで高品質な回答が生成されるようになりました。
また、テキストだけでなく、画像や音声、動画、csvファイルなどの処理能力も向上しました。画像や図表の理解力が向上し、視覚情報を用いた推論や説明も可能です。
OpenAI o1 (OpenAI)
2024年12月6日に正式リリースされたOpenAI o1は、過去のシリーズとは異なり、AIがより長く考える能力を強化し、複雑な問題解決ができるようになりました。
即座に回答を生成するよりは、時間をかけて、様々な角度から検討して答えを出してくれます。
特に、理数系(科学、コーディング、数学など)が得意といわれています。
たとえば「生成AIとは何か、高校生に説明してください。」と依頼します。これを受け、OpenAI o1はまず自問自答することでユーザーが求めていることは何かを理解し、そののちに回答を生成します。

OpenAI o3-mini (OpenAI)
2025年1月31日に公開されたOpenAI o3-miniは、o1を上回る推論能力で、o1モデルの課題であった応答速度とコスト面が改善したとされています。
また、o3では、推論のレベルをhigh/medium/low の中でユーザーが選択できるようになりました。
下のグラフは、博士号レベルの科学知識に関する問題の正答率を比較したもので、o3-mini (high)はこれまでのどのモデルよりも高精度で回答できることがわかります。

出典:https://openai.com/index/openai-o3-mini/
また、従来のモデルよりもジェイルブレイク攻撃に強くなっています。つまり、ユーザーが安全ルールを回避して危険な回答を引き出そうとしても、それを防止する仕組みの改良がされ、より安全に動作するようになっています。
Claude 3.5 sonnet (Anthropic)
2024年6月21日に公開されたClaude 3.5 sonnetは、Anthropic社が提供しているclaude 3.5シリーズの中で最も精度が高いとされているモデルです。
過去のClaude 3 OpusやGPT-4oよりもGPQA(大学院レベルの推論)などで高スコアを出しています。さらに、精度の高さだけでなく、従来のClaude 3 Opusの2倍の速度で動作することも特長です。
生成AIを使った画像認識を試してみよう!
今回は上で紹介した各モデルに同じ写真を与えたときに、どんな回答をするかを比較してみます。OpenAI o3-miniはこの記事の執筆時点で画像の添付ができないので、代わりにGemini 2.0 Flash (Google)を使用します。
また、Claude 3.5は、そのうちの Sonnetを使用します。
Type Aのケーブル
まずはこのType Aのケーブルです。この画像と「この画像に写っているものは何ですか?」というプロンプトで生成させます。

GPT-4oの回答
この画像には、USB Type-A コネクタを持つケーブルが写っています。コネクタ部分には「SUNGUY」というブランド名が刻まれており、ケーブルは編み込みのデザインになっているようです。背景は白い机や平らな表面のように見えます。
OpenAI o1の回答
USBケーブルの一端(USB Type-Aコネクタ部分)が写っています。充電やデータ転送などに使用する一般的なUSBケーブルの先端ですね。
gemini 2.0 Flashの回答
これは、明るい色の表面に置かれたシルバーのUSBケーブルです。USBのコネクタ部分には「SUNGUY」と書かれています。
Claude 3.5 Sonnetの回答
この画像にはUSBケーブルが写っています。黒色のケーブルで、編み込み加工された(ブレイデッド)コードを使用しており、"SUNGUY"というブランド名が見えます。コネクタ部分はUSB Type-Aタイプで、金属部分とプラスチック部分が確認できます。ケーブルは灰色の背景の上に置かれています。
所感
gemini 2.0以外はType Aということも認識できていそうですね。プロンプトでどのタイプかを認識する指示は出していなかったので、そこまで言及していないというのも考えられます。
OpenAI o1でもケーブルに写っている文字は出力していませんが、GPT-4oで認識できているので、o1で認識できていないというのも考えにくいです。これもプロンプトが不足していると考えられます。
Type Cのケーブル

GPT-4oの回答
この画像には、USB Type-C コネクタを持つケーブルが写っています。黒いケーブルで、シンプルなデザインのコネクタが特徴です。背景は白い机や平らな表面のように見えます。
OpenAI o1の回答
USB Type-Cのコネクタ部分が付いたケーブルですね。充電やデータ転送などに使われるタイプのケーブルです。
gemini 2.0 Flashの回答
これは、明るい色の表面に置かれた黒いUSB-Cケーブルです。
Claude 3.5 Sonnetの回答
USB Type-Cコネクタが写っています。黒いプラスチックの部分と金属のコネクタ部分が見えます。
所感
これはどのモデルもType Cであることを回答できています。GPT-4oとgemini2.0は背景の壁にも言及しています。
アヒルのおもちゃ2つ

GPT-4oの回答
この画像には、2つの黄色いアヒルのおもちゃが机の上に並んで置かれています。背景にはオフィスのような環境が見え、グレーの椅子とキャビネットがあります。
OpenAI o1の回答
机の上に、黄色いゴム製のアヒルのおもちゃが2つ並んで置かれています。背景には椅子や棚のようなものが写っています。
gemini 2.0 Flashの回答
2つの黄色いおもちゃのアヒルが、明るい色のテーブルの上に並んでいます。背景には、引き出しのあるキャビネットとグレーの椅子が見えます。
Claude 3.5 Sonnetの回答
この画像には2つの黄色いゴム製のアヒルのおもちゃ(いわゆるアヒル風呂おもちゃ)が写っています。おもちゃは白い台の上に並んで置かれており、それぞれ黒い目とオレンジ色のくちばしを持っています。このタイプのおもちゃは一般的に浴槽で遊ぶために使用される、子供向けの定番のお風呂用おもちゃです。
所感
どのモデルも黄色いアヒルのおもちゃが2つあることが認識できています。背景の椅子や棚も認識できているモデルもあります。
この検証ではCludeがその画像の認識だけでなく、このおもちゃの解説まで回答しています。文章生成が強いという特徴が出ていますね。
追加検証
アヒルの写真を見ると右側のアヒルに少し黒い点がついているのがわかります。これを認識できるかを試すため、「画像のアヒルに汚れはありますか?」と追加で質問してみます。
GPT-4oの回答
はい、右側のアヒルには小さな黒っぽい点や汚れがいくつか見られます。特に体の部分にいくつかの汚れが確認できます。一方、左側のアヒルは比較的きれいですが、少しだけ黒い点があるように見えます。全体としては、新品のように完全に汚れがないわけではなく、使用感がある状態です。
OpenAI o1の回答
写真を見る限り、右側のアヒルには小さな黒っぽい点や汚れが数カ所見受けられます。左側のアヒルは比較的きれいですが、少しだけ黒い点があるようにも見えます。全体としては、新品のようにまったく汚れがないわけではなく、ところどころ使用感がある状態です。
gemini 2.0 Flashの回答
アヒルの表面やテーブルに小さな汚れがいくつか見えます。アヒルの片方には、小さな黒っぽい点のような汚れが数カ所あります。
Claude 3.5 Sonnetの回答
画像を見る限り、アヒルのおもちゃはとてもきれいで清潔な状態に見えます。鮮やかな黄色い色をしており、目立った汚れや傷みは見当たりません。表面も光沢があり、きれいに保たれているように見えます。
所感
Claudeのみ汚れは検出できないという結果になりました。OpenAIのモデルでは左右どちらのアヒルに汚れがあるかまで言及できています。
まとめ
今回は、生成AIがどのような特徴を持つAIであるのかを解説し、それらを使用した画像認識を検証してみました。
生成AI分野はすさまじい速度で発展が進んでいます。利用する側としても追いつくのが大変な現状ではありますが、このように画像を添付して認識させてみることは、それぞれのモデルの汎用性を検証するのに良い観点かもしれません。
とはいえ、上述のとおり生成AIは回答にばらつきがありますし、ハルシネーション(誤情報)を回答することもあるので、その使用には注意が必要です。
また、本記事では言及していませんが、生成AIのサービスの使用には基本的に費用がかかるので、今回のような画像認識が使い放題というわけでもありません。
結論として、現段階で高精度で安定的に画像認識を行うことを目的とするならば、生成AIではなく、目的に合わせてトレーニングしたAIを使用する方が望ましいです。

ノーコードAI 開発ツール「TechSword Vision」
TechSword Visionは誰でも簡単にノーコードで画像認識AIを開発し、現場のエッジデバイスに簡単なマウス操作でインストールが可能なノーコードAIプラットフォームです。
導入にあたっては、画像の撮影や収集、カメラの選定、システム導入後の運用支援やメンテナンスに至るまで幅広いサポートをおこなっております。
AIエンジニアの稼働が必要ないため初期コストも小さく、新たにAIによる画像検査の導入を検討している場合に特におすすめです。
ご興味がある場合は、ぜひ詳細なサービス説明資料をご請求ください。
また、具体的な導入事例や導入後の流れについても、ご希望に応じて説明させて頂きます。ぜひお気軽にお問い合わせください。




