GPT-5.4のハルシネーションは本当に減りましたか？

体感として減っていますが、ゼロではありません。OpenAI公式ではGPT-5.2比でエラー率33%低下とされていますが、重要な情報は確認する前提で使うのが安全です。

GPT-5.4を使ってみた｜ChatGPTを相談相手として選ぶ理由がまた増えた

Item: GPT-5.4
Rating: 4.5
Author: WEB3工務店

GPT-5.4は、推論・コーディング・PC操作・エージェントワークフローを1つに統合したOpenAIの最新フロンティアモデルです。2026年3月5日にリリースされ、GPT-5シリーズの中でも特にThinkingモードの速度と精度のバランスが大きく改善されています。

この記事では、GPT-5.4の主なアップデート内容を整理したうえで、実際に仕事で使って気づいたことを中心にまとめます。Claude・Geminiとの使い分けについても、私が普段どう使い分けているかを交えながら書いていきます。

CONTENTS

01GPT-5.4でできること
02GPT-5.4の料金とプランの整理
03GPT-5.4のアップデートの主なポイント
04実際に使って分かったこと
05Claude・GeminiとのAI使い分けの基準
06向いている人と使い分けの基準
07注意点
08よくある質問
09まとめ

GPT-5.4でできること

GPT-5.4は、これまで別々のモデルが担っていた機能を1つに統合したモデルです。主にできることを整理します。

Thinkingモードでの高精度な推論：複雑な分析・判断が必要な質問に対して、内部で思考プロセスを経てから回答する
Mid-Response Steering（思考途中の軌道修正）：生成中に追加指示や修正を入れて、回答の方向を変えられる
Computer Use（PC自律操作）：ブラウザやアプリをAIが自ら操作してタスクを完了させる
Tool Search：必要なツールを自動で見つけて使えるようになり、エージェントとしての精度が上がった
最大100万トークンのコンテキスト対応：非常に長いドキュメントや会話履歴も一度に処理できる

モデルはGPT-5.4（標準）・GPT-5.4 Thinking・GPT-5.4 Proの3種類があります。日常的な仕事での相談や分析であれば、GPT-5.4 Thinkingが使いやすいと感じました。

GPT-5.4の料金とプランの整理

GPT-5.4は利用するプランによって、使えるモデルが変わります。まず個人向けプランから整理します。

プラン	月額	GPT-5.4（標準）	GPT-5.4 Thinking	GPT-5.4 Pro
Free	無料	✓	自動切替のみ	✕
Plus	$20/月	✓	✓	✕
Business	$25/ユーザー	✓	✓	✓
Pro	$200/月	✓	✓	✓
Enterprise	要問い合わせ	✓	✓	✓

個人で仕事に使うなら、Plusプランが現実的な選択肢です。GPT-5.4 Thinkingを手動で選んで使えるようになり、分析や相談の精度が上がります。Proは月額$200とコストが高いため、日常的にAIを使い込んでいる人向けの位置づけです。

Freeプランでも状況によってThinkingに自動切替される場合はありますが、使いたいときに確実に選べるわけではありません。Thinkingを安定して使いたい場合はPlusへのアップグレードが必要です。

APIの料金（開発者・業務システム向け）

APIで利用する場合の料金は以下の通りです。

項目	料金	備考
入力（通常）	$2.50 / 1Mトークン	272K超えは$5.00に
入力（キャッシュ利用）	$0.25 / 1Mトークン	90%引き
Batch API	通常の50%引き	24時間以内に非同期処理

大量利用やシステム組み込みを検討している場合は、Batch APIやキャッシュ機能を活用するとコストを抑えやすくなります。料金は変更される場合があるため、最新情報はOpenAI公式サイトでご確認ください。

GPT-5.4のアップデートの主なポイント

GPT-5.3からの変化を4つに整理します。数値はOpenAI公式発表のものです。

Thinkingの速度が上がり、精度も維持された

GPT-5.3までは、Thinkingモードで深い分析をさせると5〜10分かかることがありました。GPT-5.4では同等の精度を保ちながら、体感で3分前後で返ってくるようになっています。

性能面でも数値が出ています。44職種にわたる実務的な知識作業を測るGDPvalというベンチマークでは、GPT-5.2の70.9%からGPT-5.4は83.0%に向上しています。プロフェッショナルの回答と比べて、83%が同等以上の品質という結果です。

生成中に修正が入れられるようになった（Mid-Response Steering）

回答が生成されている途中で、「この方向は違う」「もっとこっちを詳しく」と指示を追加できます。GPT-5.3以前は、一度生成を最後まで待ってから再度プロンプトを入れ直す必要がありました。

「この観点はいらない」「もっとここを掘り下げて」と途中で方向を変えられるので、やり直しの回数が減ります。長い分析や複数の条件を整理するような作業で特に効果を感じました。

PCを自律操作できるようになった（Computer Use）

GPT-5.4から、ブラウザやアプリをAI自身が操作できる機能が加わりました。PC操作の精度を測るOSWorld-Verifiedというベンチマークでは75.0%を達成しており、人間の72.4%を上回っています。GPT-5.2の47.3%からの大幅な向上です。

ただし、現時点では複雑なマルチステップ操作は安定しない場面もあります。単純な繰り返し作業や情報収集の自動化から試すのが現実的です。

ハルシネーションが減った

OpenAIの公式発表では、GPT-5.2比で個々の事実のエラー率が33%低下、回答全体に誤りが含まれる確率が18%低下とされています。実際に使っていても、以前は見られた架空の事例が出てくる頻度は明らかに減っています。

ただし、完全にゼロになったわけではありません。重要な情報は確認する前提で使う運用は引き続き必要です。

実際に使って分かったこと

体験談①：Thinkingが速くなって、仕事の相談がしやすくなった

私がGPT-5.4で一番変わったと感じたのは、Thinkingモードの速さです。

以前は分析や少し複雑な相談をGPT-5.3 Thinkingに投げると、5〜10分かかることがざらにありました。より良い回答が欲しいので待つ価値はあると思っていましたが、それでも手が止まるのは気になっていました。

GPT-5.4になってから、同じような質問を投げると3分前後で返ってくるようになりました。回答の精度はほぼ同等のまま、待ち時間だけが短くなった感じです。仕事の流れを止めずに使えるようになったのが一番大きかったと感じています。

体験談②：途中で軌道修正できるようになって、やり直しが減った

Mid-Response Steeringは、使い始めるまで「そんなに便利か？」と思っていた機能です。実際に使うと印象が変わりました。

回答が生成されている途中で「これはいらない」「こっちをもっと詳しく」と入れられるようになったことで、一度最後まで待って再プロンプトという手間がなくなりました。考えながら会話している感覚に近く、特に長い分析をお願いしているときに「あ、この観点も聞きたかった」と気づいたときに助かっています。

Claude・GeminiとのAI使い分けの基準

私はChatGPT・Claude・Geminiの3つを使っています。用途によって使い分けており、ざっくり整理するとこうなります。

用途	使うAI	理由
仕事の相談・分析・アイデア出し	ChatGPT（GPT-5.4）	一番使いやすく、返答の流れが自然
文章生成・ライティング	Claude	文章の精度と指示の遵守力が高い
Google Workspace関連の作業	Gemini	スプレッドシートやドキュメントとの連携がある

この3つから「どれか1つ選ぶ」と言われれば、私はChatGPTを選びます。仕事の相談相手として一番しっくりくる感覚があります。Claudeは文章を仕上げるとき、Geminiはワークスペース内での作業に限定して使う、という使い分けが今のところ安定しています。

向いている人と使い分けの基準

GPT-5.4が特に向いていると感じるのは以下のような場面です。

向いている人・場面：

仕事の相談・判断の壁打ち相手として使いたい人
分析や考えさせる質問を日常的に投げている人
Thinkingモードを使いたいが待ち時間が気になっていた人
生成中に「やっぱりこっちで」と方向を変えたい人

向いていない場面：

文章の精度・指示の遵守を最優先したい場合（Claudeの方が強い）
Google Workspaceのドキュメント・スプレッドシートと連携した作業（Geminiが向いている）

注意点（使う前に把握しておきたいこと）

注意点は2つです。

1つ目：ハルシネーションはまだある

アップデート情報では「エラーが減った」と大きく出ていたので期待していました。実際、以前に比べると架空の事例や存在しない情報が出てくる頻度は明らかに下がっています。ただ、完全になくなったわけではありません。仕事で使っていて、数字や固有名詞を確認せずそのまま使うのはまだ危ないと感じる場面がありました。参考・ドラフトとして使いながら、最後は自分で確認する運用がまだ必要です。

2つ目：モデル選びに迷いやすい

GPT-5.4には標準・Thinking・Proの3種類があります。通常の会話や軽いタスクなら標準で十分です。分析や複雑な相談にはThinking、精度をとことん追求したい場合はProという使い分けが目安になります。最初からProを使う必要はなく、Thinkingから慣れていくのがやりやすいと感じました。

よくある質問

Q. GPT-5.4は無料で使えますか？

無料プランでも基本的な機能は使えますが、GPT-5.4 ThinkingやProは上位プランが必要です。まず無料で標準モデルを試し、Thinkingが必要になったらPlusへのアップグレードを検討するのがやりやすいです。

無料：標準モデルの利用が可能（制限あり）
Plus（月$20）：GPT-5.4 Thinkingが手動で選べる
Pro（月$200）：GPT-5.4 Proへのフルアクセス

Q. GPT-5.4とGPT-5.3の違いは何ですか？

一番大きな違いはThinkingの処理速度と途中修正機能です。GPT-5.3 Thinkingで5〜10分かかっていたような分析が、GPT-5.4では3分前後で返ってくるようになりました。生成途中に修正を入れられるMid-Response Steeringも新たに加わっています。

速度：GPT-5.4の方が大幅に速い
精度：GDPvalスコアが70.9%→83.0%に向上
新機能：Mid-Response Steering・Computer Use・Tool Search

Q. GPT-5.4 ThinkingはいつONにすればいいですか？

分析・判断・アイデア出しなど、少し考えてほしい質問のときに使うのが向いています。簡単な調べものや短い作業には標準モードで十分です。

Thinking向き：仕事の相談、比較・分析、複雑な質問
標準で十分：要約、翻訳、シンプルな情報収集

Q. ChatGPTはClaudeやGeminiと何が違いますか？

用途によって得意不得意があります。仕事の相談・壁打ち・アイデア出しの汎用性ではChatGPTが使いやすく、文章の精度重視ならClaude、Google Workspaceとの連携ならGeminiが向いています。

ChatGPT：汎用的な相談・分析
Claude：文章生成・指示の遵守力
Gemini：Googleサービスとの連携

Q. ハルシネーション（誤情報）は本当に減りましたか？

体感として減ってはいますが、ゼロではありません。OpenAI公式ではGPT-5.2比でエラー率33%低下とされていますが、架空の事例が出るケースはまだあります。固有名詞・数字・重要な事実は確認する前提で使うのが安全です。

まとめ　速さ・途中修正・使い分けの基準

GPT-5.4で一番変わったと感じたのは、ThinkingモードのThinking速度と途中で修正できる体験です。以前は生成を最後まで待って再プロンプトという流れが必要でしたが、それが不要になりました。仕事の相談相手として使う頻度が高い人には、特にThinkingの速さの恩恵が大きいと思います。

ハルシネーションはまだゼロではないので、重要な情報の確認は引き続き必要ですが、日常的な使い心地は確実に上がっています。まずはPlusプランでThinkingモードから試してみるのがおすすめです。