news

AIデイリー:OpenAIが強力な画像編集モデルを発表、Metaが音声編集を刷新、今週のAI巨頭の5大アップデート

December 17, 2025
Updated Dec 17
1 min read

今週は人工知能分野にとって、間違いなく賑やかな一週間となりました。ビジュアル制作から音声処理、科学研究、そして日々の生産性向上まで、テック大手各社が相次いで驚くべき新ツールを発表しました。OpenAIはついにAI画像生成の「微調整」という課題を解決し、Metaは音声処理を写真編集のように簡単にし、Googleはあなたの日常的なワークフローをよりスムーズにすることに注力しています。これらのアップデートは単なる技術の積み重ねではなく、クリエイターや専門家の働き方に直接影響を与えるものです。

以下、将来の働き方を変える可能性のある5つの重要なアップデートについて詳しく解説します。

1. OpenAIがGPT Image 1.5を発表:精密な画像編集はもはや夢ではない

AI画像生成ツールを使用したことがある多くの人にとって、最大の悩みは「ゼロからの生成」ではなく「修正」であることがよくあります。画面の中の服を1枚変えたいだけなのに、人物の顔立ちや光の当たり方、背景までもが変わってしまうことがよくありました。OpenAIが新たに発表したGPT Image 1.5モデルは、まさにこの問題を解決するために登場しました。

この新モデルの最大の特徴は、その「指示追従能力」にあります。元の画像の核心的な詳細(光、構図、外見など)を維持したまま、編集指示を正確に実行できます。つまり、ユーザーはプロ仕様の画像編集ソフトを使用するように、AIが生成した画像を微調整できます。服装の変更、背景要素の調整、スタイルの変換など、いずれも高い一貫性を保ちながら行うことができます。

編集機能に加えて、OpenAIは全く新しい「Images」制作インターフェースも同時に公開しました。このインターフェースは単なる対話ボックスではなく、小型のクリエイティブスタジオのようなもので、様々なプリセットスタイルフィルターやインスピレーションを与えるプロンプトを提供し、制作プロセスをより直感的にします。特筆すべきは、新モデルの生成速度が前世代の4倍になり、API価格が20%低下したことです。これは、大量の画像を生成する必要がある企業ユーザーにとって朗報と言えるでしょう。

2. MetaがSAM Audioを発表:写真編集のように音声を「選択」

OpenAIが視覚編集の難題を解決したとすれば、Metaは聴覚領域に衝撃を与えました。MetaはSAM Audio音声分離モデルを正式に発表しました。これは、有名な「Segment Anything」シリーズの音声分野における最新の拡張版です。

動画を録画したけれど背景の交通音が話し声をかき消してしまったり、曲の中からギターソロだけを抜き出したいと考えたりしたことはありませんか?これまでは、プロの音響エンジニアが多くの時間を費やして処理する必要がありました。しかし、SAM Audioはこれらすべてを驚くほど簡単にします。以下の3つの直感的な指示方法をサポートしています。

  • テキストプロンプト: 「犬の鳴き声」や「人の声」と入力するだけで、モデルが対応するトラックを自動的に抽出します。
  • ビジュアルプロンプト: 動画内で音を発している物体(演奏中のギターなど)をクリックすると、AIがその物体の音を分離します。
  • スパン(時間区間)プロンプト: これは業界初の機能で、ユーザーが特定の時間帯を指定して音声をロックオンできるようにします。

この技術は従来の音声編集の敷居を下げ、Photoshopの自動選択ツールを使うかのように音声分離を簡単にします。ポッドキャスト制作、動画編集、音楽制作のいずれにおいても、SAM Audioはこれまでにない柔軟性を提供します。現在、このモデルはSegment Anything Playgroundで体験可能です。

3. Googleが実験的AIエージェント「CC」を発表:あなたの万能デジタル秘書

生産性向上ツールの面では、Google LabsがコードネームCCと呼ばれる新しい実験的AIエージェントを発表しました。Geminiモデル上に構築されたこのツールは、ユーザーの仕事と生活におけるスーパーアシスタントになることを目指しています。

現代人の仕事のデータはあらゆる場所に散らばっています。Gmailの会議通知、Googleカレンダーの予定、Driveのプロジェクト文書などです。CCの核心的な価値は、これらの分散した情報を繋ぎ合わせることにあります。毎朝、CCは「Your Day Ahead」というブリーフィングをメールで送信します。これは単なるスケジュール表ではなく、ToDoリスト、重要なメールの更新、旅程を総合的にまとめたものです。

さらに気が利いているのは、CCが能動的に実行する能力を備えている点です。会議が近づいていることに気づくと、関連するメールの下書きを自動的に準備したり、必要なファイルリンクを整理したりします。ユーザーは返信を通じて、CCに特定の個人の好みや長期的なタスクを記憶させるよう直接「教育」することもできます。現在、この機能は米国とカナダのGoogle AI Ultraユーザー向けにテスト公開されています。

4. Geminiの中でOpalを使って独自の「ミニアプリ」を作成

雑務の処理だけでなく、Googleはユーザー自身がツールを作成することも望んでいます。Googleは開発ツールOpalをGeminiのウェブ版に直接統合しました。これは一般ユーザーでも「AIミニアプリ」を作成できるプラットフォームです。

Opalの特徴はそのビジュアルエディタにあります。ユーザーは複雑なコードを理解する必要はなく、プロンプトを入力するだけで、アイデアを再利用可能なツールに変換できます。新しいインターフェースは、プロンプトを明確なステップリストに変換することもでき、アプリの動作ロジックを理解し調整しやすくしています。

このアップデートにより、Geminiの用途は単発の対話に留まらなくなります。「特定のフォーマットで週報を作成する」や「財務レポートのデータを分析する」ための専用ミニアプリを作成し、繰り返し使用することができます。よりカスタマイズされたAI体験を求めるユーザーにとって、これは非常に実用的な機能です。

5. OpenAIがFrontierScienceを発表:AI科学推論の究極のテスト

私たちがAIが絵を描けるか、手紙を書けるかを議論している間に、OpenAIはAIが科学者になれるかどうかを考えています。OpenAIはFrontierScienceという新しい評価基準を発表しました。これは、物理学、化学、生物学の分野におけるAIの専門家レベルの推論能力を評価するために特別に設計されています。

既存の評価の多くは選択問題に集中しており、実際の科学研究プロセスを反映することは困難でした。FrontierScienceには「オリンピック問題」と「研究タスク」の2つのカテゴリが含まれています。前者は国際オリンピックのメダリストによって設計され、高強度の理論的推論をテストします。後者は博士レベルの科学者によって設計され、実際の科学研究シナリオをシミュレートし、AIが独創的な研究を行う潜在能力を持っているかを評価します。

初期テストにおいて、OpenAIは内部モデルGPT-5.2がオリンピック問題で77%という高得点を獲得し、前世代のモデルを大きく上回ったことを明らかにしました。このプロジェクトの意義は、AIが本格的な科学研究分野に参入するための明確な基準を設けたことであり、将来AIが人類のがんの謎を解明したり、新素材を開発したりする手助けをする可能性を示唆しています。


よくある質問 (FAQ)

Q1:OpenAIの新しいGPT Image 1.5モデルは今すぐ使えますか? はい、新しいImagesモデルは本日よりすべてのChatGPTユーザー向けに提供が開始されており、同時にAPIを通じてもGPT Image 1.5として開発者に提供されています。ただし、ビジネス版(Business)およびエンタープライズ版(Enterprise)のアクセス権は後日開放される予定です。

Q2:MetaのSAM Audioは有料ですか? 現在、MetaはSAM AudioをSegment Anything Playgroundで一般公開して体験できるようにしており、モデルのダウンロードも提供しています。オープンソース研究の一環として、開発者や研究者はその機能を無料で探索できますが、商用利用については特定のライセンス条項を参照する必要がある場合があります。

Q3:GoogleのCCアシスタントは日本で利用できますか? 現在、CCはまだ早期実験段階(Early Access)にあり、第一弾として米国とカナダのGoogle AI Ultraサブスクライバーおよび有料ユーザーのみに開放されています。日本を含む他の地域のユーザーはもう少し待つ必要があるかもしれません。Google Labsからの続報に注目することをお勧めします。

Q4:なぜFrontierScienceのような新しい評価基準が必要なのですか? 過去のテストの大部分は選択問題であり、モデルが答えを「暗記」しやすく、真の推論能力を測定できなかったためです。FrontierScienceは、自由回答形式の質問や複雑な研究タスクを通じて、AIが科学者の画期的な研究を支援する能力を備えているかどうかをよりリアルに反映します。

Q5:GPT Image 1.5の「API価格が安くなった」とはどの程度ですか? OpenAIの説明によると、GPT Image 1.5の入力と出力の価格は前世代のGPT Image 1と比較して20%低下しています。これにより、開発者は同じ予算でより多くの画像を生成または編集できるようになります。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.