マイクロソフトから画期的な生成AI、かつ映像化出来る技術を表明、しかし、ディープフェイクを恐れて非公開に
マイクロソフトから画期的な生成AI、かつ映像化出来る技術を表明、しかし、ディープフェイクを恐れて非公開にとしていて、どの程度のクオリティで現状動くのかというのが一番鍵になる所で、それが今後どのように発展していくかですね。
ジェネレーティブAIはすべての新しいソフトウェアとハードウェア・プロジェクトの重要な特徴であり、マイクロソフトが独自の機械学習モデルを開発していることは驚くことではない。VASA-1はその一例で、人物の画像と音声トラックがあれば、その人物が録音を話している説得力のあるビデオクリップに変換することができる。
ほんの数年前までは、ジェネレーティブAIによって作成されたものは、いくつかの要素によって即座に識別可能だった。静止画の場合、それは人の手の指の本数であったり、足の本数が正しいという単純なものであったりした。AIが生成した動画はもっとひどかったが、少なくとも非常に記憶に残るものだった。
しかし、マイクロソフトの調査報告書によれば、生成AIの明白な性質は急速に消え去ろうとしている。VASA-1は機械学習モデルで、人の顔の静止画像1枚を、音声トラックを使って短いリアルな動画に変換する。このモデルは、音声のトーンやペースの変化を調べ、音声に合わせて顔を変化させた新しい画像のシーケンスを作成する。
というのも、マイクロソフトが掲載しているいくつかの例は驚くほど優れているからだ。しかし、他のものはそれほどホットではなく、研究者たちが自分たちの成果を紹介するために最良の例を選んだことは明らかだ。特に、このモデルをリアルタイムで使用することを実演した短いビデオは、現実とCGによる現実の区別がつかなくなるまでには、まだ長い道のりがあることを強調している。
しかしそれでも、これが巨大なスーパーコンピュータではなく、RTX 4090を使用しているとはいえ、すべてデスクトップPCで行われたという事実は、このようなソフトウェアにアクセスできれば、ほとんど誰でも生成AIを使用して完璧なディープフェイクを作成できることを示している。研究者は研究報告書の中で、このことを認めている。
『ディープフェイクは、誤解を招いたり欺いたりするようなコンテンツを作成するためのものではありません。しかし、他の関連するコンテンツ生成技術と同様に、人間になりすますために悪用される可能性はある。私たちは、実在の人物になりすました誤解を招くようなコンテンツや有害なコンテンツを作成するような行為には反対であり、偽造検出を進めるために私たちの技術を応用することに関心を持っています。』
これが、マイクロソフトの研究が現在も非公開のままである理由だろう。とはいえ、誰かがこの研究を複製するだけでなく改良し、悪意のある目的に利用する可能性が出てくるまで、そう時間はかからないだろう。その一方で、もしVASA-1がディープフェイクの検出に使用され、それがシンプルなデスクトップアプリケーションの形で実装されるのであれば、これは大きな前進となるだろう。やった!
関連リンク
関連リンク
実写には程遠いというものの、確実に進化していて、非公開なのも頷ける内容になっているようですね。ディープフェイクを非常に恐れており、技術が先か映像が後かですね。