Roblox Cube(3D・4D用のコア生成AIシステム)のご紹介
- 生成AI用の当社によるCube 3D基盤モデルをリリースします。
- Cube 3D 基本モデルの当社バージョンをオープンソース化します。
- Roblox Studio(ロブロックス・スタジオ)でのCube 3D メッシュ生成のベータ版と、バーチャル空間内 Lua API が今週、利用可能になります。
昨年の秋、当社はRoblox上で3Dオブジェクトやシーンを作成するためのオープンソースの3D基盤モデルを構築する大掛かりなプロジェクトを発表 しました。 今週、当社はこのモデルの初リリース版をオープンソース化し、Robloxプラットフォームの内外を問わず誰でも使えるようにします。 当社は、このモデルを「Cube 3D」と名付けました。 当社はまた、メッシュ生成APIのベータ版を発表し、その最初の機能を始動させます。 Cubeは、非常に複雑なシーン生成ツールなど、今後数年間で当社が開発していくAI(人工知能)ツールの多くを支えることになるでしょう。 これは、テキストや画像、ビデオ、その他の入力で訓練され、既存のAI作成ツールと統合され、最終的にはマルチモーダルモデルとなります。
Cube 3Dは、テキストや将来的には画像入力から直接3Dモデルや環境を生成します。 現在、最先端の3D生成では、3Dオブジェクトの構築に画像と再構成の手法を使っています。 これは、十分な3D訓練データがある場合には良い選択です。 しかし、当社のプラットフォームの性質上、当社は固有の3Dデータで訓練しています。 生成されたオブジェクトは、現在のゲームエンジンと完全に互換性があり、オブジェクトの機能を拡張することができます。
ここでの違いは、映画のセットにあるレース場に似ています。 テレビでは、客席や車庫、ウイニングレーンなどが完備してある、うまく機能しているレース場のように見えるかもしれません。 しかし、セットの中を歩き回ると構造物が実際には平らだということにすぐに気づくでしょう。 本当に没入感のある3D世界を構築するには、車を入れられる車庫、人が座れる観客席、使用可能な表彰台のあるウィニングレーンなど、うまく機能している建造物を完備していなければなりません。
これを実現するため、テキストのトークン(または文字の集合)に対して学習させた最先端のモデルからヒントを得て、文章を形成する次のトークンを予測できるようにしました。 当社のイノベーションは、同じ核となるアイディアに基づいています。 私たちは、3Dオブジェクトをトークン化し、形状をトークンとして理解する能力を構築し、完全な3Dオブジェクトを構築するために次の形状のトークンを予測するようにCube 3Dを訓練しました。 これを完全なシーン生成に応用すると、Cube 3Dはレイアウトを予測し、そのレイアウトを完成させる形状を帰納的に予測します。
誰でもニーズに合わせて、Cube 3Dを微調整したり、プラグインを開発したり、自分が持つデータで訓練したりすることができます。 当社は、AIツール構築はオープンで透明性の高いものであるべきだと考えており、そのためにオープンソースのAIコミュニティにおける確固たるパートナーとして全力を尽くしています。 当社が AI安全モデル のうちの1つをリリースしたのは、AIの安全性における進歩を共有することが、業界全体のイノベーションと技術的進歩を加速させることにつながると強く感じているからです。 オープンソースの安全ツール使用してインターネット上の安全における重要な課題に取り組むことを目的とした新しい非営利団体、 ROOST の設立に当社が協力したのは、これが理由です。 Cube 3Dのオープンソース化における当社の目標は、研究者や開発者、そしてより幅広いAIコミュニティが、業界全体で3D生成を学び、補強し、進歩させることができるようにすることです。
制作向け Cube 3D
AIが3Dアセット、アクセサリ、バーチャル空間の制作をどのように加速させられるかについては、以前にもお話ししました。 最終的にAIによって、より没入感のあるパーソナライズされたプレイとつながりが可能になります。 当社は、このようなバーチャル空間の開発者と、そこで時間を過ごすユーザーの両方のために、制作サイクルのあらゆる段階でAIに対応する インフラ 整備に投資しています。 当社は、開発者がAIをバーチャル空間に組み込むことで、ユーザーが制作に参加できるようになる新しい方法を生み出す未来を描いています。 これにより、8,500万人以上のデイリーアクティブユーザーがゲームプレイの一環としてAIの力を手にすることになるのです。
この一年で当社は、AI駆動の アシスタント を Roblox Studio に導入して新機能を導入し、開発者に制作に必要なツールと機能を提供するとともに手作業にかかる時間を削減しました。 Cubeによって、当社は3D制作をより効率的にするつもりです。 3Dメッシュ生成により、開発者は新しいクリエイティブな方向性を素早く模索し、どのデザインを進めるかを迅速に決定することで生産性を向上させることができます。
カーレース・ゲームを作ることをイメージしてみて下さい。 現在、バイクの生成やオレンジ色の道路コーンの生成といったプロンプトを素早く入力することで、アシスタント内でメッシュ生成APIを使用することができます。 数秒以内に、APIはこれらのオブジェクトのメッシュバージョンを生成します。 そして、テクスチャや色などで肉付けしていきます。 このAPIを使えば、簡単なオブジェクトのモデル作成に何時間もかける必要がなくなります。 そのため、コースレイアウトの設計や車のハンドリングの微調整など、楽しいことに集中できるようになります。 このAPIを使うことで、各オブジェクトの作成にかかる時間を節約し、時間や労力を気にすることなく、新しいアイデアを試す時間が得られます。 長期的には、より複雑で機能的なオブジェクト、さらにはシーン作成が可能になる予定です。
Cubeで生成された3Dオブジェクト
このテクノロジーは、毎日Robloxで遊び、つながっている何千万人ものクリエイティブな人々にも広がっています。 当社は、開発者がAIを使ってユーザーをクリエーターにする未来を見据えています。 メッシュ生成 APIを有効にすれば、プレイヤーはイメージできるものすべてに命を吹き込むことができます。 未来仕様の車が欲しければ、「サイドウイングのついた赤い未来の車」と入力し、「黒い革のバイカージャケット」と入力すれば、それが生成されます。 このようなゲーム内でのAI生成によって、まったく新しいレベルの創造性が生まれます。 プレイヤーは、開発者が想像もしなかったような方法で自分の体験をパーソナライズすることができ、それによってゲームがさらに魅力的なものになっていきます。
内部の仕組み、3Dとテキストまたは画像トークン間の交差注意
重要な技術的課題は、テキストと画像を3D形状で結びつけることでした。 当社の核心的な技術進歩は、テキストをトークンとして表現できるのと同じように、3Dオブジェクトをトークンとして表現できるようにすることです。 これにより、言語モデルが文中の次の単語を予測するのと同じように、次の形状を予測できるようになりました。
3次元生成を実現するために、単一オブジェクトの自己回帰的生成、形状補完、および複数オブジェクトまたはシーンのレイアウト生成のための統一アーキテクチャを設計しました。 自己回帰トランスフォーマーは、過去の入力を使って次の成分を予測するニューラルネットワークです。 この構造は、拡張性とマルチモーダルな互換性の両方を提供し、モデルを拡張するにつれて、さまざまな種類の入力(テキスト、ビジュアル、オーディオ、3D)に対応できるようになります。 当社は、このモデルをオープンソース化しています。 この初期段階では、クリエーターはテキストプロンプトに基づいて3Dオブジェクトを生成することができます。 ゆくゆくは、クリエーターがマルチモーダル入力に基づいてシーン全体を生成できるようにしていく予定です。
形状生成のための生成事前訓練トランスフォーマー(GPT)を訓練するためには、離散的な3D形状トークンを使用し、それをテキストプロンプトと合わせます。 この斬新な手法は、3Dシーン生成の世界へ私たちを導いてくれます。
Cubeの今後の展望
現在、世界中の数多くの国々で、文章中の単語を予測するためにAIが使われています。 また、ピクセルを予測するために、画像にもAIが使われています。 シーンを作成する場合は、これらの要素がすべて一緒になり、互いの文脈の中で作用する必要があるため、より複雑になります。 例えば、「木々が生い茂るレース場の前でバイクに乗ったアバター」という簡単なシーンを想像してみてください。
このバーチャル空間の作成には多くの要素が投入されています。 木は2つの3Dメッシュの組み合わせで、バイクはディテールと三角形が密集したメッシュで、建物はRobloxのパーツでできています。 バイクに乗ったアバターの体と手足、頭には、さらに複雑な幾何学的特徴があります。 最後に、すべてをレイアウトで結びつける方法が必要です。 そのためには、ジオメトリをどのように配置するかを知るために、オブジェクトのサイズと位置を定義する境界ボックスが必要です。 これは骨の折れる作業ですが、AIが各ステップをサポートしてくれまます。 AIを使うことで、クリエイターは最初のバージョンをより早く完成させることができ、新しいアイデアをテストしたり、シーンを改良したりすることに時間を使うことができます。
そこに到達したとき、3Dオブジェクトやシーンが完全に機能するようにしたいと考えています。 当社は、これを4D制作と呼んでいます。4つ目の次元は、オブジェクト、環境、人々の間の相互作用です。 これを実現するには、没入感のある3Dオブジェクトやシーンを構築するだけでなく、それらのオブジェクト間のコンテキストや関係性を理解する能力が必要です。 これが、Cubeの目指すところです。
このメッシュ生成という最初の使用例だけでなく、当社は使用をシーン生成とシーン解釈へと広げていく予定です。 ユーザーが最も興味を持ちそうなバーチャル空間を提供したり、コンテキストに沿ってオブジェクトを追加してシーンを拡張したりできるようになるでしょう。 例えば、森林のシーンがあるバーチャル空間の場合、開発者はアシスタントに対して、季節の移り変わりを示すために、木々に生い茂る緑の葉をすべて紅葉に置き換えるよう指示を出すことができます。 当社のAIアシスタント・ツールは、開発者からのリクエストに反応し、バーチャル空間の迅速な作成、調整、拡張をサポートします。
当社は、基盤モデルの改良と拡張を続けながら、アップデートと新機能を共有していきます。 それまでは、今週末以降に利用可能になる当社のオープンソース版Cube 3Dモデルの使用とこれを使用した制作をお楽しみください。