高性能な特化型生成AIを安く作る方法が登場 「進化的モデルマージ」の基礎論文を読むAIビジネスのプロ 三澤博士がチェック 今週の注目論文

生成AIの中でも特定の領域に特化した高性能モデルのニーズが高まっている。しかし、LLMは学習コストが高ことが問題だ。そこで注目されているのが、複数のモデルを組み合わせて新たなモデルを作る「モデルマージ」だ。生成AIを効率的に進化させられる。

» 2024年05月30日 08時00分 公開
[三澤瑠花ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

この連載について

AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。

 生成AIの中でも特定の領域に特化した高性能モデルのニーズが高まっています。しかし、大規模言語モデル(LLM)は学習コストが高くなりやすく、特化させることで汎用(はんよう)性が下がるといった課題も指摘されています。

 そこで注目されているのが、複数のモデルを組み合わせて新たなモデルを作る「モデルマージ」です。「MergeKit」(マージキット)などのオープンソースライブラリが登場している他、AI開発のSakanaAIが「進化的アルゴリズム」で効果的なモデルの組み合わせを自動的に発見できる可能性を示すなど効率化が進んでいます。

モデルマージ技術でAIの可能性を広げる「MergeKit」

 LLMは膨大なテキストデータを学習することで人間のように文章を生成できます。しかし、LLMの学習には多大なコストがかかるという課題があります。

 そこで注目されているのが、既存のLLMを組み合わせて新たなモデルを作る「モデルマージ」という技術です。アメリカの研究者たちが「MergeKit」というモデルマージ支援キットを開発し、無償で配布しています。

 ビジネスで必要とされる特定の領域に特化した高性能なAIモデルを開発する際、汎用的なLLMとその領域用にチューニングされたLLMを組み合わせることで、低コストで高品質なモデルを作れます。

 MergeKitは、GPUやCPUなど多様なハードウェア上で効率的に動作するよう設計されており、オープンソースなLLMを組み合わせることが可能です。実際に、MergeKitを用いて開発されたモデルの中には、医療分野に特化した「BioMistral」(バイオミストラル)のように高い性能を発揮するものもあります。

三澤の“目”

 AIの活用を検討する企業にとって、MergeKitは特定の業務に特化した生成AIモデルを低コストで開発するための有力な手段になるでしょう。モデルマージ技術について理解を深めることは、AIをビジネスに生かしていくための重要な一歩となります。

参考文献

Arcee's MergeKit: A Toolkit for Merging Large Language Models(大規模な言語モデルをマージするためのツールキット)

進化的アルゴリズムを活用しモデルマージを自動化する新手法

 モデルマージは、追加学習をせずに新しいモデルを開発できる利点があるものの、開発者の直感や専門知識に大きく依存するという課題があります。日本の研究者たちは「進化的アルゴリズム」を用いてモデルマージを自動化する新たな手法を提案しました。

 進化的アルゴリズムとは、生物の進化をヒントにしたシステム最適化手法です。複数のプログラムを比較して優秀なものが“生き残る”というプロセスを繰り返して最適解を探索するというものです。

 生成AIモデルは、たくさんの「レイヤー」(層:Transformerブロック)が積み重なってできています。各レイヤーにはどの情報をどれくらいの重要度で伝達するかの「重み」があり、重みの調整が精度に大きな影響を与えます。研究者たちは「レイヤー」と「重み」に着目してモデルマージを行いました。

 モデルマージには2つの手法があります。

 1つ目は「パラメータ空間」のマージです。これは複数のモデルの重みを足し合わせて1つのモデルを作る手法です。重みの組合せを工夫することで元のモデルを上回る性能を持つモデルを作れます。

 2つ目は「データフロー空間」のマージです。これは重みを変は更せず、1つのモデルのレイヤーを組み合わせて並び替えることで1つのモデルを作る手法です。

 具体的には「パラメータ空間」のマージを用いて複数のモデルを1つのモデルにマージします。その後、スコアの良いモデルをプールする場所に戻し「データフロー空間」でのマージを適用します。このように二種類のモデルマージを用いてベースとなる複数の生成AIモデルから1つのモデルを作ります。この過程を1世代と呼びます。

三澤の“目”

 この手法の大きな意義は、オープンソースの多様なモデルの集合知を活用し、大量の学習データや計算リソースを必要とせずに強力なモデルを自動的に生成できる点にあります。言語や数学、画像認識など異なる分野のモデルを融合させることで、従来の人的設計戦略では達成できないような新しい能力を持つモデルの開発も可能になります。

 組合せ次第では生成AIが文化的な日本らしさを含む出力をすることもできるかもしれません。ただし、マージの元とモデルの限界も継承してしまうことが分かっており、利用には注意が必要です。

 ビジネスの観点からは、この研究は莫大な費用が必要な生成AIモデル開発の従来のパラダイムに挑戦しています。そして、勾配降下法と呼ばれる学習方法に頼らずに競争力のあるモデルを生成できることを示しています。これにより、基盤となる生成AIモデルの開発に対する代替的で効率的なアプローチの探索の道が開かれます。

photo 日本語特有の表現を学んでいない生成AIでは信号機の色を「緑」と答えるが、進化的アルゴリズムを適用して日本文化を追加したところ「青」と答えている(参考文献のAdditionally, Table 6より引用)

参考文献

Evolutionary Optimization of Model Merging Recipes(モデルマージレシピの進化的最終化)

マージモデルの活用の道

 進化的モデルマージの手法を活用することで、企業は自社の課題に特化した高性能なAIモデルを、低コストかつ迅速に開発できる可能性があります。また、異なる分野のモデルを融合させることで、これまでにない新しい価値を持つ製品やサービスの創出にもつながるでしょう。

 MergeKitに代表されるモデルマージ技術と、この論文で提案された進化的アルゴリズムによる自動化手法は、AIをビジネスに生かしていくための重要な一歩となります。

著者紹介 三澤瑠花(日本タタ・コンサルタンシー・サービシズ)

AIセンターオブエクセレンス本部 AIラボ ヘッド

日本女子大学卒業、東京学芸大学大学院修士課程修了(天文学) フランス国立科学研究センター・トゥールーズ第3大学大学院 博士課程修了(宇宙物理学)。

2016年入社。「AIラボ」のトップとして、顧客向けにAIモデルの開発や保守、コンサルティングなどを担当している。

Copyright © ITmedia, Inc. All Rights Reserved.

あなたにおすすめの記事PR