他の事例をお探しの方は「PC提案事例の検索」をしてみてください。

事例No.PC-11242
参考価格:
2,528,900

生物学向け大規模言語モデルの学習用マシン

用途:生物学向け大規模言語モデル (ProteinBERT、 ChemBERTa、 HyenaDNAなど) の学習

お客さまからのご相談内容

生物学向け大規模言語モデルの学習用マシンの導入を検討している。
ProteinBERT、 ChemBERTa、 HyenaDNAといった生物学で用いられる大規模言語モデルを事前学習から実行したいと考えている。

ProteinBERTはNvidia Quadro RTX 5000、ChemBERTaはNVIDIA Tesla T4、HyenaDNAはNVIDIA A100をそれぞれ学習に使用したとの情報があるため、GPUの性能を重視したい。

予算300万円以内で、上記の用途における計算処理を最も高速化できる構成を提案してほしい。

また、設置場所の制限があるため、筐体サイズはミドルタワー程度で、100V環境で使用可能な構成が望ましい。

希望する条件は以下の通り。

・GPU:性能重視
・電源:100V環境に対応
・筐体:ミドルタワー程度
・予算:300万円以内

テガラからのご提案

お客さまご希望の条件に沿った構成をご提案しました。
ご予算・利用環境を踏まえたうえで、GPU性能を重視した構成です。

GPUの選定について

GPUはNVIDIA RTX A6000 x2枚を搭載しています。
ProteinBERT開発元の公式サイトによると、学習済みモデルの構築にはNVIDIA RTX5000を用いて1か月ほど要したと記載されています。
A6000はRTX5000より世代が新しく、ラインナップ上でも上位モデルにあたる製品のため、RTX5000よりも高い処理性能が期待できます。

例として挙げていただいたNVIDIA Tesla T4は、推論向けとして利用されることが多い製品です。そのため、本構成ではNVIDIA TeslaT4よりも単体性能が高いA6000を採用しています。

NVIDIA A100とRTX A6000の違い

また、NVIDIA A100は、A6000とは異なり、GPGPU専用カードです。
高いfp64性能を持ち科学計算に適した製品ですが、今回のようなDeepLearning用途ではfp64性能が利用されることはほとんどありません。
あわせて、価格に関してもA6000と比較して非常に高額で、かつ専用の筐体でなければ利用できないことから、今回の利用条件や用途におけるマッチングが高くないと判断しました。

 

ストレージに関しては、ProteinBERTの開発元よりユーザー自らモデルの学習を行う場合は1TB以上のストレージ容量を確保することが推奨されているため、2TBのシステムディスク、4TBのデータディスクを搭載しています。
なお、学習中に頻繁なデータアクセスが発生することを想定して、ストレージはすべてSSDとしています。

OSはWindows 11を選択しています。
ご使用予定の言語モデルは基本的にはPythonパッケージで提供されているもののため、Pythonを使用可能なOSであれば、ご希望に応じて変更も可能です。

本事例の構成は、お客様から頂戴した条件を元に検討した内容です。
いただいた条件に合わせて柔軟にマシンをご提案いたしますので、掲載内容とは異なる条件でご検討の場合でも、お気軽にご相談ください。

お客様の声 AIモデル開発 環境整備のためのお役立ち情報
AIモデル開発向けマシン選定のポイント 生成AIモデル開発向けマシン選定のポイント
テグシスの延長保証サービス「あんしん+」 HDD返却不要サービス

 

 

お問い合わせ

 

主な仕様

CPU Intel Xeon W5-2455X (3.20GHz 12コア)
メモリ 128GB REG ECC
ストレージ1 2TB SSD M.2
ストレージ2 4TB SSD S-ATA
ビデオ NVIDIA RTX A6000 48GB x2
ネットワーク on board (1GbE x1 /10GbE x1)
筐体+電源 ミドルタワー型筐体 + 1500W
OS Microsoft Windows 11 Professional 64bit

キーワード

・DeepLearningとは
DeepLearningは機械学習の一種であり、多層のニューラルネットワークを用いて高度なパターン認識や予測を行う手法。一般的に大量のデータを必要とするため、データが豊富な場合に効果的な手法とされている。 また、DeepLeanigは画像認識や音声認識、自然言語処理などの分野で広く用いられている。複雑な特徴や関係性を学習することができるため、従来の機械学習手法よりも高い精度を発揮することができる。

参考:【特集記事】機械学習ってなんだろう ※弊社オウンドメディア「TEGAKARI」に飛びます

・Pythonとは
Pythonは、Python Software Foundation (PSF) が著作権を保持する、オブジェクト指向プログラミング言語。プログラミングの構文がシンプルなため可読性が高く、目的に応じたライブラリやフレームワークといったコンポーネントが豊富に揃っていることも特徴。プログラミングの初学者から上級者に至るまで人気の言語。

参考:Python ※外部サイトに飛びます

・BERTとは
BERT (Bidirectional Encoder Representations from Transformers) は、Googleが開発した自然言語処理 (NLP) モデル。与えられた文脈に基づいて単語を理解することができ、言語処理における幅広いタスクに適用される。
また、BERTは事前学習とファインチューニングの2つのフェーズで構成されている。事前学習では、大規模なコーパスから学習された汎用的な言語モデルが作成される。ファインチューニングでは、特定のタスクに適用するために、小規模なデータセットから学習されたモデルが調整される。
従来のNLPモデルに比べて高い精度を示し、複雑なタスクにも対応できることが特徴で、テキスト生成、質問応答、文書分類、言語翻訳などに応用されており、NLPの分野で最も有名なモデルの1つとして広く使われている。

・ProteinBERTとは
ProteinBERTは、BERTをベースにしたタンパク質言語モデル。 UniRef90データベース上の最大1億600万のタンパク質で事前学習されており、非常に長いタンパク質配列を含む、ほぼあらゆる長さのタンパク質配列を処理することが可能。

参考:GitHub – nadavbra/protein_bert ※外部サイトに飛びます

・ChemBERTaとは
ChemBERTaは、RoBERTa (BERTの亜種)  を用いた、化学構造の表記方法であるSMILES記法の大規模言語モデル。 医薬品設計、化学モデリング、特性予測などに用いられている。

参考:GitHub – seyonechithrananda/bert-loves-chemistry: bert-loves-chemistry: a repository of HuggingFace models applied on chemical SMILES data for drug design, chemical modelling, etc. ※外部サイトに飛びます

・HyenaDNAとは
HyenaDNAは、ヒトゲノムを100万トークンの塩基配列として事前学習した大規模言語モデル。 単一ヌクレオチド単位 (ATGC) でのトークン化により、ヌクレオチド単位での解析が可能。

参考:GitHub – HazyResearch/hyena-dna: Official implementation for HyenaDNA, a long-range genomic foundation model built with Hyena ※外部サイトに飛びます

事例追加日:2023/11/09

ご注文の流れ

お問い合わせフォームよりご相談内容をお書き添えの上、 お問い合わせください。
(お電話でもご相談を承っております)
弊社より24時間以内にメールにてご連絡します。
必要に応じてメールにて打ち合わせさせていただいた上で、 メール添付にてお見積書をお送りします。
お見積もり内容にご納得いただけましたら、メールにてご注文ください。
ご注文確定後、必要な部材を手配し PCを組み立てます。
(掛売りの場合、最初に新規取引票のご記入をお願いしております)
動作チェックなどを行い、納期が確定いたしましたらご連絡いたします。
(納期は仕様や製造ラインの状況により異なります)
お客様のお手元にお届けいたします (ヤマト運輸/西濃運輸)

お支払い方法

お支払い方法は、お見積もりメール・お見積書でもご案内しています。

法人掛売りのお客様
原則として、月末締、翌月末日払いの後払いとなります。
学校、公共機関、独立行政法人のお客様
納入と同時に書類三点セット(見積書、納品書、請求書)をお送りしますのでご請求金額を弊社銀行口座へ期日までにお振込み願います。
先に書面での正式見積書(社印、代表者印付)が必要な場合はお知らせください。
企業のお客様
納品時に、代表者印つきの正式書類(納品書、請求書)を添付いたします。
ご検収後、請求金額を弊社銀行口座へお支払い期日までにお振込み願います。
銀行振込(先振込み)のお客様
ご注文のご連絡をいただいた後、お振込みを確認した時点で注文の確定とさせていただきます。

修理のご依頼・サポートについて

弊社製PCの保証内容は、お見積もりメールでもご案内しています。

■お問合せ先
テガラの取り扱い製品に関する総合サポート受付のWEBサイトをご用意しております。
テガラ株式会社 サポートサイト

※お問い合わせの際には、「ご購入前」と「ご購入後」で受付フォームが分かれておりますので、ご注意ください。

メール support@tegara.com
電話 053-543-6688

■テグシスのサポートについて
保証期間内の修理について

保証期間内におけるハードウェアの故障や不具合につきましては、無償で修理いたします。
ただし、お客様による破損や、ソフトウェアに起因するトラブルなど保証規定にて定める項目に該当する場合は保証対象外となります。
保証期間経過後も、PCをお預かりしての初期診断は無料で実施しております。

無料メール相談
PCの運用やトラブルにつきまして、メールでのご相談を承ります。経験・知識の豊富な技術コンサルタントが無料でアドバイスいたします。
※調査や検証が必要な場合はお答えできなかったり、有償対応となることがあります

オプション保証サービス

「あんしん+」 もしもの時の延長保証サービス

PCのご購入時にトータル5年までの延長保証をご選択いただけます。また、ご購入後にも延長保証を申し込むことができます。
延長を申し込みいただきますと、標準保証と同等の保証を期間満了まで受けることができます。
なお、PCの仕様によっては料金が異なる場合があります。

延長保証あんしん+ ご加入のタイミング
※仕様によっては保証期間の延長ができない場合があります。

HDD返却不要サービス

保証期間内にPCのHDD(SSD)が故障した場合、通常、新品のHDDとの交換対応となり、故障したHDDはご返却いたしません。
しかしこの「HDD返却不要サービス」にご加入いただければ、保証期間内にHDD(SSD)が故障した場合には新品のHDDをご提供いたしますが、故障したHDDを引き渡していただく必要はありません。お客さまの大切なデータの入ったHDDをお手元に保管しておくことができます。

オンサイト保守サポート

故障発生時、必要に応じエンジニアスタッフが現地へ訪問し、保守対応を行うサービスです。
発送にかかる手間、時間を短縮できますので、緊急性の高い保守に最適です。

費用ご参考(目安)
本体+延長保証代金の10%~
※ 製品の性質や価格帯、条件等により異なります。
★TEGSYS オンサイト保守利用規約はこちら (pdf)
お客様のご要望をうかがい、最適なPCの構成をご提案する
「お客様だけのオーダーメイドPC」を製作しています。
用途に応じた細かなアドバイスや迅速な対応がテガラの強みです。