設計による決定論～構造化JSONと決定論的AIがライフサイエンス製造をどのように変革しているか～

2026.03.24

Vice President of AI/ML and Data Science, MasterControl

Viktoria Rojkova

Machine Learning Research Scientist, MasterControl

Bhavik Agarwal

AI/ML Co-Op Intern, MasterControl

Nidhi Bendre

設計による決定論～構造化JSONと決定論的AIがライフサイエンス製造をどのように変革しているか～

本記事はマスターコントロール本社公式ブログの日本語版です。

マスターコントロールのAIへのアプローチは、生成ツールの力と決定論的制御の精度を組み合わせたものです。

AIの可能性と規制上の現実

人工知能（AI）は、人間のような文章を生成し、複雑なデータセットを分析し、繁雑な作業を自動化する能力で、ライフサイエンス業界の想像力をかき立てています。しかし、米国食品医薬品局（FDA）、EUの医薬品製造管理基準（GMP）、およびその他の国際規制のもとで事業を営むライフサイエンスメーカーにとって、その期待は現実の壁に直面します。予測不可能な出力を生成するAIシステムは、単に信頼性が低いだけでなく、規制環境では使い物にならないのです。

ライフサイエンス製造における典型的なシナリオを考えてみましょう。バッチ製造記録（BMR）は、原材料の仕様から最終品質管理結果まで、医薬品製造のすべての工程を記録します。これらの記録はしばしば100ページを超え、入力されたテキスト、手書きの注釈、設備の計測値、品質スタンプ、複雑な計算式が混在しています。数十年にわたって保管され、規制当局の監査における決定的なコンプライアンスの証拠として機能します。署名の欠落、計算の誤り、計測値の誤解釈が一つあるだけで、患者の安全性や規制上の地位に深刻な影響を及ぼす可能性があります。

では、標準的な大規模言語モデル（LLM）を使ってこれらの文書をデジタル化する場面を想像してみてください。AIはテキストの大部分を正確に抽出できるかもしれませんが、重要な計算を見落としたり、手書きの注釈を誤解したり、製造フェーズと個々の工程の間の階層的な関係を維持できなかったりする可能性があります。その出力は一見印象的に見えるかもしれません—しかし品質レビュー担当者が、コンプライアンスに不可欠な情報が変換の過程で失われたり歪められたりしていることを発見するまでの話です。

これこそが、マスターコントロールが解決しようとした根本的な課題です。すなわち、生成AIの力を活用しながら、ライフサイエンスメーカーが求める決定論的で信頼性の高い出力をどのように確保するか、という問いです。

決定論的制御のもとに置かれた生成的知性

マスターコントロールのAIへのアプローチは、シンプルながらも力強い原則に基づいています。生成ツールと決定論的制御プレーンを持つシステムは、決定論的な出力を生み出すというものです。これは単なる技術的な違いではなく、規制産業においてAIがいかに機能すべきかについての、根本的に異なる哲学を表しています。

例えて言えば、従来の生成AIは非常に知性が高いが、やや予測しづらいアシスタントのようなものです。文書の要約を依頼すれば、そのたびに異なる要約が返ってきて、詳細さや正確さもまちまちです。マーケティングコピーの作成やアイデアのブレインストーミングでは、こうした創造性は価値があります。しかし、規制対象の製造データを抽出する場面では、このばらつきは許容できません。

マスターコントロールのアプローチは、生成AIの柔軟性と厳格な構造的制御を組み合わせています。AIはさまざまな文書形式に適応し、予期しないばらつきに対処し、複雑なコンテンツをインテリジェントに解釈できます。しかし同時に、厳密な仕様に準拠した出力を常に一貫して生成し、厳格な検証チェックに合格しなければなりません。

基盤 - 共通言語としての構造化JSON -

マスターコントロールのアプローチの核心にあるのは、JSON（JavaScript Object Notation）—シンプルで構造化されたデータフォーマットです。JSONは些細な技術的詳細のように思えるかもしれませんが、実際には決定論的なAI出力を可能にする鍵です。

JSONが重要な理由

JSONは、複雑な情報を表現するための明確で曖昧さのない構造を提供します。人間が解釈する必要のある自由形式のテキストを生成する代わりに、マスターコントロールのAIシステムはJSONを生成します。JSONはマシンが即座に理解し、検証し、処理できます。この構造により、以下のことが保証されます。

重要な関係性が保持される。 製造工程はその親フェーズにリンクされ続け、親フェーズはその操作グループにリンクされ続けます。手順間の相互参照は維持されます。計算式、変数、許容範囲が保持されます。
検証が自動化される。 JSONには定義された構造があるため、自動化されたシステムはすべての必須フィールドが存在するか、すべての計算が完全であるか、すべての参照が正しく解決されるかを瞬時に検証できます。何も見落とされていないことを確認するための手動チェックは不要です。
コンプライアンスが組み込まれる。 GMP要件をJSONスキーマに直接エンコードすることで、マスターコントロールは抽出されたデータに規制上必要なすべての要素が自動的に含まれることを保証します。ユーザーは、構造そのものがコンプライアンスを強制していると信頼できます。
統合がシームレスになる。 構造化されたJSON出力は、手動での再フォーマットやデータ入力なしに、マスターコントロールの製造実行システム、品質管理ソフトウェア、分析プラットフォームに直接流れ込みます。

紙からデジタルへ - 現実世界の課題 -

製造オペレーターは、事前に印刷されたフォームに手書きで設備の計測値を記録しますが、既存のテンプレートテキストの上に数値を書き込むこともあります。品質検査員が署名と日付スタンプを押し、下の内容が一部隠れてしまいます。プロセスエンジニアは自動設備のプリントアウトを添付し、データテーブルやグラフを示します。何十年も前のコピーは、スキャン時のノイズ、影、汚れ、紙の劣化などを引き起こします。

各施設には独自のフォームがあり、それぞれのサイロの中で何年もかけてプロセス改善が積み重ねられてきました。施設固有の略語や記法が横行しています。表は複数ページにまたがり、ヘッダーの繰り返しも一貫していません。「上記の手順に従って」といった参照が標準的な番号付けの代わりに使われています。

汎用の文書抽出ツールは、このようなコンテンツに対して惨憺たる結果を出します。テキストは取得できても構造が失われる、表は識別できても列の位置がズレる、数値は抽出できても計測値なのか計算値なのか許容範囲なのかが失われる—そういったことが起こります。

技術アーキテクチャ - マスターコントロールの実現方法 -

マスターコントロールのソリューションは、複数の高度な技術を統合されたワークフローに組み合わせ、紙の文書を整備された構造化データへと変換します。

インテリジェントな文書理解

最初の課題は、これらの複雑な文書を単純に「読む」ことです。マスターコントロールは複数の技術を組み合わせたハイブリッドアプローチを採用しています。

MarkItDownは初期の文書構造抽出を担い、デジタルPDFから表・リスト・書式の階層構造を保持します。これは明らかな構造を捉える最初のパスと考えてください。
Qwen3-VL-8B（ビジョン言語モデル）は、文書を視覚的に解析し、画像からテキストを抽出し、複雑なレイアウトを理解し、手書きの注釈を解釈します。文字ごとに処理する従来の光学文字認識（OCR）とは異なり、このAIは人間が文書を見るように文脈と関係性を理解し、文書を実際に「見る」ことができます。
Tesseract OCRは適応的な設定のもとフォールバックエンジンとして機能し、劣化した難しいコンテンツでも確実に処理します。複数の設定パスが異なるテキストレイアウトや品質レベルに対応します。

このハイブリッドアプローチにより、手書き注釈で約85%の精度を達成します—従来のOCRをはるかに上回る精度—。また、印刷テキストでほぼ完璧な精度を維持し、単純なテキスト抽出ではなく視覚的な理解を通じて複雑な表構造を保持します。

スキーマガイド付き抽出 - 構造的思考をAIに教える -

決定論的な出力を可能にするアプローチが、スキーマガイド付き抽出です。AIに「製造データを抽出せよ」と指示する代わりに、マスターコントロールはTypeScriptのクラス構造を使って定義された、出力がどのような形であるべきかの正確なテンプレートを提供します。

TypeScriptはJSONスキーマや他の代替手段よりも効果的でした。その型システムが文書内の階層的な関係を自然に表現できるからです。オプションフィールド、明示的な型ユニオン、インラインドキュメントが、スキーマを煩雑にすることなく明確な制約を提供します。

これが強力な理由はこうです。AIは単にテキストを抽出するのではなく、非構造化コンテンツを特定の構造的要素にマッピングします。文書内で計算式に遭遇すると、計算式・変数・単位・許容範囲を持つ計算オブジェクトを作成することを把握しています。表を見れば、ヘッダーと行を保持します。製造工程を識別すれば、正しい親フェーズと操作グループを参照します。

スキーマには11種類のコンテンツタイプが含まれています。テキスト、表、計算式、画像、数値入力、日付、タイムスタンプ、選択フィールド、合否判定、リンク、添付ファイルです。各タイプには固有のフィールドと検証ルールがあります。この粒度の細かさにより、コンプライアンスにとって重要なセマンティクス（意味と関係性）がデジタル表現において保持されます。

スケールのための並列処理

ライフサイエンス環境のBMRは100ページを超えることが一般的です。このような文書を逐次的に処理すると、何時間もかかってしまいます。マスターコントロールのアーキテクチャは並列処理を使用し、実行時間を数時間から数分に短縮します。

このシステムは、3,000トークンの閾値を持つ貪欲な文章パッキング（greedy sentence-packing）を使って文書をインテリジェントにチャンク分割します。これにより、各チャンクの情報密度を最大化しながら、読みやすさのために文の区切りが尊重されます。大きな表のようなサイズの大きいコンテンツは、可能な限り構造を保持しながら分割されます。

複数のワーカーがチャンクを同時に処理し、それぞれが構造化JSONを生成します。結果を結合する際に一意の識別子を確保するため、システムはチャンク間で最大グループIDを追跡します。この並列アーキテクチャは、セクションを独立して処理しながらも文書の一貫性を維持します—あるチャンクで記録された逸脱事項は、別のチャンクの是正措置に適切にリンクされ続けます。

典型的な66ページのBMRの場合、処理時間は数時間の手動品質レビューから、88.77%の複合信頼スコアを持つ32分未満の自動抽出へと短縮され、完璧な階層保持と、規制コンプライアンスにとって最も重要な要素である計算式・条件ロジック・単位で100%の忠実性を維持します。

実世界の結果

json-01 json-02

トリプルレイヤー検証 - 一度のチェックでは不十分 -

マスターコントロールはAIを盲目的には信頼しません。すべての抽出結果は三層の検証を通過します。

構文検証は、JSONが正しく解析されているか、配列とオブジェクトが適切に形成されているか、予約タグが正しく使用されているかを確認します。これにより、基本的な構造的エラーが伝播する前に検出されます。
構造検証は、フェーズと工程の参照が正しく解決されているか、シーケンスが原文書と一致しているか、相互参照が一貫しているか、階層的な関係が保持されているかを確認します。これにより、文書固有の構成が保持されます。
（意味）検証は、計算式が有効であるか、単位と範囲が適切に形成されているか、合否ロジックが一貫しているか、すべての必須ヘッダーフィールドが入力されているかを確認します。この層はGMP要件を検証ロジックに直接エンコードします。

三層すべてを通過した抽出結果のみが次の段階に進みます。失敗した場合は、何を修正すべきかについての具体的なフィードバックとともに、人間によるレビューのためにフラグが立てられます。このマルチレイヤーアプローチにより、実世界のBMRで82%〜89%の複合信頼スコアを達成しながら、規制上重要な要素で100%の精度を維持します。

ThinkJSON - スキーマ準拠のさらなる追求 -

構造化抽出の基盤を構築したうえで、マスターコントロールはThinkJSONを開発しました。これは、大規模な迅速設計（プロンプトエンジニアリング）や後処理による修正を必要とせず、自然に厳格なスキーマ準拠の出力を生成するようAIモデルを教育する強化学習アプローチです。

ThinkJSONは、標準的な大規模言語モデルの根本的な弱点に対処しています。LLMは自由形式のテキスト生成には優れていますが、完璧なフォーマット準拠を維持する本質的なメカニズムに欠けています。慎重なプロンプト設計をしても、LLMはフィールドの欠落、不正なJSON、一貫性のないキーの使用といった出力を頻繁に生成します。規制対象の製造においては、このような逸脱は単に煩わしいだけでなく、自動化パイプラインを破壊し、デジタル記録の完全性を損ない、コンプライアンス違反を引き起こします。

ThinkJSONのイノベーション

マスターコントロールのアプローチは三つの主要要素を組み合わせています。

合成推論データセットは、複数のスタイル（ASCIIテーブル、PDFスニペット、手書きメモ）の非構造化テキストと入力済みJSONスキーマを対応付けます。システムは単に情報を抽出するだけでなく、非構造化データが構造化表現にどのようにマッピングされるかについて推論することを学習します。
GRPO（グループ相対的ポリシー最適化）を用いた強化学習は、カスタム報酬関数を使用して15億パラメータのモデルを訓練します。システムは複数の補完候補をランク付けし、上位の成果を報酬として与え、スキーマ準拠の出力を一貫して生成するようモデルを訓練します。報酬はJSONの有効性、構造的忠実性、タグの正確さを確認します。
教師あり微調整は、強化されたモデルをドメイン固有のトレーニングでさらに洗練させ、フィールド名が正しくスペルされ、ライフサイエンス専門用語が適切に処理されることを保証します。

結果は自明です。ThinkJSONはわずか0.27%の不要なノイズで62.41%の平均フィールドマッチを達成します—これは、元のDeepSeek R1（マッチ率41.43%、ノイズ11.14%）やGemini 2.0 Flash（マッチ率42.88%、ノイズ10.86%）を含む代替手段を大幅に上回ります。

特に印象的なのは、この性能が8枚のH100 GPUクラスターでの20時間のトレーニングと、単一のA100での3時間のトレーニングから得られていることです—厳格なスキーマ忠実性のために膨大な計算予算は必要ないことを示しています。この効率性により、このアプローチは、無制限の計算リソースを持つ業界大手だけでなく、中規模のライフサイエンスメーカーにとってもアクセス可能なものになっています。

実世界のインパクト - 数時間から数分へ、リスクから確信へ -

json-03

AIシステムの真の評価基準は、ベンチマークのスコアではなく実際のインパクトにあります。マスターコントロールのアプローチは、複数の側面にわたって具体的なメリットをもたらします。

時間の節約。 BMRの手動レビューには、1文書あたり約3時間かかります。年間1,200件のBMRを処理する中規模施設では、3,600時間—つまりフルタイム換算で1.7人分の工数—がバッチ記録のレビューだけに費やされます。MasterControlのシステムは、同じ文書を数分から数十分で処理し、品質チームをより付加価値の高い分析や意思決定のために解放します。
最も重要な部分での忠実性。 このシステムは、計算式・条件ロジック・単位・階層・シーケンスで100%の精度を達成します—これらはまさに規制上の影響が最も大きい要素です。粗い単語カバレッジは一部の文書で54%まで低下することがありますが（多くの場合、施設固有の略語が原因）、文脈を考慮したカバレッジは93%以上を維持しており、重要な意味は常に捉えられています。
数十年分の製造ノウハウの解放。 ほとんどのライフサイエンス企業は、紙の形式でロックされた20,000件以上の過去のBMRを保有するアーカイブを持っています。1人あたり1日2〜3文書という手動変換レートでは、包括的なデジタル化には27人年もの工数が必要になります。マスターコントロールの自動化アプローチはこれを実現可能にし、製造業者が数十年分の生産データを歩留まり最適化・予知保全・品質トレンド分析のために分析できるようにします。
構造を通じたコンプライアンスへの確信。 検証は個別の手動レビューステップではなく、抽出プロセスに組み込まれているため、品質チームはデジタル化された記録がGMP要件を満たしていると信頼できます。構造化されたJSONフォーマットは、必要なすべてのフィールドを自動的に含み、適切な関係性を維持し、監査証跡を保持します。

展望 - 決定論的AIの優位性 -

マスターコントロールのAIへのアプローチは、単なる技術的成果以上のものを意味します—それは、規制産業において人工知能がいかに機能すべきかという新しいパラダイムを示しています。重要な洞察は、生成AIと決定論的な出力は矛盾する目標ではないということです。適切なアーキテクチャがあれば、現実世界の文書バリエーションに対応する柔軟性と、ライフサイエンス製造が求める信頼性の両方を実現できます。

この哲学はバッチ記録のデジタル化にとどまりません。構造化された出力・マルチレイヤー検証・スキーマガイド付き処理という同じ原則は、AIが信頼性の高いコンプライアンス準拠の結果を生成しなければならないあらゆるシナリオに適用されます。マスターバッチ記録テンプレートの生成、逸脱レポートの分析、製造手順の最適化—いずれの場合も、生成ツールと決定論的制御プレーンの組み合わせにより、インテリジェントでありながら信頼できる出力が保証されます。

マスターコントロールの構造化JSONアプローチは、ThinkJSONによって強化され、実世界のBMR処理によって検証されており、選択を迫られる必要はないということを示しています。適切なアーキテクチャがあれば、AIは生成的であり、かつ生成ツールがライフサイエンス製造の厳格な基準を満たす決定論的な出力を生み出すことができます。

マスターコントロールがAIをライフサイエンス製造の変革にどのように活用しているかについての詳細は、HuggingFaceのMasterControl AI/MLの研究をご覧いただくか、構造化AIアプローチがお客様のデジタルトランスフォーメーションの取り組みをどのようにサポートできるかについてお問い合わせください。

執筆者

Vice President of AI/ML and Data Science, MasterControl

Viktoria Rojkova

Dr. Rojkovaは、15年以上にわたり、収益を生み出す機械学習サービスの構築・運用、および企業のAI統合支援に携わっています。マスターコントロール入社以前は、デロイトで機械学習および機械学習運用エンジニアのチームを率い、電力・公益事業向けのコンピュータービジョンや予知保全、医療画像セグメンテーション、音声タスク指向の言語非依存型対話アシスタント、ナレッジグラフ、ヘルスケアおよびライフサイエンス向けのポリシー学習など、マルチモーダルアプリケーションの構築とサポートを担当しました。また、アップル、ライフロック/アイディアナリティクス、カーネルでの機械学習および自然言語処理の経験も有しています。 Dr. Rojkovaは、モスクワ国立大学で神経科学の学士号を取得後、イリノイ大学アーバナ・シャンペーン校で心理学および認知神経科学の修士号、ルイビル大学でコンピュータサイエンスの博士号を取得しました。応用AIおよび機械学習分野において、論文や特許の著者および共著者として名を連ねています。

Machine Learning Research Scientist, MasterControl

Bhavik Agarwal

Bhavik Agarwalは、MasterControlの機械学習研究科学者であり、実世界の規制対象となる生産環境向けに設計された、信頼性の高い小型言語モデル（SLM）およびマルチエージェントシステムの開発に従事しています。「From Paper to Structured JSON」（EACL 2026）および「RAGulating Compliance」（International Semantics Web Conference 2025）の筆頭著者として、複雑なデジタル記録を検証可能な構造化データに変換するエージェント型ワークフローの構築を専門としています。また、取得済みの特許および審査中の特許の共同発明者でもあります。
バヴィクの現在の研究は「システムのための機械学習（ML for Systems）」、特にLLMの事前学習および推論におけるGPUの性能を最大限に引き出すことに焦点を当てています。ジョンズ・ホプキンス大学（コンピュータサイエンス修士）およびIIIT-デリー（コンピュータサイエンス学士）の卒業生であるバヴィクは、Hugging Faceに13以上のモデルを公開している著名なオープンソース貢献者でもあります。

AI/ML Co-Op Intern, MasterControl

Nidhi Bendre

Nidhi Bendre は、ノースイースタン大学の学部生で、データサイエンスとヘルスサイエンスのダブルメジャーを専攻しています。彼女の研究関心は、機械学習、自然言語処理、および生物医学的応用が交わる領域にあります。彼女はハムリン教授の指導の下、LLMのトークンサンプリングに対する擬似乱数生成器の影響に関する研究を行い、その成果がPEAK賞を受賞しました。2025年7月から12月にかけて、彼女はMasterControlでAI/MLコープインターンとして勤務し、医薬品のバッチ記録のための自律型文書処理パイプラインを開発しました。

設計による決定論～構造化JSONと決定論的AIがライフサイエンス製造をどのように変革しているか～

AIの可能性と規制上の現実

決定論的制御のもとに置かれた生成的知性