eMERGEネットワークにおける自然言語処理による計算可能な表現型の移植性の評価

Scientific Reports volume 13、記事番号: 1971 (2023) この記事を引用

1055 アクセス

6 オルトメトリック

メトリクスの詳細

電子医療記録とゲノミクス (eMERGE) ネットワークは、電子医療記録 (EHR) を使用する既存のアルゴリズムのパフォーマンスを向上させるために、自然言語処理 (NLP) コンポーネントを追加した移植可能な表現型ルールベースのアルゴリズムの導入の実現可能性を評価しました。 eMERGE は、科学的メリットと予測される難易度に基づいて、NLP で強化する 6 つの既存の表現型を選択しました。パフォーマンス、携帯性、使いやすさを評価しました。私たちは次の点から学んだ教訓を要約しました。(1) 課題。 (2) 既存の証拠や eMERGE の経験に基づいて課題に対処するためのベストプラクティス。 (3) 将来の研究の機会。 NLP を追加すると、1 つを除くすべてのアルゴリズムで精度および/または再現率が向上、または同等になりました。移植性、表現型ワークフロー/プロセス、テクノロジーが主要なテーマでした。 NLP を使用すると、開発と検証に時間がかかりました。 NLP テクノロジーの移植性とアルゴリズムの複製可能性に加えて、成功を確実にする要素には、プライバシー保護、技術インフラストラクチャのセットアップ、知的財産契約、効率的なコミュニケーションが含まれます。ワークフローを改善すると、コミュニケーションが改善され、実装時間が短縮されます。 NLP のパフォーマンスは、主に臨床文書の不均一性により変動しました。したがって、半構造化されたメモ、包括的なドキュメント、カスタマイズオプションを使用することをお勧めします。 NLP の移植性は、表現型アルゴリズムのパフォーマンスが向上することで可能になりますが、ローカルなカスタマイズをサポートするには、アルゴリズムの慎重な計画とアーキテクチャが不可欠です。

大規模な電子医療記録 (EHR) データから完全かつ詳細な表現型情報を正確に抽出することで、精密医療研究の効率と精度が向上します。ただし、特に属性が一般的に請求されない場合や、微妙な解釈が必要な場合は、構造化データだけでは多くの条件を完全に特定したり説明したりするには不十分であることがよくあります 1、2、3、4。自然言語処理 (NLP) と機械学習 (ML) は、微妙な EHR ナラティブを使用した深い表現型解析を可能にすることを約束します 5、6、7、8。

MedLEE9、CLAMP10、cTAKES11、MetaMap12、13 などの洗練された NLP パイプラインの両方。正規表現 (RegEx) とロジックを組み合わせた、より単純なルールベースのアプローチ。深い表現型解析に利用されることが増えています14。しかし、臨床医が使用する異種の EHR システムと異質な文書化アプローチを考慮すると、広範な一般化可能性と表現型アルゴリズムの移植性を達成することは困難です 15。たとえば、Sohn et al. は、2 つのコホート間の喘息関連の臨床文書の差異が NLP システムの移植性にどのように影響するかを報告しました 16。さらに、ドキュメントの種類と構造は EHR ごとに異なり、一部のサイトには他のサイトより多くの非構造化データが含まれています。略語、用語、その他の言語の使用法も、施設、臨床医、時代によって異なります。例えば、Ａｄｅｋｋａｎａｔｔｕら。専門的な心エコー検査情報抽出システムの移植性を評価した 3 つの異なる機関にわたって、さまざまな概念を文書化するために使用されるローカルのテキスト形式と語彙の異種性によるシステムパフォーマンスのばらつきを報告しました17。

生物医学 NLP コミュニティは、これらの問題に対処するために、テキストの意味的類似性の測定、アンサンブル NLP システムの展開、包括的な用語辞書の使用、テキストのデータ標準 (Fast Health Interoperability Resources (FHIR) やObservational Medical Outcomes Partnership (OMOP) 共通データモデル (CDM)18. 具体的には、Liu et al.19 は、NLP システムのアンサンブルが、個々のシステムに対する一般的な表現型概念の認識と患者固有の表現型概念の識別の両方を通じて移植性を向上できることを実証しました。さらに、Jiang ら。らは、FHIR 標準を活用して、表現型検査のための構造化臨床データと非構造化臨床データの両方を統合するスケーラブルなデータ正規化パイプラインを開発しました20。最後に、Sharma ら。は、表現型の概念を抽出し、統一医療言語システム (UMLS) を使用して正規化し、OMOP CDM21 にマッピングすることにより、ポータブル NLP システムを開発しました。

eMERGE (電子医療記録およびゲノミクス) ネットワークは、ゲノミクスと EHR の交差点を研究するために、2007 年に国立ヒトゲノム研究所 (NHGRI) によって組織され、資金提供を受けました 22、23、24、25、26。ネットワークの最も永続的な貢献の 1 つは、遺伝子研究のために EHR 内の一般的な疾患を特定するための計算可能な表現型の開発です。各表現型アルゴリズムは複数のサイトで検証されており、Phenotype KnowledgeBase (PheKB.org) で公開されています27。過去 14 年間にわたり、eMERGE Network は表現型アルゴリズムの開発、検証、実装においてかなりの経験を蓄積してきました17,22,23,24,25,28,29,30,31,32。複数の参加機関間のこの協力は、さまざまな設定にわたる EHR の「ビッグデータ」の NLP パフォーマンスと移植性を調査する貴重な機会を提供します。現在進行中の重要なタスクは、NLP を使用した移植可能な表現型アルゴリズムの開発、検証、実装におけるベストプラクティスの知識ギャップを特定することです。

eMERGE ネットワークのフェーズ III (2015 ～ 2020 年) の目標の 1 つは、NLP/ML を既存の eMERGE 表現型アルゴリズムに組み込んで、パフォーマンスを向上させたり、サブ表現型をより正確に確認したりすることでした。この目的を達成するために、2019 年から 2020 年にかけて、既存のルールベースの表現型アルゴリズムに NLP コンポーネントを組み込んだ移植可能な表現型アルゴリズムの導入の実現可能性をテストするための 1 年間のパイロット研究が実施されました。具体的には、NLP を使用して部分集団を特定し、既存の表現型アルゴリズムを改善することを目的としていました。私たちは遺伝子研究のために症例 (場合によっては対照) を特定するため、特定の表現型を持つ正確に特定された患者 (症例) をできるだけ多く持つことが重要です。したがって、改善は、症例数を増やすための再現率の向上、または症例数の増加のいずれかとして定義されます。および/または精度が向上して、より高い割合の真のケースを正確に特定できるようになりました。私たちは、サイト間を含む現場での経験が非常にばらつきがあるため、マルチサイトアプリケーション向けのポータブルで正確かつ効率的な NLP ツールの開発は、サイト内およびサイト間の人的および技術的リソースの利用可能性に依存すると仮説を立てました。これらは、情報を正確に抽出する NLP システムの能力に影響を与える、異なる環境などのさまざまな異質性の原因を明らかにし、対処できなければなりません。この eMERGE の取り組みを反映して、このペーパーの目的は次のとおりです。(1) NLP/ML コンポーネントを追加した eMERGE 表現型アルゴリズムの実装中に直面した課題を報告し、(2) 我々が遭遇した、および/またはレビューで発見したベストプラクティスを推奨することです。、移植可能な表現型アルゴリズム、特に NLP/ML コンポーネントを使用したアルゴリズムを実装するために、他の人がこれらの課題を克服できるように支援します。

これらの目的を達成するために、eMERGE 表現型解析ワークグループの NLP サブワークグループが形成されました。このグループには、フィラデルフィア小児病院 (CHOP)、シンシナティ小児病院医療センター (CCHMC)、コロンビア大学、ガイシンガー、ハーバード大学の 9 つの eMERGE 施設の代表者が参加しました。 /ブリガム陸軍大将、カイザー・パーマネンテ・ワシントンおよびワシントン大学 (KPWA/UW)、メイヨー・クリニック、ノースウェスタン大学 (NU)、およびヴァンダービルト大学医療センター (VUMC)。科学的メリットと予測される難易度に基づいて、グループは、NLP で強化する既存の計算可能な表現型アルゴリズムを使用して、慢性鼻副鼻腔炎 (CRS)33、心電図 (ECG) 特性 34、全身性エリテマトーデス (SLE)35、喘息/慢性閉塞性肺疾患の 6 つの表現型を選択しました。（COPD）重複（ACO）36、家族性高コレステロール血症（FH）37、アトピー性皮膚炎（AD）38。すべてのアルゴリズムはケース制御アルゴリズムでした。具体的には、各アルゴリズムで定義された表現型を有する患者と表現型を持たない対照を症例とした。サブ表現型には、ブルガダ症候群、鼻ポリープの有無にかかわらずCRS、SLEおよびADのサブタイプなどのECGレポート上の形質が含まれます。

時間制限に対応し、臨床医が最小限の NLP トレーニングを受けて実施する障壁を下げるために、研究の不均一性を減らすために、NLP パイプラインを経験のあるものに限定しました 39,40,41,42,43,44。最近のレビュー 45 に見られるように、医療現場で現在使用されているさまざまな NLP ツール。この目的を達成するために、NLP プラットフォームの選択は、サイトが最も使用経験のあるプラットフォームの調査に基づいて行われました。選択されたツールは、cTAKES11、MetaMap12、13、および/または正規表現 (RegEx) と、一般的に採用されている 2 つの否定検出モジュール (ルールベースの NegEx および ConText46、47) です。修正された AD および COPD/ACO 表現型アルゴリズムには ML コンポーネントも含まれており、それぞれ Python と Java で書かれたカスタムコードが使用されました。表現型と目標および選択したツールを表 1 に示します。アルゴリズムの詳細は PheKB.org27 で入手できます。

私たちの目的に従って表現型アルゴリズムを検証するために、元のおよび新しい NLP 強化表現型アルゴリズムの両方によって患者が症例 (および/または対照) として正しく識別されたかどうかを検証することに重点を置きました。元のアルゴリズムは以前に検証されています33、34、35、36、37、38。次に、この研究では、「リード」（プライマリ）施設が、以前に主導していた元のアルゴリズムに NLP コンポーネントを追加しました（1 つの例外、AD は以前は小児科施設が主導していましたが、このパイロットプロジェクトでは）成人向けサイトが主導）。次に、リードサイトは、患者のカルテ、および必要に応じてそれらの患者の臨床ノートからランダムに選択されたサブセットの手動カルテレビューを通じて、NLP/ML 強化表現型アルゴリズムを検証しました。次に、eMERGE 表現型アルゴリズム 23 の開発では一般的ですが、リードサイトは少なくとも 1 つの「検証」（二次）サイトと連携して、手動レビューで計算された満足のいく精度と再現率が達成されるまで、必要に応じてアルゴリズムをさらに調整しました。具体的には、ここで使用された eMERGE ネットワークの表現型アルゴリズム検証手順 23 には、特定の表現型の診断と治療に経験のある臨床医、または高度な訓練を受けた医療専門家がいる施設が関与し、患者の健康記録全体における表現型の有無を確認します。（臨床テキストだけでなく）、必要に応じて、徴候や症状などの詳細な特徴も表示します。 eMERGE 内でもよくあることですが、可能であれば少なくとも 2 人がチャートをレビューし、評価者間の信頼性を確保するために最初に同じチャートを少なくともいくつかレビューし、可能であればより上級の人物が差異を判断します。あるいは、査読者が 1 人だけの場合、その人は表現型の専門家です。たとえば、ACO 表現型の発達については、2 人の呼吸器科医が検討し、3 人目の呼吸器科医が不一致のラベルを調整しました。一方、KPWAでは、同じ表現型について、カルテのレビューは、抄録者の能力を超えた疑問や懸念を解決するために抄録者を支援するMD臨床医とのアクセスを伴う、臨床医ではないプロのカルテ抄録者1名によって行われた。同様に、メイヨーとガイジンガーでは 1 人の医師がチャートをレビューし、VUMC では上級心臓専門医がすべての ECG レポートをレビューし、SLE については、SLE 研究を行っているリウマチ専門医がそのレビューを行いました。主要施設は約 50 人の患者のカルテをレビューし、少なくとも 1 つの検証 (二次) 施設はその後約 25 枚のチャートをレビューします。レビューされるチャートの数は、表現型に応じてさらに多くなる場合があります 23、24、25、26、27。勉強。表現型アルゴリズムが症例と対照の両方を識別するためのものである場合、レビューされるチャートの総数には両方が含まれます (たとえば、合計で 50 のチャートがレビューされる場合、約 25 の潜在的な症例と 25 の潜在的な対照)23、24、25、26、27 、この研究で複数の表現型で見られたように。最後に、表現型アルゴリズムは実装のためにすべての参加施設に配布され、実装施設からのフィードバックに基づいて必要に応じてさらに反復的に改善されました。ここでレポートするためにすべての変更が加えられた後、必要に応じて、最終的な精度統計が再計算されました。

次に、NLP の手法とツールを遡及的に比較して、パフォーマンス、移植性、使いやすさを評価しました。これを行うために、開発、検証、および/または実装された各表現型アルゴリズムに関する簡単な非公式調査を通じて、NLP/ML アルゴリズムの作成と共有に関して学んだ教訓を報告するよう施設に依頼しました (質問は補足付録 A にリストされています)。定量的には、元の表現型アルゴリズムと修正された (NLP を追加した) 表現型アルゴリズムの両方について、リード検証サイトと (二次) 検証サイトの両方でパフォーマンス (特に再現率と精度) を報告するよう施設に依頼しました。また、サイトには、開発、検証、実装を完了するまでにかかるリソースの量と時間を見積もることも求められました。これらの見積もりは、作業完了後の概算に基づいています。さらに、担当者は通常、アルゴリズムに 100% の時間を費やすわけではないため、時間の見積もりは労力の割合に依存するため変動します。また、一部のサイトでは、タスクを完了するために必要な専門知識を必要とする人々 (臨床、情報学、EHR アナリストなど) をオプションで分離していました。物理リソースは、データのクエリやアルゴリズムの実行に必要なサーバーの数として報告されました。定性的に、各サイトは各アルゴリズムの実装がどの程度難しいと感じているかを報告するよう求められました。アルゴリズムの実行に必要なローカルのカスタマイズを含む、移植性の高さ。技術的またはパフォーマンスの問題を含む、共有時にサイトによって特定されたその他の問題。エクスペリエンスに関する追加の定性的フィードバックは、毎月のワークグループ会議やサイトからの直接の電子メールから非公式に収集されました。

根拠のある理論 48 を使用して、すべての定性的フィードバックの独立したレビューを通じて 2 人の著者 (JAP、LVR) によって主題分析が実施されました。まず、キーフレーズを特定し、それらを大まかに分類するために、問題または懸念事項のカテゴリーに関するオープンかつ軸方向のコーディングが完了しました。コーダは選択的コーディングを使用して軸方向コードを包括的な階層コードブックに改良し、フィードバックを独立して再コーディングし、コンセンサスを達成するためにレビューしました。コードを繰り返しレビューすることで、新たなテーマが特定されました。次に、学んだ教訓のレビューと要約を作成しました。次の内容が含まれます。(a) 各テーマの課題。 (b) 既存の公開された証拠および/または eMERGE ネットワークの経験に基づいて、これらの課題に対処するための対応するベストプラクティス。 (c) 該当する場合は、将来の研究の機会。最後に、信頼性を評価するために、結果が共著者に提示され、必要に応じて教訓や推奨事項がさらに洗練されました。

各施設の治験審査委員会（IRB）に従って、研究に関与するすべての被験者からインフォームドコンセントが得られました。この研究は、各施設で承認された治験審査委員会プロトコルを含むヒト参加者の生体医学データの使用に関する関連ガイドラインと規制、およびヘルシンキ宣言に従って実施されました。

表現型アルゴリズムごとに、精度統計と必要な人員を表 2 に示します。すべてのサイトで報告されているわけではありませんが、関係者の役割にはプログラマー、臨床医、計算言語学者が含まれていました。表現型アルゴリズムの検証では、ほとんどの施設が eMERGE 内の標準である 50 ～ 100 人の患者のカルテをレビューしましたが、その範囲はさまざまでした。リード施設では 46 から 972 のチャートをレビューし、中央値は 100 のチャートをレビューし、検証施設では 50 〜 972 のチャートをレビューしました。 950 のチャート、中央値 65 のチャートがレビューされました。これらの患者カルテのレビューから、1 つのアルゴリズム (全体的に精度が低下した SLE) を除くすべてのアルゴリズムについて、リード (一次) 検証サイトと (二次) 検証サイトの両方で、全体的な精度と再現率は変化しないか、改善されました。サブ表現型の精度統計の変化は、サブ表現型と開発および検証サイト間で異なりました。表現型アルゴリズムのパフォーマンスの違いは、使用されたツールとは関連していませんでした。 2 つのサイトのみが、使用された EHR (臨床テキストと研究室などの離散データの両方を含む) 内のレコードの数と、最終的な NLP/ML 拡張表現型アルゴリズムの実装について記録しました。ECG アルゴリズムについては、次のことが記録されただけです。 VUMC の実装では、EHR からの 100 万件を超える ECG 記録が使用されました。 SLE アルゴリズムでは、VUMC の実装のために 4,468 人の患者からの 185,838 件のメモが処理されました。 AD アルゴリズムについては、4,094 人の患者のメモ、研究室、および/またはコードが別の施設の実装のためにレビューされました。

最後に、リードサイトと検証サイトによる開発と検証 (チャートレビューを含む) にかかる時間は、その後の他のサイトによる実装よりもかなり長かったです。具体的には、開発と検証に 6 か月以上かかるのに対し、実装には数週間しかかかりません。たとえば、ECG の開発と検証には 11 か月かかりましたが、サイトの実装には 1 ～ 3 週間しかかかりませんでした。また、各サイトではアルゴリズムの実行に 1 ～ 2 台のサーバーが必要であると報告されていますが、サーバー構成に関する詳細は提供されていません。

図 1 は、定性分析から特定された 3 つの主要なテーマ、つまり移植性、表現型解析のワークフロー/プロセス、およびテクノロジーを示しています。すべてのテクノロジーが別のテーマに関連付けられていたため、テクノロジーテーマは他の 2 つの主要なテーマの修飾子であることがわかりました。このアプローチは、1 つ以上のテクノロジーに強く関連する繰り返しのテーマを特定するための分析および要約フェーズに使用されました。各テーマは表 3 にまとめられており、完全なコードブックは補足付録 B で入手できます。

3 つの重複するテーマがありました (ポータビリティ、フェノタイピングのワークフロー/プロセス、およびテクノロジー (の使用)。各テーマのサブテーマがボックス内に表示され、各ボックス内にさらにサブテーマが箇条書きで表示されます。各レッスンについて、 NLP 自然言語処理、cTAKES テキスト解析、知識抽出システムなどの技術が使用されていると記載されていましたが、技術自体に問題はなく、単に技術の使用が記載されていました。

移植性とさまざまなテクノロジーの使用の両方を含む、いくつかの共通のサブテーマが特定されました。データのフィルタリングも、アルゴリズムの適切な選択と、データ量を減らしてソフトウェアのパフォーマンスを向上させる適切なフィルタの両方にとって重要でした。もう 1 つの重要なサブテーマは、テクノロジーの移植性を支援する専門スキルを持つチームメンバーの必要性と、チームメンバーが十分にコミュニケーションをとる必要性の両方である人材の必要性でした。

表現型アルゴリズムの移植性に関する考慮事項は 2 つのサブテーマに分割されました。最初のテーマは、アルゴリズムの移植性、つまり、リードサイト以外のサイトで ML および/または NLP アルゴリズムがどのように実行されるかでした。これは、アルゴリズムのパフォーマンスが表現型によって異なる可能性があるという確立された観察を強化しました。たとえば、アトピー性皮膚炎の場合、（二次）検証サイトでは、関連する皮膚科記録の多くが紙に取り込まれており、そのテキストは解析可能な形式に変換されて EHR に変換されませんでした。したがって、EHR ベースのアルゴリズムには、多数の偽陰性結果。

臨床ノートの形式を含め、さまざまな施設での文書の形式、構成、分類も、アルゴリズムの移植性において役割を果たしました。これは、ECG やその他の処置や検査レポート、オフィス/診療所での診察/訪問のメモなど、使用されるメモのすべての種類にわたって問題でした。多くのサイトでは、NLP で処理する適切なドキュメントを特定する際の課題について説明していました。たとえば、表現型アルゴリズムには「放射線医学メモ」が必要ですが、画像、病理学、微生物学などの幅広いカテゴリのメモを識別するためのアプリオリな意味論的なグループ化が各実装現場で容易に利用可能ではありませんでした。代わりに、サイトはローカルのドキュメントタイプを確認して、アルゴリズムで指定されたドキュメントタイプにマッピングする必要がありました。同様の問題は、メモが関連付けられている医療専門分野/部門、およびメモ内の特定のセクションでも発生しました。これらの問題を解決するには、手動によるレビューが必要になることがよくありました。予期せぬ発見は、一般的な患者向け教育資料を臨床ノートに含めることも、一部の施設でのパフォーマンスに悪影響を与えるということでした。

最後に、各サイトは、NLP と ML 内のよく知られた課題が依然として存在していることを認めました。最も一般的な課題は否定でした。これは、用語やフレーズが存在しない、または真実ではない場合に、その文脈から推測するタスクです。モジュールがいくつかの否定インスタンスを正しくキャプチャできなかったため、いくつかの NLP コンポーネントでパフォーマンスの損失が発生していることが観察されました。たとえば、「心房細動/粗動はもう存在しません」がケースとして誤って識別されました。使用される NLP テクノロジーに関係なく、否定を正確に検出することは困難な場合があります49。否定に加えて、言語の使用法や文書の形式も教育機関によって、あるいは同じ教育機関の専門分野によっても異なる可能性があり、NLP のパフォーマンスに影響を及ぼします。一例として、テキスト内の区切り文字としてコロンが使用されていましたが、これは一部のサイトでは終了文字として解釈され、他のサイトではリストの開始として解釈されました。診断の不確実性（診断が不明瞭であることがテキストで示されている場合）やまれな用語も言語的特徴として問題として指摘されていますが、前者を軽減するための NLP ソリューションが存在しない可能性があることに注意してください。

移植性に関して特定された 2 番目のサブテーマは、アルゴリズムコードの実行、具体的には NLP/ML ソフトウェアの実行を中心としたものでした。 NLP は 2 つのシステム (cTAKES と MetaMap) に制限されていましたが、これらのシステムを異なるコンピューティング環境 (異なるオペレーティングシステムなど) でセットアップして実行すると、課題が生じました。さらに、表現型アルゴリズム全体の ML およびルールベースのコンポーネントに使用されるプログラミング言語には制限はありませんでした。サイトでは、特定のプログラミング言語 (Ruby など) が教育機関全体で広く使用されていないことが指摘されています。一部の教育機関にとって、これは言語がサポートされていないことを意味し、そのためアルゴリズムコードを実行できませんでした。他の人にとっては、その言語は好まれない言語であり、処刑を支援するために地元の専門家を見つける必要がありました。これにより、「リソースのニーズ」に関する 2 つの追加テーマが浮上しました。それは、NLP/ML を実行する専用サーバー環境と、専門スタッフ (NLP の経験を持つ人がほとんど) です。

サイトが NLP システムやプログラミング言語にどれだけ慣れているかに関係なく、ローカルで実行する前にアルゴリズムコードを変更する必要が頻繁にありました (「カスタマイズ/ローカリゼーション」)。これらの変更は通常、コードやドキュメントの入力形式のファイルパスの変更などの軽微なものでした。その他の変更には、臨床テキストの個別の前処理ステップが含まれます。これは、「サイト間のデータの異質性」サブテーマで指摘された一般的な問題に対する技術的解決策です。

サイト間で注目されたもう 1 つの違いは、NLP/ML を実行するまでの合計経過時間と実際の実行時間の両方に関連する「パフォーマンス (速度)」です。サイトは、通常、データ準備の手順が最も労働集約的であり、サイトによって必要な時間に大きなばらつきがあると指摘しました。実行時間は、計算リソースと利用可能なテキスト情報の量によって異なります。メモリを大量に消費するテキスト処理により、あるサイトでは、リソースが限られている PC 上で Jupyter ノートブックとして NLP アルゴリズムをデプロイすると「実行に 2 時間以上かかる」ことがわかり、そのサイトでは Python コードを抽出してサーバーに直接デプロイしました。メモリとディスク容量が拡張されます。ノートのフィルタリングは、パフォーマンス関連の一般的なテーマでした。導入された一部の NLP アルゴリズムは、すべての臨床メモを処理しますが、サイトによっては、フィルタリング後でもメモの数が非常に多く、少なくとも 1 つのサイトでは 100 万件を超えるため、これは実行不可能でした。これに対処するために、施設はノートを処理する患者を事前に選択するか、処理する適切な臨床ノートの種類を絞り込むことによってフィルターを適用しました。患者の事前選択/フィルタリングは、特定の表現型の診断コードを持つ、またはそれに関連するすべての患者を選択するなど、非常に広範でした。

サイトはまた、複数のテクノロジー (「異種環境」) の使用が移植性をどのように妨げているかについても指摘しました。前述したように、テクノロジーによっては、現地の専門家が必要でした。これらの担当者の空き状況を見つけて調整することで、一部のサイトでは実装にかかる合計時間が長くなりました。複数のテクノロジーにまたがって、または場合によっては同じテクノロジーを使用している場合でも、アルゴリズムがばらばらのスクリプトまたはプログラムとして実装されていました (「統合の欠如」)。サイトでは、これらの各ステップを個別に実行する必要があるため、実装の合計時間が長くなることが指摘されています。

ソフトウェアのクラッシュを引き起こす境界条件チェックの欠如など、ソフトウェア実装に関連するその他のテーマもサイトで指摘されました。これには、予期しない null/空/不正な形式の入力などが含まれます。また、問題のトラブルシューティングと解決に時間がかかるため、実装の遅延も増加しました。

サイトでは、臨床ノートには患者の識別情報が含まれることが多いため、患者のプライバシーを確保するために追加の措置を講じる必要があると報告しました。ある施設では、NLP を実行するために臨床ノートにアクセスするために追加の承認が必要でした。別のサイトでは、NLP をローカルで実行し、最終的な出力/結果を配布することで、臨床ノート全体をアルゴリズム作成者と共有する必要があるという複雑さを回避したことが観察されました。したがって、出力を共有するだけで、サイトとネットワークが匿名化されたデータを維持できると同時に、各機関の EHR をより詳細に検索できるようになります。

技術テーマとアルゴリズムテーマの両方にまたがるドキュメントが不足していました。サイトでは、表現型アルゴリズムの実行方法に関する十分な文書や指示が常に利用できるわけではないと指摘しました。さらに、アルゴリズムの意図された機能や必要な正確な入力についての文書化が不十分であったため、実装が複雑になりました。後者の場合、サイトはコード自体を読み取る必要がある場合がありますが、これには十分なドキュメントやコメントも不足していました。

導入プロセス中に、各サイトは通信の問題に関連した遅延が発生していることに気づきました。たとえば、文書が不足している場合、サイトはさらなる情報を要求することになります。応答を待っている間、サイトは表現型アルゴリズムから別のプロジェクトに焦点を移す必要があり、サイトが焦点を戻すまでにさらなる遅延が発生する可能性があります。

あるサイトでは、所属機関における知的財産 (IP) への懸念により実装と普及が遅れていると指摘しました。 NLP と ML は通常、リソースへの多額の投資を必要とするため、このサイトの内部開発システムは保護された IP とみなされました。このサイトは、サイト間で共有できる NLP アルゴリズムのバージョンを確立するために取り組みました。レビューの実施と承認の確保にかなりの時間を要したため、全体的な実装スケジュールが遅れました。

表現型解析プロセスの調整にはコードの移植/再書き込みも含まれており、これは 2 つの形式で行われました。 1 つ目はこの調査に特有のもので、使用される NLP パイプラインを制限するというネットワークの決定によって引き起こされました。 1 つのサイトには、選択されたものではない既存の NLP パイプラインがありました。その結果、サイトは NLP アルゴリズムを cTAKES に移植する必要がありました。アルゴリズムの移植版で問題が特定されたため、修正が必要でした。 2 番目の形式の移植は、サイト固有のニーズ、要件、または提供されたアルゴリズムをリファクタリングまたは書き直すという好みによって推進されました。たとえば、あるサイトでは Ruby RegEx 実装を Python で書き直しました。

全体として、ネットワークは、特に NLP/ML アルゴリズム (ただしこれに限定されない) の開発を導き、検証プロセスを改善するための新しい表現型ワークフローの必要性を特定し、提案しました (図 2)。既存のワークフロー 23 では、リード (プライマリ) サイトがアルゴリズムを開発し、その後アルゴリズムを検証するまで、セカンダリサイトのアルゴリズムの検証は開始されませんでした。したがって、最初のワークフロー改善は、特に NLP/アルゴリズムを開発するためにトレーニングセットが必要な ML アルゴリズム。これには、ワークフローの開始時に、患者のトレーニングおよび検証セットが選択される定義されたコホートの EHR をスクリーニングする必要があります。たとえば、高感度フィルターとして、その表現型に対する少なくとも 1 つの国際疾病分類 (ICD)-9/ICD-10 コードをスクリーニングすることができます。したがって、その表現型が豊富な集団から無作為にサンプルを選択すると、通常 20 ～ 80% の範囲で妥当な有病率が得られます。このプロセスから、各施設は、各ゴールドスタンダードデータセットで少なくとも 50 人の確定症例という目標に向けて、臨床医が陽性症例または陰性症例、または未判定症例として分類するおそらく 100 ～ 200 人の患者のランダムサンプルを選択できます。プライマリデータセットで開発されたアルゴリズムは、セカンダリデータセットでテストできます。したがって、パフォーマンス指標が不十分な場合は、医療記録を追加でレビューすることなく、両方の施設のデータセットでアルゴリズムを修正してテストできます。したがって、リード（表現型作成）サイトは、（二次）検証サイトにリリースするための前提条件として「完璧な」アルゴリズムを作成するという固有のプレッシャーにさらされることが少なくなり、アルゴリズム開発プロセスが促進されます。

eMERGE 内でのポータブルな計算可能な表現型アルゴリズムの開発、検証、実装のために提案されたワークフローのフロー図。提案されたワークフローは、Newton らによって以前に公開されたワークフローから適応されました。 eMERGE23を代表して。

私たちは、eMERGE ネットワークの独自のリソースを活用して、NLP をポータブルな計算表現型に統合する利点と課題を評価しました。 NLP の利点は次のとおりです。よりまれな状態のより多くの症例を特定するための感度 (SLE および ACO) の向上。精度の向上（CRS）。より一般的な状況では重要な考慮事項です。 ECG ノートからサブ表現型を抽出するなど、詳細な表現型解析を可能にします。一般に、ポータブル NLP の追加により、リードサイトと検証サイトの両方でアルゴリズムのパフォーマンスが向上しました。同様に、臨床試験の募集のために患者を特定するための、ポータブルで計算可能な表現型解析アルゴリズムの実装により、アルゴリズムに NLP が追加され、アルゴリズムの再現率と精度が向上しました 26。

NLP のパフォーマンスは、臨床文書名と臨床ノートの基本構造が異なるため、施設間で異なる場合があります。理想的には、すべてのサイトに標準化された用語 (LOINC ドキュメントオントロジーなど) を導入すると、明示的な入力説明が提供され、不一致が軽減されます 18。ただし、現時点では明確な選択基準がないため、これらの標準用語を実装することは現実的ではありません。全体的なプロセスはコストと時間がかかり、選択の指針となる証拠が不十分な場合には変更が困難になる可能性があります。さらに、たとえすべての施設が臨床ノートに同じ用語と CDM を採用しているとしても、ノートはローカルのテンプレート、文書化パターン、文書の品質 (スペルミスやタイプミスなど)、全体的な EHR データ品質、およびサブ言語が異なる可能性があるためです。移植性は依然として課題です16,26。したがって、半構造化された臨床メモ（問題/投薬リストなど）から始めることをお勧めします。たとえば、最近の研究では、臨床研究にアレルギーリストを使用する利点が実証されています50,51。

特に、否定モジュールの一般化可能性は依然として NLP の未解決の課題であり、他のレポートと一致しています 49,52。否定言語のコードに修正ルールを追加するなど、否定に関する局所的な調整が必要になる場合があります。さらに、ソフトウェアコード内のエラーも、サイト間でアルゴリズムのパフォーマンスが異なる潜在的な原因でした。正式な共同バージョン管理システム (GitHub など) の使用は、コードやドキュメントの電子メール配布などの効果の低い他の手段よりも優先される必要があります。この理由と、すでに述べたその他の理由により、教育機関に開発プロセスの改善、包括的なドキュメントの提供、およびカスタマイズオプションの提供を要求することで、移植性をさらに向上させることができます。

NLP を使用して計算可能な表現型を適切に共有し、実装することは、NLP テクノロジーやアルゴリズム自体だけの問題ではありません。その他の重要な要素には、プライバシー保護、技術インフラストラクチャのセットアップ、知的財産契約、効率的なコミュニケーションなどが含まれます。たとえば、臨床メモは常に匿名化できるわけではないため、施設間でメモ例を交換できず、サイト間の検証が困難になる可能性があります。プライバシー保護生成敵対的ネットワークの最近の進歩により、NLP アルゴリズムの開発と検証に使用できる、構造の類似性が保持された偽のテキストデータが生成される可能性があります53。臨床テキストの転送を必要とせずにプライバシーを保護するための連合学習アプローチも登場しています54。メモに埋め込まれたフォーマット情報 (リッチテキスト形式 [RTF] など) は、表現型解析の結果を改善することが示されています 55。ただし、フォーマット情報のクロスサイト利用は、eMERGE ネットワーク全体で一貫性なく使用されます。インフラストラクチャの課題は、アルゴリズムとデータワークフローが事前にパッケージ化されており、ほとんど訓練を受けずに研究者が使用できるクラウドコンピューティングによって改善される可能性があります55,56。ただし、医療機関は保護された医療情報 (PHI) を共有可能なクラウドに置くことに抵抗があるかもしれません。この作業では明示的にテストされていませんが、最初にすべての臨床ノートの全文インデックスを作成すると、ルールベースの NLP システムで処理するノートが絞り込まれるため、実行時間が短縮され、インフラストラクチャのニーズが削減されると考えられます。

最後に、サイト間の効率的かつ効果的なコミュニケーションが重要です。私たちの従来のアプローチ (つまり、PheKB.org 上のコメントを介したコミュニケーション) は、タイムリーで反復的な双方向コミュニケーションには適していない可能性があります。さらに、他の人も指摘しているように、施設間、および必要とされるさまざまな種類の専門家 (つまり、臨床医、情報学者など) 間の協力が重要です 23,27,29。さらに、表現型解析アルゴリズムを特徴付けるための「単純さの指標」を開発すると、研究者は実装に必要なスキルをより簡単に判断できるようになります。たとえば、アルゴリズムに必要なデータタイプを、EHR からの抽出の単純さの順にランク付けできます。

この研究にはいくつかの制限があります。まず、MetaMap や cTAKES 以外の NLP パイプライン (CLAMP など) を使用したパフォーマンスの比較は、私たちのリソースとスケジュールを超えていました。 NLP プラットフォームの選択に対する私たちのアプローチは、私たちが最も経験のあるものに基づいていましたが、必ずしもプラットフォーム自体の強みや機能に基づいているわけではありません。私たちのアプローチの利点は、NLP 強化表現型検査を導入したい組織、場合によっては最小限の NLP トレーニングを受けた臨床医にとって、結果がより一般化できる可能性が高いことです。欠点は、最新の NLP アプローチを使用できなくなり、結果に影響を与える可能性があることです。他のパイプラインのパフォーマンスを評価するには、別の調査が必要になる場合があります。さらに、まれな表現型に対してポータブル NLP がどのように機能するかを評価できませんでした。ECG レポートからブルガダ症候群の患者を特定するつもりでしたが、評価に十分な症例が見つかりませんでした。前述したように、1 年間のパイロットプロジェクトの最後の四半期では、サイトはエクスペリエンスを定性的に評価し、パフォーマンス統計を超えた定量的なデータを収集することのみを求められました。したがって、サイトは少なくとも部分的に記憶に依存する必要があり、その結果、一部の詳細が失われていました。たとえば、残念ながらかなりの時間が経過していたので、費やした時間を正確に見積もることができませんでした。しかし、複数のサイトにまたがるチームメンバーが参加できるようになるまで待つ必要があるという複雑さが増すことを考慮すると、リアルタイムの経過時間を報告することがより重要であると考えました。さらに、時間と労力の正式で標準化された測定が使用されていなかったため、見積もりに依存することになりました。それは、一貫性のない報告や不正確な報告につながる可能性もあります。最後に、一部の表現型についてレビューしたチャートの数は少なく、少なくとも 1 つの表現型については 1 人だけがチャートをレビューしました。

結論として、NLP と ML を EHR 表現型解析アルゴリズムに組み込むと、表現型解析のパフォーマンスが向上し、詳細な表現型解析が可能になります。さらに、NLP を複数の部位に適用するにはいくつかの課題が伴いますが、再現可能なパフォーマンスを備えた NLP/ML コンポーネントを使用した表現型アルゴリズムを開発および実装することは可能です。最後に、NLP には、EHR 表現型解析と NLP に熟練し、コミュニケーションが上手な専任の人材が必要です。 NLP/ML を使用した表現型アルゴリズムの移植性の混合法評価の価値を考慮すると、このタイプの研究での使用をお勧めします。移植可能で複製可能な表現型の定義とアルゴリズムは可能ですが、局所的なカスタマイズをサポートするアルゴリズムの慎重な計画とアーキテクチャが近い将来必要になることが予想されます。

この作業に使用されたデータは、個人を特定できるデータを含む電子医療記録からのものであったため、HIPAA プライバシー規則に従って共有することはできません。このコードは、PheKB.org の各表現型のページで入手できます。調査データは、責任著者である Jennifer A. Pacheco に連絡することで、リクエストに応じて匿名化して入手できます。

Liao、KP et al. 電子医療記録を使用し、自然言語処理を組み込んだ表現型アルゴリズムの開発。 BMJ 350、h1885。 https://doi.org/10.1136/bmj.h1885 (2015)。

記事 Google Scholar

Velupillai, S. et al. 健康転帰研究のための臨床自然言語処理の使用: 概要と将来の進歩のための実用的な提案。Ｊ．Ｂｉｏｍｅｄ．知らせる。 88、11-19。 https://doi.org/10.1016/j.jbi.2018.10.005 (2018)。

記事 Google Scholar

Yu, S. 他ハイスループットの表現型解析に向けて: 知識ソースからの公平な自動特徴抽出と選択。混雑する。医学。知らせる。准教授 22、993–1000。 https://doi.org/10.1093/jamia/ocv034 (2015)。

記事 Google Scholar

Rajkomar, A.、Dean, J.、Kohane, I. 医学における機械学習。Ｎ．Ｅｎｇｌ． J.Med. 380、1347–1358。 https://doi.org/10.1056/NEJMra1814259 (2019)。

記事 Google Scholar

Luo、Y.、Uzuner、Ö。 & Szolovits, P. グラフアルゴリズムによるセマンティクスと構文の橋渡し - 生物医学的関係を抽出する最先端の技術。簡単なバイオインフォーム。 18、160–178。 https://doi.org/10.1093/bib/bbw001 (2017)。

記事 Google Scholar

Miller, TA、Avillach, P. & Mandl, KD バイオバンク参加者の表現型を大規模に抽出するための、スケーラブルなコンテナ化されたクラウドベースの NLP の実装を経験しました。ジャミアオープン 3、185–189。 https://doi.org/10.1093/jamiaopen/ooaa016 (2020)。

記事 Google Scholar

Zeng、Z.ら。 EHR ベースの計算表現型解析のための自然言語処理。 IEEE/ACM トランス。計算します。バイオル。バイオインフォーム。 16、139–153。 https://doi.org/10.1109/TCBB.2018.2849968 (2019)。

記事 ADS Google Scholar

ソン、JH 他電子医療記録上の詳細な表現型解析により、臨床エクソームによる遺伝子診断が容易になります。午前。 J. ハム。ジュネット。 103、58–73。 https://doi.org/10.1016/j.ajhg.2018.05.010 (2018)。

記事 CAS Google Scholar

フリードマン C. 包括的な医療言語処理システムに向けて: 方法と問題点。 Proc Conf Am Med は Assoc AMIA Fall Symp 595–9 (1997) に通知します。

ソイサル、E.ら。 CLAMP - カスタマイズされた臨床自然言語処理パイプラインを効率的に構築するためのツールキット。混雑する。医学。知らせる。准教授ジャミア 25、331–336。 https://doi.org/10.1093/jamia/ocx132 (2018)。

記事 Google Scholar

サボバ、GKほか Mayo Clinical Text Analysis and Knowledge Extraction System (cTAKES): アーキテクチャ、コンポーネントの評価、およびアプリケーション。混雑する。医学。知らせる。准教授ジャミア 17、507–513。 https://doi.org/10.1136/jamia.2009.001560 (2010)。

記事 Google Scholar

アロンソンAR。生物医学テキストの UMLS Metathesaurus への効果的なマッピング: MetaMap プログラム。 Proc AMIA Symp 17–21 (2001)。

アロンソン、アーカンソー & ラング、F.-M. MetaMap の概要: 歴史的観点と最近の進歩。混雑する。医学。知らせる。准教授ジャミア 17、229–236。 https://doi.org/10.1136/jamia.2009.002733 (2010)。

記事 Google Scholar

バンダ、JMら。電子表現型解析の進歩: ルールベースの定義から機械学習モデルまで。アンヌ。バイオメッド牧師。データサイエンス 1、53–68。 https://doi.org/10.1146/annurev-biodatasci-080917-013315 (2018)。

記事 Google Scholar

カレル、DS et al. 既存の臨床自然言語処理システムを複数の多様な医療環境に適応させる際の課題。混雑する。医学。知らせる。准教授ジャミア 24、986–991。 https://doi.org/10.1093/jamia/ocx039 (2017)。

記事 Google Scholar

Sohn, S. et al. 臨床文書のバリエーションと NLP システムの移植性: 施設間の喘息出生コホートのケーススタディ。混雑する。医学。知らせる。准教授ジャミア 25、353–359。 https://doi.org/10.1093/jamia/ocx138 (2018)。

記事 Google Scholar

Adekkanattu、P. et al. 心エコー図を処理するための NLP システムの移植性の評価: 遡及的な複数施設の観察研究。アミア・アンヌ。症状手順 2019、190–199 (2020)。

Google スカラー

ホン、N.ら。 FHIR ベースの EHR 表現型解析フレームワークの開発: 退院サマリーから肥満および複数の併存疾患を有する患者を特定するためのケーススタディ。Ｊ．Ｂｉｏｍｅｄ．知らせる。 99、103310。https://doi.org/10.1016/j.jbi.2019.103310 (2019)。

記事 Google Scholar

リュー、C.ら。ポータブル表現型ソリューションのための自然言語処理システムのアンサンブル。Ｊ．Ｂｉｏｍｅｄ．知らせる。 100、103318。https://doi.org/10.1016/j.jbi.2019.103318 (2019)。

記事 Google Scholar

ホン、N.ら。非構造化および構造化電子医療記録データを標準化および統合するための、スケーラブルな FHIR ベースの臨床データ正規化パイプラインを開発します。ジャミアオープン 2、570–579。 https://doi.org/10.1093/jamiaopen/ooz056 (2019)。

記事 Google Scholar

Sharma, H. et al. ポータブルな自然言語処理ベースの表現型解析システムを開発します。 BMC医学。知らせる。決定。マック。 19、78。https://doi.org/10.1186/s12911-019-0786-z (2019)。

記事 Google Scholar

ライアン、GW、バーナード、テーマを特定するための HR テクニック。フィールドメソッド 15、85 ～ 109。 https://doi.org/10.1177/1525822X02239569 (2003)。

記事 Google Scholar

ニュートン、ＫＭら。電子医療記録ベースの表現型解析アルゴリズムの検証: eMERGE ネットワークから学んだ結果と教訓。混雑する。医学。知らせる。准教授ジャミア 20、e147-154。 https://doi.org/10.1136/amiajnl-2012-000896 (2013)。

記事 Google Scholar

コー、ＡＮら。遺伝子研究のための電子医療記録: eMERGE コンソーシアムの結果。科学。翻訳。医学。 https://doi.org/10.1126/scitranslmed.3001807 (2011)。

記事 Google Scholar

Gottesman、O.ら。電子医療記録およびゲノミクス (eMERGE) ネットワーク: 過去、現在、未来。ジュネット。医学。オフ。混雑する。コル。医学。ジュネット。 15、761–771。 https://doi.org/10.1038/gim.2013.72 (2013)。

記事 Google Scholar

アーメド、A.ら。急性腎障害に対する電子監視ツールの開発と検証: 遡及的分析。 J.クリット。ケア 30、988–993。 https://doi.org/10.1016/j.jcrc.2015.05.007 (2015)。

記事 Google Scholar

カービィ、JC 他 PheKB: 可搬性のための電子表現型アルゴリズムを作成するためのカタログとワークフロー。混雑する。医学。知らせる。准教授ジャミア 23 年、1046 ～ 1052 年。 https://doi.org/10.1093/jamia/ocv202 (2016)。

記事 Google Scholar

シャン、N.ら。電子表現型実装のための作業の可視化: eMERGE ネットワークから学んだ教訓。Ｊ．Ｂｉｏｍｅｄ．知らせる。 99、103293。https://doi.org/10.1016/j.jbi.2019.103293 (2019)。

記事 Google Scholar

アーマド、FS 他。全国の多施設共同臨床試験のための計算可能な表現型の実装: ADAPTABLE から学んだ教訓。円心臓血管。クオリティ。結果 13、e006292。 https://doi.org/10.1161/CIRCOUTCOMES.119.006292 (2020)。

記事 Google Scholar

Nadkarni、GN et al. 慢性腎臓病の電子表現型アルゴリズムの開発と検証。アミア・アンヌ。症状手順 AMIA 症状 2014、907–916 (2014)。

Google スカラー

パチェコ、JA et al. 複数の機関および電子医療記録環境にわたる、実行可能な計算可能な表現型アルゴリズムの移植性を評価するケーススタディ。混雑する。医学。知らせる。准教授ジャミア 25 年、1540 ～ 1546 年。 https://doi.org/10.1093/jamia/ocy101 (2018)。

記事 Google Scholar

ジャクソン、KL 他。電子医療記録ベースの表現型アルゴリズムを実行して、地域社会に関連するメチシリン耐性黄色ブドウ球菌の症例と遺伝的関連研究の対照を特定します。 BMC感染。ディス。 16、684。https://doi.org/10.1186/s12879-016-2020-2 (2016)。

記事 CAS Google Scholar

Hsu, J.、Pacheco, JA、Stevens, WW、Smith, ME & Avila, PC 電子健康記録における慢性鼻副鼻腔炎の表現型の正確さ。午前。 J. Rhinol. アレルギー 28(2)、140–144 (2014)。

記事 Google Scholar

デニー、JC 他房室伝導のゲノム予測因子の同定: ゲノム科学のツールとしての電子医療記録の使用。回覧 122(20)、2016 ～ 2021 (2010)。

記事 Google Scholar

Walunas, TL et al. 全身性エリテマトーデスの臨床分類基準の属性を特定するための、電子医療記録からの構造化データの評価。狼瘡科学。医学。 8(1)、e000488 (2021)。

記事 Google Scholar

Chu、SHら。電子医療記録を使用して COPD 患者を迅速に特定するための、独立して検証されたポータブルアルゴリズム。科学。議員 https://doi.org/10.1038/s41598-021-98719-w (2021)。

記事 Google Scholar

Safarova, MS、Liu, H. & Kullo, IJ 電子健康記録からの家族性高コレステロール血症の迅速な特定: SEARCH 研究。Ｊ．クリン．リピドール。 10(5)、1230–1239 (2016)。

記事 Google Scholar

Gustafson, E.、Pacheco, J.、Wehbe, F.、Silverberg, J. & Thompson, W. 電子健康記録から成人のアトピー性皮膚炎を特定するための機械学習アルゴリズム。 2017 年の IEEE ヘルスケア情報学国際会議 (ICHI) (Gustafson, E. et al. 編) 83–90 (IEEE、2017)。

Google Scholar の章

Kullo、IJ et al. 遺伝子研究のための情報学の活用: 電子医療記録を使用して、末梢動脈疾患のゲノムワイド関連研究を可能にします。混雑する。医学。知らせる。准教授 17、568–574 (2010)。

記事 Google Scholar

サボバ、GKほか自然言語処理を使用して、放射線科のノートから末梢動脈疾患の症例を発見します。アミア・アンヌ。症状手順 2010、722–726 (2010)。

Google スカラー

Sohn, S.、Ye, Z.、Liu, H.、Chute, CG & Kullo, IJ 放射線医学レポートの各国語処理を使用した腹部大動脈瘤の症例と対照の特定。 AMIAサミット翻訳。科学。手順 2013、249–253 (2013)。

Google スカラー

Khaleghi, M.、Isseh, IN、Jouni, H.、Sohn, S.、Bailey, KR、Kullo, IJ 頸動脈狭窄の危険因子としての家族歴。脳卒中、45(8)、2252–6 (2014)。正誤表: Stroke、45(9)、e198 (2014)。

リングレン、T.ら。自閉症スペクトラム障害の患者を識別する電子健康記録ベースのアルゴリズム。 PLoS One 11(7)、e0159621 (2016)。

記事 Google Scholar

リングレン、T.ら。 2 つの三次小児医療センターで幼児期の肥満を検出するアルゴリズムを開発。応用クリン。知らせる。 7(3)、693–706 (2016)。

記事 Google Scholar

Koleck, TA、Dreisbach, C.、Bourne, PE & Bakken, S. 電子医療記録の自由テキストの説明に文書化された症状の自然言語処理: 系統的レビュー。混雑する。医学。知らせる。准教授 26(4)、364–379 (2019)。

記事 Google Scholar

チャップマン、WW 他退院サマリーで否定された所見と疾患を特定するためのシンプルなアルゴリズム。Ｊ．Ｂｉｏｍｅｄ．知らせる。 34、301–310。 https://doi.org/10.1006/jbin.2001.1029 (2001)。

記事 CAS Google Scholar

Harkema, H. et al. ConText: 臨床レポートから否定、経験者、および時間的ステータスを決定するためのアルゴリズム。Ｊ．Ｂｉｏｍｅｄ．知らせる。 42、839–851。 https://doi.org/10.1016/j.jbi.2009.05.002 (2009)。

記事 Google Scholar

Strauss, A. & Corbin, J. グラウンデッド・セオリーの方法論: 概要。 (NK デンジンおよび YS リンカーン編) 質的研究ハンドブックに記載。 273–285 (カリフォルニア州サウザンドオークス: SAGE; 1994)。

Google スカラー

ウー、Ｓ．ら。否定は解決されていない: 臨床自然言語処理における一般化可能性と最適化可能性。 PLoS One https://doi.org/10.1371/journal.pone.0112774 (2014)。

記事 Google Scholar

ウー、P.ら。 DDIWAS: 電子医療記録に基づく薬物間相互作用のハイスループットスクリーニング。混雑する。医学。知らせる。准教授 28、1421–1430。 https://doi.org/10.1093/jamia/ocab019 (2021)。

記事 Google Scholar

鄭、NSら。電子医療記録を使用した薬物副作用の遺伝子分析のための高スループットフレームワーク。 PLoS ジュネット。 17、e1009593。 https://doi.org/10.1371/journal.pgen.1009593 (2021)。

記事 CAS Google Scholar

Mehrabi, S. et al. DEEPEN: NegEx に依存関係を組み込んだ臨床テキストの否定検出システム。Ｊ．Ｂｉｏｍｅｄ．知らせる。 54、213–219。 https://doi.org/10.1016/j.jbi.2015.02.010 (2015)。

記事 Google Scholar

Liu、Y.、Peng、J.、Yu、JJQ 他 PPGAN: プライバシーを保護する敵対的生成ネットワーク。 2019 年の IEEE 25th Int Conf Parallel Distrib Syst ICPADS 985–9 https://doi.org/10.1109/ICPADS47876.2019.00150 (2019)。

Shu, D.、Chen, Y.、Zhao, J.、Jia, Y.、Xie, Y.、Sun, W. FedED: 医療関係抽出のためのアンサンブル蒸留による連合学習。 2020 年自然言語処理における経験的手法に関する会議 (EMNLP) の議事録、2118 ～ 2128 (計算言語学協会、2020)。

Zeng、Z.ら。リッチテキスト形式の EHR ナラティブ: 隠された無視された宝庫。スタッド。ヘルステクノロジー。知らせる。 264、472–476。 https://doi.org/10.3233/SHTI190266 (2019)。

記事 Google Scholar

テラ。 https://app.terra.bio/ (2021 年 9 月 23 日にアクセス)。

リファレンスをダウンロードする

この作業は主に eMERGE ネットワークのフェーズ III の下で実施され、追加の作業は eMERGE ネットワークの現在のフェーズで完了しました。したがって、私たちは両方のフェーズの eMERGE の同僚、特に eMERGE 表現型解析ワークグループに参加していた/メンバーだった人々に感謝し、感謝します。また、以下の資金提供セクションに記載されている資金提供機関の支援にも感謝いたします。

この研究は主に、NHGRI によって開始され、次の助成金を通じて資金提供された eMERGE ネットワークのフェーズ III の下で実施されました。 U01HG008685 (ブリガムアンドウィメンズ病院); U01HG008672 (ヴァンダービルト大学医療センター); U01HG008666 (シンシナティ小児病院医療センター); U01HG006379 (メイヨークリニック); U01HG008679 (ガイジンガークリニック); U01HG008680 (コロンビア大学健康科学); U01HG008684 (フィラデルフィア小児病院); U01HG008673 (ノースウェスタン大学); U01HG008701 (ヴァンダービルト大学医療センターが調整センターとして機能); U01HG008676 (パートナーズヘルスケア/ブロード研究所); U01HG008664 (ベイラー医科大学); およびU54MD007593（メハリー医科大学）。 eMERGE ネットワークの現段階では追加の作業が完了しました。このネットワークは、NHGRI によって開始され、次の助成金を通じて資金提供されました。U01HG011172 (シンシナティ小児病院医療センター)。 U01HG011175 (フィラデルフィア小児病院); U01HG008680 (コロンビア大学); U01HG008685 (ブリガム陸軍大将); U01HG006379 (メイヨークリニック); U01HG011169 (ノースウェスタン大学); U01HG008657 (ワシントン大学); U01HG011181 (ヴァンダービルト大学医療センター); U01HG011166 (ヴァンダービルト大学医療センターが調整センターとして機能)。全身性エリテマトーデスの表現型開発には、国立関節炎・筋骨格疾患研究所の助成金 5R21AR072262 からも部分的に資金提供を受けました。

Chunhua Weng と WeiQi Wei の著者も同様に貢献しました。

ノースウェスタン大学、エバンストン、米国

ジェニファー・A・パチェコ、ルーク・V・ラスムッセン、ギャレット・アイケルバーグ、アオナ・ファーマンチューク、ユー・デン、イークアン・リー、テレサ・L・ウォルナス、ユアン・ルオ

国立ヒトゲノム研究所、米国ベセスダ

ケン・ワイリー・ジュニア & ヴァレリー・ウィリス

ペンシルバニア州立大学、ハーシー、米国

トーマス・ネイト人物

カイザーパーマネンテワシントン健康研究所、シアトル、米国

デビッド J. クロンカイト & デビッド S. カレル

メイヨークリニック、ロチェスター、米国

ソン・ソンファン、ジャスティン・H・ガンデラック、ベンジャミン・A・サターフィールド、イフティハール・J・クロ、オザン・ディキリタス

マサチューセッツ総合病院、ボストン、米国

ショーン・マーフィー

ミサ将軍ブリガム、サマービル、米国

ビビアン・ゲイナー & ビクター・M・カストロ

コロンビア大学、ニューヨーク州、米国

Cong Liu、Ning Shang、クシシュトフ・キリルク、Chunhua Weng

フィラデルフィア小児病院、フィラデルフィア、米国

フランク・メンチ

シンシナティ小児病院医療センター、シンシナティ、米国

トッド・リンレン & イージャオ・ニー

ガイジンガー、ダンビル、米国

アグネス・S・スンダレサン、ロシャン・パテル、マーク・S・ウィリアムズ

インターマウンテンヘルスケア、ソルトレイクシティ、米国

ニーフィ・ウォルトン

ヴァンダービルト大学医療センター、ナッシュビル、米国

ジョシュア・C・スミス、ジョシュ・F・ピーターソン、ジョデル・E・リンダー、ウェイチー・ウェイ

米国ニューヨーク州マウントサイナイのアイカーン医科大学

ギリッシュ・N・ナドカルニ

ワシントン大学、シアトル、米国

エリザベス・A・ローゼンタール

ブリガム・アンド・ウィメンズ病院、ボストン、米国

エリザベス・W・カールソン

PubMed Google Scholar でこの著者を検索することもできます

JAP、LVR、KW、TNP、SS、SNM、VMC、CL、TL、AS、OD、KK、YL、GN、MSW、EWK、JEL、CW、WWは、作品の構想および/またはデザインに多大な貢献をしました。 JAP、LVR、TNP、DC、SS、SNM、JHG、VSG、VMC、FM、TL、AS、GE、VW、AF、RP、DSC、YD、NW、BS、IJK、OD、JCS、JFP、NS、 KK、YN、YL、GN、EAR、TLW、MSW、EWK、JEL、CW、WW は、作業のためのデータの取得、分析、および/または解釈に多大な貢献をしました。

ジェニファー・A・パチェコへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガーネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

JA パチェコ、LV ラスムッセン、ワイリー K. 他 eMERGE ネットワークにおける自然言語処理を使用した計算可能な表現型の移植性の評価。 Sci Rep 13、1971 (2023)。 https://doi.org/10.1038/s41598-023-27481-y

引用をダウンロード

受信日: 2022 年 6 月 15 日

受理日: 2023 年 1 月 3 日

公開日: 2023 年 2 月 3 日

DOI: https://doi.org/10.1038/s41598-023-27481-y

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

ニュース

eMERGEネットワークにおける自然言語処理による計算可能な表現型の移植性の評価