記事

AdyenによるAIの活用

Andreu Mora, SVP / Global Head of Engineering Data at Adyen.
Andreu Mora  ·  Adyen
2024年8月16日
 ·  15 分

本記事が長いと感じる場合のChatGPTによる要約

Adyenは過去数年にわたり、機械学習(ML)と人工知能(AI)の分野で、人材とインフラに多額の投資を行ってきました。これらの投資はすでに、ビジネスに大きな影響をもたらしていることが証明されています。

  • Adyenが処理するすべての取引は、MLによるリアルタイム推論(意思決定)によって制御されており、Adyenがセルフホスト型のビッグデータプラットフォームで訓練し、展開したモデルが利用されています。当社は、教師あり学習、半教師あり学習、強化学習などのさまざまな技術を活用し、不正利用防止、ユーザー認証、決済成功率の最大化を実現しています。また、コントロールグループを活用したA/B/nテスト(複数パターンを比較するテスト)を継続的に行うことで、パフォーマンスを最適化しています。Adyenはオフライン強化学習のポリシーを評価し、反実仮想分析の研究にも投資しています。

  • Adyenのリスクエンジンは、膨大な取引データとKYCデータを活用して、取引を監視し、顧客の登録時や購入時の行動パターンを特定しています。当社の検出方法では、グラフ構造、グラフニューラルネットワーク、およびディープニューラルネットワークが利用されています。

  • Adyenは、生成AIに関する人材、インフラ、実運用価値への投資も進めています。当社のオープンソースの理念に基づき、オープンソースの基盤モデルを社内でホストし、微調整しています。また、オープンソースコミュニティにも貢献しています。当社は、データプライバシーとセキュリティを確保し、第一原理に基づく知識を活かすため、このアプローチを意図的に選択しています。さらに、生成AIを利用した当社のすべてのワークフローは、「ヒューマン・イン・ザ・ループ」を念頭に置いて設計されており、運用サポートの現場ですでに成果が出ています。

用語

本記事でいう機械学習(ML)には、教師あり学習(ランダムフォレスト、分類、回帰、ニューラルネットワーク)、教師なし学習(例:クラスタリング、オートエンコーダー、アイソレーションフォレスト)、強化学習(例:文脈バンディット)、A/Bテスト、グラフニューラルネットワーク、半教師あり学習などの技術が含まれます。ディープラーニングは、複数の層と多数の係数を持つニューラルネットワークアーキテクチャを指し、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)が含まれます。生成AIは、自己教師あり学習を用いて非構造化データで事前学習されたTransformerベースのアーキテクチャを指します。AI(人工知能)は、機械学習、ディープラーニング、生成AIを含む総称として使用されます。

Adyenを理解する

Adyenは、主要企業に選ばれるフィンテックプラットフォームを目指す中で、同業他社とは異なる、一見すると意外な選択を行い、それを貫いてきました。これらの選択は、当社の文化的原則に基づいており、長年にわたる実装の意思決定の指針となっています:

長期的視点:Adyenでは、すべての意思決定を長期的視点で検証しています。「将来的に20倍の規模に拡張できるのか?」、「先行優位を取るのか?それとも長期的に加速していくのか?」といった問いを常に意識しています。

コントロールと柔軟性:業界トップクラスのフィンテック企業として、当社は信頼性とイノベーションを同時に実現しています。どちらか一方を実現するのは比較的容易ですが、両立させるのは非常に難しいものです。そのため、サービスの展開やデータの保存など、あらゆる選択において常にコントロールと柔軟性のバランスを考慮し、信頼性を確保しながら(例:中核的なフローについては外部パートナーに依存しない)、変革とイノベーションを可能にしています。

好奇心の維持と細やかな対応:Adyenは、徹底した顧客志向によって成功を収めてきました。当社はお客様の声に耳を傾け、それに応じたソリューションを提供しています。これは、金融商品の提供におけるシンプルなアプローチですが、本当に革新的な商品を提供するには、それ以上の努力が必要です。当社は好奇心を持ち続け、創造性を刺激し、インスピレーションに富んだアイデアの創出を奨励してきました。また、変化を安全に取り入れながら、業界のリーダーとしての地位を維持するため、常に慎重にリスクを取ってきました。そのため、新たな分野の開拓においても、実践的なアプローチを重視しています。

これらの3つの原則は、当社の成長戦略、技術スタックの選定、製品ラインナップの拡充に関する意思決定に大きな影響を与えてきました:

  • 当社は知識を外部に委ねず、代わりに人材に投資しています。自社の中核事業において高い専門性を有している一方、すべての分野でそうである必要はないとも考えています。専門知識が求められる場面では、パートナーやコミュニティの力を活用します。また、物事の仕組みを理解し、前提を疑い、共に構築していくという好奇心も持っています。

  • 当社は単一のプラットフォームを構築しています。AdyenがこれまでM&Aを行っていないのは、たとえ時間がかかっても、自社のプラットフォームを有機的に成長させることを優先しており、「先行することとスピードを混同しない」という信条があるからです。

  • また、Adyenは最新のクラウド手法と成熟したオープンソースツールを活用して、主にオンプレミスで技術スタックを構築してきました。「クラウドベース」とは、単なる他社のデータセンターの利用ではなく、拡張と展開の方法を指します。

Adyenのすべての取引はMLが支えている

AI hand recognizes a pattern.

2023年、Adyenのプラットフォームは、総額1兆ドルの取引を処理しました。これはビジネスやテクノロジーの規模の観点から見ても大きなマイルストーンと言えますが、すべての取引がML推論エンドポイントを介してリアルタイムに処理され、大幅なファネルの改善を実現している点を考えると、さらに印象的です。参考までに、現在、これらのエンドポイントはそれぞれ毎秒2,000件以上のリクエストを処理しており、平均レイテンシー(待ち時間)は20ミリ秒、p99で100ミリ秒を維持しています。水平方向に拡張可能なため、弾力性を高めることもできます。また必要に応じて随時、あるいは既定の週次サイクルで、モデルの再トレーニングと再デプロイを実施できます。

当社の規模で機械学習を本番運用するには、高度なアルゴリズムと卓越したエンジニアリングが必要です。そのため、当社のエンジニアリングチームは、これらの両方に価値をもたらしつつ、長期的な商品のイノベーションを可能にする基盤を構築する選択を行っています。

当社は何を目指して最適化を行っているのか、そのプロセスをステップごとに簡単に見ていきます。

Graph for AI Tech blog

最初のステップは、MLを利用して、決済体験をパーソナライズし、コンバージョン率を高めることです。現在も、仮説を検証するための実験を継続的に行っています。その後、さまざまな不正利用の兆候を検出する一連のモデル(現在はツリーベースのアンサンブルモデルがベース)を活用し、不正利用のチェックを行います。当社のデータは、主に構造化された表形式であるため、ブースティングのような実績のあるアルゴリズムを使用すれば、数百の特徴量を入力するだけで、特別な調整なしでも安定したベースラインパフォーマンスを発揮できます。現時点では、運用負荷、信頼性、レイテンシーの要件を踏まえると、ディープラーニングのような、より複雑なフローがROIを向上させるという証拠は確認されていません。なお、このステップでは、不正利用を最適化関数として定義しています。つまり、不正利用を最小限に抑えると同時に、誤検出も最小限に抑えることを目指しています。しかし、最適化の対象はそれだけにとどまりません。

また、当社は、マーチャントがカスタムルールでMLモデルを補完できるようにしています。ルールには2種類あります。1つは、マーチャントが独自に定めるポリシールールで、不正利用かどうか直接判断するものではなく、取引に関する基準を設定するものです。もう1つは、MLアルゴリズムがまだ学習していないパターンを補完するためのルールです。

本人認証、オーソリ、ルーティング、再試行の各ステップは、強化学習をベースとしています。これらのモデルの背景にある考え方は、環境(イシュアーのネットワーク、カードブランド)とやり取りし、ポリシー(コンバージョン促進や支払い承認)に基づいて、支払いフラグの設定、認証フローの選択、ルートの決定などのアクションを実行するというものです。現在の実装は、主に文脈バンディットをベースにしていますが、強化学習のように、今後は複数ステップにわたる意思決定を可能にする、より本格的な強化学習の導入も検討しています。

ステップごとに1つのモデルを使うのではなく、複数のモデルを同時に動かしており、それぞれが異なる戦略を異なるトラフィックの一部に対して実行しています。そして、それらを常にA/B/nの枠組みで評価しています。あるバリエーションのモデルが本番モデルよりも良い結果を出していると確信できたら、そのモデルを本番環境に昇格させます。こうすることで、自信を持ってイノベーションを導入でき、改善を実現できます。

この視点に立つと、取引の流れは一連のプロセスとして捉えられます。しかし、Adyenの強みはファネル全体を接続できる点にあり、このプロセスをさらに進化させられると考えています。そのため、意思決定を統合するか、メッセージパッシングを活用して、ファネル全体で総合的に最適な意思決定を行う方法を研究し、投資を進めています。どちらの方法を採用するにせよ、パフォーマンスとエンジニアリングの制約(例:アーティファクトのサイズ制限)や、フローの定量評価が複雑化する課題が生じます。当社は、「不正利用、コンバージョン、コスト」の3要素を軸とする独自のベクトルに基づいた決済フローの研究と構築を進めており、これにより加盟店は、重要度や許容度に基づいてこのベクトルを調整できるようになります。

これは、改善の評価方法にも影響しますが、プロセスは単純ではありません。そのため、当社は研究に投資すると共に、アムステルダム大学のAMLABと提携し、博士号候補者を支援することで、因果推論やオフポリシー評価の分野におけるAdyenのイノベーションを実用化することを目指しています。

これらの投資を理解するには、当社の取引規模においては、数ベーシスポイントの向上でも多大な影響を与えること、そして決済の考え方を、承認率中心の考え方からファネル全体のコンバージョンを重視する考え方へと移行させている点を考慮することが重要です。これにより、不正利用、トークン、データ共有、機械学習といった要素が密接に結びつくようになります。

Adyenのデータのほとんどは構造化またはグラフ化されている

また、当社は、伝統的な金融問題を解決するために、AIに多額の投資を行っています。その一例が、Adyenプラットフォーム内のアクティビティの監視です。当社のプラットフォーム上では、膨大な数の取引が行われ、多くの個人がやり取りしています。さらに、当社は銀行免許を活用して、金融サービスに進出しているため、こうした活動の監視は非常に重要な課題となります。

PSP(決済サービスプロバイダー)のプラットフォームに届くデータは、明確に定義されたAPIを介して送信されるため、基本的に構造化されています。このデータは、主に顧客(消費者)の属性を表す情報です。

これは大きな強みです。なぜなら、当社のデータは形式や関係性がはっきりしているため、シンプルな設計になっています。そのため、主要な目標を達成するために、何千ものログやコメントなどの非構造化データソースをクロールすることなく、価値を生み出すことができます。

このデータをリレーショナルテーブル(関係データベース)として扱うことができますが、取引データの中にはより深い関係性が含まれています。当社では、シンプルな関連付けロジックを用いてエンティティ解決(同一人物や同一のものを特定する処理)を行っており、これが最適化や意思決定に大きく貢献しています。数学的に表現すると、消費者に関する属性だけでも、決済方法(たとえばカード)や個人情報(たとえばメールアドレス)をノード(点)とした、無向の異種グラフが形成されます。

このグラフは、個人や世帯ごとのバラバラなコミュニティで構成される「スター型の構造(中心点から放射状につながる形)」をしています。

Adyenは米国と欧州で銀行免許を取得し、振り込み、KYC、現金前払い、送金など、今までとは異なる金融サービスも提供できるようになったことで、消費者とは異なるエンティティ(「ビジネス」や「販売者」など)も認識する必要が生じています。当社はLightspeed社やZenoti社などの企業と提携し、これらの企業が当社のプラットフォームサービスを活用できるよう支援しています。

こうしたプラットフォームや金融サービスの追加により、グラフ構造はさらに多様化しました。具体的には、新たなノードの種類(例:パスポート)を追加し、ベクトルを導入することで、無向グラフから有向グラフに進化しました。また、最も重要な点として、新しいグラフの特性を生み出し、個別のコミュニティからスケールフリーネットワークへと移行しました。

これにより、データを数学的にモデル化し、その上でパターンを抽出するための研究を適用できるようになっています。しかし、その一方で課題も生じています。もともと数十億単位だったグラフの規模が、エッジの爆発的な増加によって指数関数的に拡大し、当社のエンジニアリングチームにとって非常に大きな課題となっています。

そのため、当社は、技術スタックに関する徹底的な研究を行っています。例えば、「グラフデータベースはこの規模でも適切に動作するか?」といった検証や、サンプリングアルゴリズムの最適化(「相互接続されたグラフをどこで分割するか?」)にも取り組んでいます。また、取引フロー内で前述のアルゴリズムを適用するために、グラフの特徴量を抽出し、複雑なパターンを検出するグラフニューラルネットワークのトレーニングと展開も行っています。

AI at Adyen: scale of the platform 2022.

当社のエンジニアリングチームは、2022年にAdyenプラットフォームのグラフを一部レンダリングすることに成功しました。現在のグラフはそれと比べて桁違いに大規模になっていますが、スケール感の参考としてご覧ください。

Adyenは生成AIの価値を認識している

当社はエンジニア、現場のプロフェッショナル、データサイエンティストとして、すでにこの分野の進化に注目していたため、Transformerアーキテクチャにもすでに精通していました。BERTやGPTのアーキテクチャの台頭も注視していましたが、ChatGPTには衝撃を受けました。ChatGPTは、LLMが現代社会でどれほど価値があるのかを実証する上で非常に優れた存在でした。率直に言えば、ChatGPTをきっかけに、このテクノロジーをどのように活用できるか理解しようとする取り組みが加速しました。

当社のポリシーに則り、単に大手企業と提携し、そのAPIを利用して早期導入を実現するという形で開発に参入することはしませんでした。当社は常に、知識の第一原理をもとに、長期的視点で単一のプラットフォームを構築してきました。そのため、この目標を達成するために、人材確保を加速させました。また、Tech Hubのグローバル展開に伴い、拠点をアムステルダムに限定せず、AIチームをマドリードにも拡大しました。

当社はエンジニアとして、問題を解決するためのソリューションを見つけることを重視します。逆に、使用したいソリューションやテクノロジーがあるからといって、無理に問題を当てはめるようなことはしません。この考え方に基づき、当社は既存の問題に対して真の価値を提供できる領域で取り組みながら、そのテクノロジーについても学んでいます。これは、プログラミング言語を学ぶ際に、単にドキュメントを読むのではなく、実際のプロジェクトに取り組んでそこから学ぶのと同じです。

他の多くの業界と同じく、当社も、生成AIを主に顧客サポートサービスとオペレーションに利用しました。サポートチームの効率を高めることで業務負担を軽減するのが第一の目的でした。会社にとって有益であるだけでなく、職場の満足度を高める効果もあります。また、採用活動を進め、チームの立ち上げを行いながら、スタートアップ企業やベンダーと提携し、このサービスを提供する体制を整えました。さらに、ベンダーの品質を評価するベンチマーク評価を行うと共に、チケットを適切にルーティングするための社内サービスの構築にも取り組みました。

AI hand recognizes a pattern.

サポートを最初の適用分野として選んだ理由について、少し掘り下げて説明します。第一に、データが主にテキストで構成されているため(マルチモーダルではない)、学習のハードルが比較的低い点が挙げられます。第二に、業務への影響が大きい点が挙げられます。例えば、ルーティングの精度が向上すれば、担当者が誤って他部署の案件を読み込み、理解するのに時間を浪費することを防げます。第三に、すでにチームが存在しており、「ヒューマン・イン・ザ・ループ」のアプローチを採用できたことが挙げられます。これにより、アウトプットの品質を確保しつつ、効率を高めることができました。当社はB2B企業であるため、問い合わせの内容は複雑で、長文になりがちです。問い合わせをしてくるのは顧客企業に勤務する専門家であることが多く、的確な質問をするため、こちらも適切な回答を求められます。こうしたケースでは、人間の判断を活用して、データセットのラベル付けや注釈付けを改善したり、推論時にモデルを修正したりできます。

興味深いことに、当社のエンジニアとサイエンティストは、LLM(大規模言語モデル)をベースにしたルーティングが、よりシンプルなTF-IDF(単語の出現頻度と逆文書頻度)分類器よりも優れたパフォーマンスを発揮しないことを突き止めました。当社のシステムは、ベンダーが提供する選択肢よりも優れたパフォーマンスを発揮し、完全に自社で管理できる上、運用コストやエネルギーコストもごくわずかで済みました。新技術が過剰に注目される時代だからこそ、冷静な評価が極めて重要です。

当社では、サポート業務のユースケースにおいて、チケットの要約機能とRAGによる文脈補強機能を追加しました。現在、TF-IDFで抽出したキーワードを活用し、ルーティング、要約、文脈検索の機能をさらに向上できるかどうかを研究しています。これは、専門家が事前に重要な部分にマーカーを引いた本を読むと、要点を把握しやすくなるのと同じ発想です。

当社は、生成AIを社内の業務サポートに活用するためのバックエンドを構築し、全社員が利用できるようにしています。これにより、社員は社内でホストされているLLMを利用して、データソースと組み合わせて文脈を付与しながら、プロンプトによる情報漏洩を心配せずに、生成AIで生産性を向上できるようになりました。

また、社内のデータクラスタ上に生成AIの機能をオンプレミスで展開し、GPUを搭載しました。これにより、エンジニアやデータサイエンティストは、研究や本番環境でこれを利用できるようになっています。さらに、オープンソースモデルだけでなく、コミュニティで急速に発展しているオープンソースのMLインフラも活用しました。

オープンソースについても簡単に触れておきます。ここ数年の生成AI技術の進化とその社会への影響は目覚ましいものがあります。クローズドソースモデルはパフォーマンス面で優位に見えますが、今日では、オープンソースコミュニティの進歩が驚異的なスピードで進んでいます。Meta社やMistral社などの企業が自社のモデルをコミュニティに公開したことで、研究論文やインフラの発展が加速し、クローズドソースの企業にも恩恵をもたらしています。オープンソースコミュニティの一員になると、他者のコードや重み付けを利用するだけでなく、コミュニティに貢献することも求められます。当社も、Hugging Face社のTGI、ChatUI、LangChainなどのフレームワークにおいて、バグ修正や機能追加を行ってきました。

当社は、このアプローチにおいて極めて実践的な姿勢を貫いてきました。実行に重点を置くことが最も重要である一方で、企業は技術の進化を見逃さず、いずれは自らも貢献すべきだと考えています。そのため、当社は成長を続ける中で、「ファーストフォロワー(速い追随者)」となるだけでなく、技術革新の過程で主導的な役割を果たせるよう計画を進めています。当社は、評価の信頼性(AIが現実のデータに基づかない誤った情報を生成する、いわゆる「幻覚」)、合成データ、自己整合性、そして構造化データと非構造化データを組み合わせたTransformerベースのアーキテクチャといったトピックに関心と好奇心を寄せています。

これはつまり、私たちが好奇心を持ち、パートナーからの提案を聞き入れていることを意味しています。具体的には、オンプレミスのプラットフォームを活用しながら、新たな機能や計算オプションについて、パートナーの意見を積極的に聞きながら探求しています。特に、データ機密性がそれほど高くない環境での探索や本番運用を模索しています。実際、ウェブをクロールし、関連するパターンを抽出するエージェントは、必ずしも当社のデータセンター内に配置する必要はありません。同じ考えのもと、当社はAI分野の創業者やプレイヤーからも積極的に学んでいます。

以上が、現在の当社の主な取り組みと、AdyenのAIにおける今後の方向性の概要です。なお、本記事は、人間がすべて一言一句執筆したものです。

最新の情報を直接お届け