Episoder

  • 関連リンク AIエージェントのおかげでdbt開発の大部分を自動化した話

    この記事は、データ分析基盤で使われる「dbt」というツールを使ったデータモデル開発において、AIエージェントを活用して多くの定型作業を自動化した事例を紹介しています。

    データを使って分析やレポートを作る際、元データを使いやすい形に加工する作業が必要です。dbtは、この加工(データモデル開発)を効率的に行うための人気ツールですが、開発するデータモデルが増えると、「ファイルの置き場所や名前のルールを守る」「データのチェック(テスト)を書く」「どんなデータか説明するドキュメントを更新する」「分析ツールで使いやすくするための設定(メタデータ定義)をする」といった、定型的な作業がたくさん発生し、開発者の負担になってしまいます。もっとSQLを書くことや分析そのものといった、頭を使う本質的な作業に集中したい、というのがエンジニアの本音です。

    この課題を解決するために、筆者らは「Cursor Editor」というAI搭載の開発エディタの「Agent機能」と「Project Rules」を活用しました。

    Cursor EditorのAgent機能は、指示を与えるとAIがタスクをステップごとに実行してくれる機能です。Project Rulesは、プロジェクト特有の開発ルール(命名規則、コーディング規約、標準手順など)をAIに教え込むための設定です。

    dbtモデル開発には通常、SQLを書く以外にも、ファイルのテンプレート作成、ローカルでの実行確認、メタデータやテストの更新、ドキュメント作成、プルリクエスト作成など、複数のステップがあります。

    これらのステップをAIエージェントに任せるために、開発チームはProject Rulesを丁寧に整備しました。具体的には、以下のようなルールを定義しました。

    命名規則: BigQueryのテーブルとdbtモデル名の対応関係や、データが加工される段階(層)ごとの名前の付け方。 コーディング規約: SQLの書き方や、他のデータモデルを参照する際のルール。 開発手順: dbtモデルの加工段階(層)ごとに、ステップ1からステップnまで何をどのように進めるかを細かく定義。使用するコマンドや、エラー発生時の対応方法まで含めました。

    Project Rulesを整備し、AIにプロジェクト固有のルールをしっかり教え込んだ結果、AIエージェントはプロジェクトのやり方に沿って正確にタスクを実行できるようになりました。SQLを人間が準備すれば、それ以降の多くの定型作業(テンプレート作成、実行確認、メタデータ・テスト・ドキュメント更新、プルリクエスト作成)をAIが自動で行ってくれるようになり、ほぼ人間が最終確認するだけでGitHubにプルリクエストが作成されるレベルに達したとのことです。

    もちろん、AIに任せる上で工夫も必要です。例えば、複雑なタスクは最初にAIに計画だけ立てさせる、AIに必要なルール情報を明示的に伝える、そして絶対に守りたいルールは昔ながらの自動チェックツール(静的解析、自動テスト)で間違いがないか確認する、といった「AIのための安全策(ガードレール)」を設けることが重要だと感じているそうです。

    この取り組みにより、開発者はSQLの設計・実装といったクリエイティブな作業に集中できるようになり、社内からは開発効率が向上したという声があがっています。データモデル開発量も増加したという定量的な成果も出ています。

    まとめとして、AIエージェントはまだ完璧ではありませんが、プロジェクト固有のルール(Project Rules)を整備し、継続的に改善していくことで、開発プロセスを大幅に自動化し、生産性を向上させることが可能です。AIにどこまで任せるか、人間とAIのより良い役割分担を考えていくことが今後の課題であり楽しみでもある、と筆者は述べています。

    引用元: https://zenn.dev/ubie_dev/articles/d97c5ece4660bd

    営業AIエージェント「アポドリ」のつくりかた

    この記事は、営業AIエージェント「アポドリ」を開発する過程で得られた経験や学びを共有するSpeaker Deckの資料に基づいています。新人エンジニアの皆さんにも、AIエージェント開発の現実や考え方を理解してもらうことを目指します。

    「アポドリ」は、人の代わりに企業のリストをもとに顧客にアプローチし、商談のアポイントメントを獲得するAIエージェントです。具体的には、企業情報や担当者をウェブやデータベースから収集し、相手に合わせた1対1のメッセージを生成して、メールや問い合わせフォームなど多様な手段でアプローチを実行。さらに、アプローチ結果を分析して改善に繋げるという一連の営業活動を自動で行います。

    開発の道のりは順調だったわけではなく、失敗と苦労の連続だったそうです。最初は人が手作業で営業活動を行い、その過程を細かくタスクに分解することから始めました。そして、分解したタスクを一つずつAIに置き換えていくという進め方です。

    AIに任せた部分の精度を上げるために、AIの出力結果を人が一件ずつ確認し、必要であれば修正し、それをAIにフィードバックして学習させるという根気のいる作業を繰り返しました。この過程で、単にAIを使うだけでなく、その業務(ここでは営業)に関する深い知識、つまり「ドメイン知識」がいかに重要であるかを強く実感したとのことです。

    サービスを複数社に提供するようになると、顧客ごとにAIの振る舞いを調整する必要が出てきたり、処理する量が大幅に増えたりして、新たな課題に直面します。作業負荷が増え、手作業によるオペレーションミスも起きやすくなったため、プロンプト(AIへの指示文)をシステムの外で管理できるツール(Difyなど)を使ったり、あらゆる手作業を徹底的に自動化したりすることで、これらの課題を乗り越えていきました。この自動化を進めるにつれて、AIエージェントらしいシステムになっていったそうです。

    これらの経験から、もしゼロからAIエージェントを開発するなら、以下のプロセスを推奨しています。

    顧客課題の探索: 解決することでユーザーの状況が大きく変わるような、本質的な課題に焦点を当てる。 LLMの検証: そもそもLLM(大規模言語モデル)でその課題が技術的に解決可能か、最優先で検証する。LLMはプログラムのように完全に制御するのが難しいため、どこまでできるかを見極めることが重要です。 システム化(スモールステップ): 最初から完璧を目指さず、一部は人の手も借りながら、とにかく早くシステムを動かして価値検証を優先する。人の作業を通じてドメイン知識を深め、それをAI化に活かす。 評価と改善の仕組み化: AIの出力が「正しいか」「良い品質か」を判断するには、その業務のプロであるドメインエキスパートの協力が不可欠です。開発プロセスに彼らを巻き込み、継続的に評価・改善できる仕組みを作るのが非常に重要です。

    結論として、AIを使えば魔法のように高品質なアウトプットが簡単に出せるわけではありません。AIエージェントを成功させるためには、対象となる業務のワークフローを適切に分解し、AIに緻密な指示を与え、その結果を継続的に評価・改善していく地道な取り組みが必要不可欠です。

    この記事は、AIエージェントという新しい技術に興味があるものの、具体的な開発がどう進むのかイメージが湧かない新人エンジニアにとって、開発のリアルな道のりや、ぶつかるであろう課題、そしてそれをどう乗り越えるかのヒントを与えてくれる内容となっています。AIに「任せる」ことが当たり前になる未来に向けて、どのように開発を進めていくべきかを考える良いきっかけになるでしょう。

    引用元: https://speakerdeck.com/ikeyatsu/ying-ye-aieziento-apodori-notukurikata-758847a3-9962-4bee-9481-97516597fc0b

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク Build a location-aware agent using Amazon Bedrock Agents and Foursquare APIs Amazon Web Services

    この記事は、Amazon Bedrock AgentsとFoursquare APIを使って、ユーザーの位置情報に基づいた賢いAIエージェントを構築する方法について解説しています。

    パーソナル化された体験を提供するために、ユーザーの好みだけでなく、場所や天気といった状況も考慮することが重要です。例えば、晴れた日には公園、雨の日にはカフェといった具合に、状況に合わせたおすすめができれば、ユーザーはより満足するでしょう。このような位置情報を考慮したレコメンデーションを実現するために、Amazon Bedrock AgentsとFoursquare APIを連携させるアプローチが紹介されています。

    Amazon Bedrockは、様々な高性能なAIモデルをAPI経由で利用できるAWSのサービスです。インフラ管理なしに生成AIアプリケーションを開発できます。Amazon Bedrock Agentsは、Bedrockの機能の一つで、AIエージェントを自律的に動作させることができます。これらのエージェントは、ユーザーの複雑なリクエストを理解し、必要なステップに分解して実行できます。特に、会社の持つAPIやデータソースと連携させることで、定型的な業務などを自動化させることが可能です。プロンプトエンジニアリングやメモリ管理などを自動で行ってくれるため、比較的容易に設定できます。

    一方、Foursquare Places APIは、正確な位置情報インテリジェンスを提供する外部サービスです。GeoTagging APIで緯度経度から場所を特定したり、Place Search & Data APIで場所のカテゴリや属性、営業時間などで絞り込んで検索したりできます。写真やレビュー、人気度といった詳細な情報も取得可能です。

    これらの技術を組み合わせることで、ユーザーが今いる場所や天気といったコンテキストを理解し、それに合わせた関連性の高い、タイムリーな情報を提供できるAIエージェントを作ることができます。記事では、Amazon Bedrock AgentがFoursquare APIと天気APIを呼び出すアーキテクチャが示されており、ユーザーが近くの公園を探したり、公園周辺のテイクアウト可能なレストランを探したりするデモ例が紹介されています。

    この位置情報認識エージェントを構築するためのソースコードはGitHubリポジトリで公開されており、必要な環境変数を設定し、依存関係をインストールすれば試すことができます。

    開発のベストプラクティスとしては、テストデータセットを用意してエージェントの応答を検証することや、Amazon Bedrock Guardrailsを使って不適切な入力を防ぐ対策を行うことが推奨されています。

    このように、Amazon Bedrock Agentsと外部APIを連携させることで、ユーザーの状況に応じたパーソナルな応答ができるAIエージェントを構築し、より優れたユーザー体験を提供できる可能性が示されています。

    引用元: https://aws.amazon.com/blogs/machine-learning/build-a-location-aware-agent-using-amazon-bedrock-agents-and-foursquare-apis/

    Local LLM inference - Amir Zohrenejad - Medium

    この記事は、LLM(大規模言語モデル)をインターネット上のクラウドサービスではなく、自分のPCやスマホといった「ローカル環境」で動かす技術の現状と、まだ実用化に向けた課題について解説しています。

    なぜ、わざわざLLMをローカルで動かしたいのでしょうか?その主な理由はいくつかあります。一つはコストの削減です。クラウドでLLMを使うと利用料がかかりますが、ローカルなら追加費用は不要です。次にプライバシーの向上です。機密性の高い情報を外部のサーバーに送らずに処理できるため、情報漏洩のリスクを減らせます。また、処理速度の向上も期待できます。ネットワークの遅延がないため、特に最初の応答が速くなる可能性があります。さらに、オフラインでも利用できるようになる点も大きなメリットです。例えば、スマートフォンの顔認証機能はローカルでの画像処理(推論)の良い例で、高速性、オフライン性、プライバシーが重要だからこそローカルで行われています。

    この記事の著者は、Macbook Pro(M2チップ搭載)を使って、いくつか代表的なローカル推論のためのフレームワーク(プログラムの枠組み)を試しています。具体的には、C/C++で書かれた高速なllama.cpp、それを使いやすくしたOllama、そしてブラウザ上で動くWebLLMです。これらを使って、量子化(モデルを軽量化する技術)された比較的小さな(7Bサイズの)LLMを動かし、性能を測りました。クラウドのOpenAIの小さなモデルとも比較しています。

    性能評価では、「最初の単語が出てくるまでの時間(TTFT)」と「1秒間に生成できる単語数(TPS)」を計測しました。結果として、llama.cppとOllamaはTTFTが非常に速く、応答までの待機時間が短いことが分かりました。TPSもこの2つは同程度でした。WebLLMはどちらの指標でも他のフレームワークより遅めでした。クラウドのOpenAIモデルと比較すると、ローカルで動かした小型モデルはTPSで劣る結果でしたが、それでも実用的なレベルの速度は出ていました。

    しかし、性能面以外に、ローカルLLMにはまだ開発者が取り組むべき課題があります。最も大きな課題は、モデルの選定と配布です。ローカル環境のリソース(メモリや計算能力)は限られているため、使うタスクに最適な、小さく効率化されたモデルを見つける必要があります。ところが、世の中にはたくさんのモデルがあり、どれを選べば良いか迷いやすいのが現状です。また、選んだモデルのファイルサイズが大きい(数GB以上)ことが多く、ユーザーがアプリを使い始める前にモデルをダウンロード・ロードするのに数分かかることもあります。これは、ユーザーにとって不便で、アプリの最初の体験を損なってしまいます。

    結論として、ローカルLLM推論は技術的には可能になり、性能も上がってきていますが、実用的なアプリケーションとして広く普及するには、開発者が目的のモデルを簡単に見つけ、ユーザーがモデルのダウンロードや実行を意識せずに済むような、もっと使いやすい開発ツールや配布の仕組みが必要だと筆者は述べています。将来的には、クラウドとローカルのLLMがうまく連携し、それぞれの利点を活かす形での普及が期待されます。

    (992文字)

    引用元: https://medium.com/@aazo11/local-llm-inference-897a06cc17a2

    128GB搭載M4 Max MacBook ProでオープンLLM「Gemma 3」をローカル実行してみた話

    この記事は、128GBもの大容量メモリを搭載したM4 Max MacBook Proを使って、Googleの最新オープンな大規模言語モデル(LLM)「Gemma 3」を自分のPC(ローカル環境)で動かしてみた体験談です。API利用料やプライバシーを気にせず、手元でAIを自由に動かしたいという思いから、高性能なMacBook Proを購入し、Gemma 3のローカル実行に挑戦しています。

    Gemma 3はテキストだけでなく画像なども扱える「マルチモーダル」に対応しており、特に大きな特徴は非常に長い文脈(コンテキストウィンドウ)を扱えることです。この記事では、Gemma 3の中でもサイズの異なる12B(120億パラメータ)モデルと最大の27B(270億パラメータ)モデルを試しています。

    ローカルで動かすための準備は、Open WebUIやllama.cppベースのツールを使えば比較的簡単だったとのこと。M4 Maxチップと128GBメモリ、そしてAppleのMetal技術を使うことで、27Bのような大きなモデルも実用的な速度で動かせました。

    実際に試したところ、面白い発見がありました。まず、夏目漱石の小説『吾輩は猫である』の要約をGemma3-12Bにお願いしたところ、内容はそれなりでしたが、なんと作者を芥川龍之介と間違えてしまいました。これは「ハルシネーション(AIが事実と異なることを生成すること)」と呼ばれる現象で、比較的小さなモデルでは知識や理解が不十分な場合があることを示しています。

    次に、同じタスクをより大きなGemma3-27Bで試したところ、今度は正確な要約が返ってきました。この体験から、モデルサイズが大きいほど性能が向上することを実感できたそうです。27Bモデルは日本語の長文処理も安定しており、文脈をしっかり保ってくれます。

    また、Gemma3-27Bの最大128kトークンという長いコンテキストウィンドウのすごさも体験しました。1万字を超える短編小説を丸ごと入力してテーマを尋ねたところ、全体の構造を理解した深い回答が得られ、まるでPC上で膨大な情報を扱えるAIがいるかのようだと感じたそうです。これは、たくさんのドキュメントを読ませて要約させたり、大量のコードを解析させたりといった、ローカルでの開発作業にも役立つ可能性を示しています。

    さらに、Gemma 3の画像認識能力も試しました。画像を入力してその説明を求めたところ、実用レベルの応答があり、ローカルで画像も扱えるマルチモーダルAIの可能性を感じました。ただし、ローカルで画像を使う場合は、モデルを起動するディレクトリに画像ファイルを置くといった少し注意すべき点もあったようです。

    高性能なMacBook Proについて、筆者は512GBメモリ搭載のMac Studio (M3 Ultra) も話題になっていることに触れつつ、数千億パラメータのような超巨大モデルを一台のPCで動かすのは計算能力的に現実的ではないと述べています。Gemma3-27Bくらいのモデルが、現在のPCで動かすには性能と負荷のバランスが良い「現実的な上限」だと考えているようです。

    最後に、M4 Max MacBook Pro (128GB) は高価ではあるものの、開発作業だけでなく巨大LLMも動かせるその汎用性と性能は価格に見合う価値があり、特にApple Siliconの「ユニファイドメモリ」(CPUとGPUでメモリを共有する仕組み)が大容量を実現している点を評価しています。API料金やプライバシーを気にせずローカルでAIを試せる安心感は大きく、AI活用を本気でやりたいエンジニアにとって、メモリをたくさん積んだMacは有力な選択肢だと結んでいます。

    この記事は、高性能なPCとオープンなLLMを使うことで、手元で高度なAI環境を構築できる時代が来ていることを示唆しており、ローカルAIの世界に興味があるエンジニアへの刺激となる内容です。

    引用元: https://note.com/cor_instrument/n/n6d2bc4db9175

    慶応大学のAI対策が面白い PDFに透明度100で見えない文書を埋め込みAIに読み込ませると誤回答する仕組みに

    慶應義塾大学の授業で、PDF資料に一風変わったAI対策が施されていたと話題になっています。これは、学生が課題を提出する際に安易に生成AIに頼りすぎることを防ぎ、AIの特性や限界を理解してもらうための教育的な工夫として注目されています。

    具体的には、配布されたPDF資料に、人間が見ても分からないように透明度100%(完全に透明)にしたテキストが大量に埋め込まれていました。この隠されたテキストには、本来の授業内容とは全く関係のない情報や、AIが誤った要約をするように誘導するような内容が含まれていたようです。

    生成AIの多くは、PDFなどのドキュメントを読み込む際に、テキストデータとして処理します。このとき、文字の色や透明度といった見た目の情報は考慮されず、そこに書かれているテキストそのものを抽出してしまいます。そのため、AIにこのPDFを読み込ませて要約させると、透明で見えないはずの無関係なテキストまで含めて処理してしまい、元の内容とは全く異なる、おかしな要約結果が出てしまうという仕組みです。

    この対策の面白い点は、単に「生成AIを使うな」と禁止するのではなく、AIを課題作成に利用した場合にどのような問題が起こりうるかを、学生自身に体験させる形になっていることです。「課題は自分なりの言葉で記述する」という指示と組み合わせることで、AIが生成した答えをそのまま提出しても適切な評価が得られないことを示唆し、AIの出力内容を鵜呑みにせず、自分で検証し、適切に利用することの重要性を教えています。

    この事例は、AIがどのように情報を読み取るか、そしてその特性を理解した上でどのように付き合っていくべきかという、エンジニアにとっても非常に重要な学びを示唆しています。最新技術であるAIも万能ではなく、その動作原理を知り、限界を踏まえて賢く活用していく姿勢が求められていると言えるでしょう。

    引用元: https://togetter.com/li/2541260

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • Mangler du episoder?

    Klikk her for å oppdatere manuelt.

  • 関連リンク Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs

    Googleは、高性能な最新オープンAIモデル「Gemma 3」を発表しました。このモデルは高い性能を持っていますが、本来はBF16という精度で動かすために、NVIDIA H100のような高性能で高価なGPUが必要でした。

    もっと多くの日本のエンジニアやAI開発者がこの素晴らしいモデルを気軽に使えるようにするため、Googleは「QAT (Quantization-Aware Training)」という技術で最適化された新しいGemma 3モデルを発表しました。

    QATとは、AIモデルのデータを圧縮する「量子化」という技術を、モデルを訓練する(学習させる)段階から組み込む手法です。モデルのデータを小さくすることで、実行に必要なGPUのメモリ(VRAM)を大幅に減らすことができます。単純に量子化するとモデルの性能が落ちやすいのですが、QATを使うことで、性能の低下を最小限に抑えつつ、データサイズを小さくできるのが特徴です。

    このQATによる最適化の効果は絶大です。例えば、Gemma 3の最大のモデルである27B(パラメータ数が多いほど高性能だがサイズも大きい)の場合、BF16精度だと54GBのVRAMが必要でしたが、int4という精度に量子化されたQATモデルでは、必要なVRAMがわずか14.1GBに減りました。これにより、NVIDIA RTX 3090(VRAM 24GB)のような、一般的に入手しやすいデスクトップPC向けGPUでも、これまで一部の研究者や企業でしか動かせなかったような高性能なGemma 3 27Bモデルを、自分のPCで実行できるようになります。

    他のサイズのモデル(12B, 4B, 1B)も同様にVRAMが大幅に削減されており、ラップトップPCのGPUや、さらにメモリが少ないデバイスでも動かしやすくなりました。

    これらのQAT最適化済みモデルは、Ollama、llama.cpp、MLXといった人気のAI実行ツールに対応しており、Hugging FaceやKaggleといったプラットフォームで公開されています。これにより、既存の開発環境に簡単に組み込んで試すことができます。

    この取り組みは、最新のAI技術を特定の高性能ハードウェアを持つ人だけでなく、より多くのエンジニアが手軽に利用できるようにすることを目指しています。これにより、AI開発のハードルが下がり、新しいアイデアが生まれやすくなることが期待されます。高価なGPUがなくても、手元のPCで最先端のGemma 3モデルを使ってAI開発を始めるチャンスです。

    引用元: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

    ついに量子コンピュータでLLMの追加学習に成功。量子コンピュータとテンソルネットワークがLLM計算を変える。

    この記事では、最先端技術である量子コンピュータと大規模言語モデル(LLM)が結びつき、特にLLMの追加学習(ファインチューニング)の方法が大きく変わり始めている状況について解説しています。

    これまでのLLM学習は、たくさんのGPUを使った大規模な計算が中心でした。しかし最近では、LoRA(Low-Rank Adaptation)のように、モデル全体ではなく一部だけを効率よく学習させる「軽量な微調整手法」が注目されています。量子コンピュータは、少ない計算資源(量子ビット)でも「重ね合わせ」や「もつれ」といった量子力学の不思議な性質を使うことで、高い表現力を持つ可能性があります。ここに、量子コンピュータを使ってLLMを扱うメリットがあります。

    この量子コンピュータ上でのLLMの学習を可能にしている重要な技術の一つが「テンソルネットワーク」です。これは、量子状態や複雑なデータ構造を効率的に扱える数学的な手法で、巨大なLLMの一部を量子コンピュータ向けに変換したり学習させたりするのに役立ちます。これにより、従来の数学的手法では難しかった「量子的情報構造」の調整ができるようになります。

    量子コンピュータを使ったLLMのファインチューニングは、ただ単に学習を速くするだけでなく、従来とは全く異なる「新しいやり方(別の相)」として捉えられています。量子コンピュータの性質を最大限に活かすには、従来の学習アルゴリズムだけでは不十分なため、量子回路に特化した新しい学習方法の研究も進んでいます。

    実際に、いくつかの研究では、量子コンピュータ上でLLMのファインチューニングの一部を実行したり、特定の分野(法律や医療など)に特化した小さなモデルを量子コンピュータで調整したりする例が出てきています。これにより、計算の高速化だけでなく、LLMがより柔軟に対応できるようになり、少ないエネルギーで動いたり、より深い表現力を獲得したりすることが期待されています。

    結論として、量子コンピュータがLLMに利用されることで変わるのは、単なる計算速度ではなく、LLMをデータに合わせて調整し、進化させる「学習・適応・最適化」というプロセスそのものです。LoRAやテンソルネットワークといった技術が、この新しい時代の扉を開いています。これは、AIが今までとは違う「量子的な考え方」を取り入れ始める可能性を示唆していると言えるでしょう。

    引用元: https://blueqat.com/yuichiro_minato2/40faced2-a224-4c07-849d-3651ebcb3356

    テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 - Preferred Networks Research & Development

    Preferred Networks(PFN)は、日本語の文章を数値ベクトルに変換する新しいモデル「PLaMo-Embedding-1B」を開発しました。これは、同社の大規模言語モデル(LLM)「PLaMo」をベースにしています。

    テキスト埋め込みモデルは、文章の意味を捉えて数値ベクトルとして表現します。意味的に似た文章は近いベクトルに、遠い文章は離れたベクトルになります。これにより、ベクトルの類似度を計算することで、文章同士がどれくらい似ているかを測ることができます。この技術は、膨大な文章の中から関連性の高いものを探す「情報検索」や、最近注目されているLLMと検索技術を組み合わせた「RAG (Retrieval Augmented Generation)」などのシステム構築において非常に重要な役割を果たします。

    PFNが開発したPLaMo-Embedding-1Bは、日本語のテキスト埋め込みモデルの性能を測るベンチマーク「JMTEB」で、公開時点でOpenAIの高性能モデルなどを上回り、トップクラスの評価を得ました。特に、文章検索に関わるRetrievalタスクで優れた性能を発揮しています。

    この高い性能を達成するために、いくつかの技術的な工夫が行われています。

    LLM構造の応用: 言語生成に使われるLLMの構造を、テキスト全体を考慮して埋め込みベクトルを計算する Bidirectional モデルに適した形に変換する「LLM2Vec」という手法を取り入れています。 段階的な学習プロセス: まず、大量のデータを使って基本的な能力を高める「事前学習」を行い、その後、より質の高いデータで精度を向上させる「ファインチューニング」を行いました。 効率的な学習: 学習では「対照学習」という手法を用いて、意味的に関連のある文章のベクトルは近づけ、そうでない文章のベクトルは遠ざけるようにモデルを調整しています。 データの工夫: 異なる種類のデータで事前学習したモデルを組み合わせる「モデルマージ」や、リランカーという別のモデルを使って学習データの質をチェックし、適切なデータを選ぶフィルタリングを行いました。また、学習をより効果的にするために、一見似ているが意味が異なる「Hard-negative」と呼ばれる難しいサンプルも活用しています。 検索特化の調整: 検索タスクで使われる「質問文(クエリ)」に対して、特定の短いフレーズ(prefix)を付けることで、クエリと検索対象の文章のベクトル表現に非対称性を導入し、検索精度を高める工夫も施されています。

    開発されたPLaMo-Embedding-1Bモデルは、Hugging Faceで公開されており、Apache v2.0ライセンスのもと、個人利用・商用利用を問わず誰でも自由に利用できます。

    これらの様々な技術と工夫により、日本語のテキスト埋め込みにおいて高い性能を持つPLaMo-Embedding-1Bが実現しました。この開発で得られた知見は、今後のPFNにおけるLLM開発にも活かされていく予定です。

    引用元: https://tech.preferred.jp/ja/blog/plamo-embedding-1b/

    間違ったこと言った時の「あ、ごめん。嘘言った」という言い回しが通じなくて、『なんで嘘つくの!』と言われて少しトラブルになった話「エンジニアの癖ですよね」「関西は結構多くの人が使う印象」

    今回の記事は、Twitter(現X)で話題になった、間違ったことや勘違いを訂正する際に使う「あ、ごめん。嘘言った」という言い回しが、人によっては伝わりにくく、誤解を招くことがある、という体験談をまとめたものです。

    発端となったツイートでは、このフレーズを使ってしまい、相手に「なんで嘘つくの!」と問われて少しトラブルになったことが語られています。そして、「これって理系用語なのだろうか?」と疑問が投げかけられました。

    この問いに対し、多くのユーザーから様々な意見が寄せられました。「エンジニアの癖だ」「理系やエンジニア界隈でよく聞く言い方だ」という声が多く、システムのパラメータや数値の誤りをすぐに訂正する際や、通信・放送の現場で使われることがあるなど、具体的な場面を挙げる人もいました。これは、単なる間違いや勘違いであり、意図的に事実と異なることを述べた「嘘」ではない、というニュアンスで使われているようです。中には、高校の理科や工業の先生が使っていたのを聞いて覚えた、研究職でも使う、といった経験談もありました。

    一方で、「関西地方ではエンジニアかどうかに関わらず、普通に使う人が多い印象だ」という地域差に関する指摘もありました。短い言葉で端的に誤りを伝えられる点が、理由として推測されていました。

    しかし、記事の発端となった体験談が示すように、この言い回しは誤解を生む可能性があります。「嘘」という言葉は、通常、意図的な欺きを連想させるため、悪意なく使ったとしても相手に不信感を与えてしまうリスクがあります。実際、「事実と異なること=嘘なので用法は合っているが、悪意の有無が伝わらないと問題になる」といった意見もありました。

    新人エンジニアの皆さんにとって、このような「業界内では当たり前のように使われているけれど、一般的には少し違ったニュアンスで捉えられる言葉」があることを知っておくのは大切なことです。技術的な専門用語だけでなく、日常会話に近いフレーズでも、特定のコミュニティ内でのみ通じる独特の表現が存在することがあります。

    コミュニケーションにおいては、自分の意図が正確に相手に伝わることが重要です。「嘘言った」以外にも、間違えを訂正する表現は「間違えました」「訂正します」「正確には〜です」など様々あります。状況や相手に合わせて、より分かりやすく、誤解のない言葉を選ぶことを心がけましょう。

    仕事では、技術力だけでなく、チーム内外の人たちと円滑に連携するためのコミュニケーション能力も非常に重要です。言葉の選び方一つで、相手の受け取り方やその後の関係性が変わることもあります。今回の記事を参考に、普段自分が使っている言葉について少し意識を向けてみるのも良い学びになるはずです。

    引用元: https://togetter.com/li/2540758

    お便り投稿フォーム

    VOICEVOX:春日部つむぎ

  • 関連リンク TechFeed - エンジニアのための技術情報収集&共有プラットフォーム

    タイトル: TechFeed - エンジニアのための技術情報収集&共有プラットフォーム

    要約:OpenAIがo3とo4-miniという新しいAIモデルを発表しました。o3は色々な分野で高い性能を発揮する大型モデルで、o4-miniは計算資源をあまり使わずに良い結果を出す小型モデルです。特にo3は画像を見て内容を理解し、複雑な問題も解けるようになりました。ChatGPTの有料版で試せます。

    引用元: https://techfeed.io/entries/680028631c02de6fd1abb47d

    Start building with Gemini 2.5 Flash

    GoogleがGemini 2.5 Flashのプレビュー版を公開。推論能力が大幅に向上しつつ、速度とコストも最適化されている点が特徴。開発者は「thinking budget」を設定することで、品質・コスト・レイテンシのバランスを調整可能。APIを通じてGoogle AI StudioとVertex AIで利用可能。

    引用元: https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

    Neural Rendering in NVIDIA OptiX Using Cooperative Vectors NVIDIA Technical Blog

    NVIDIA OptiX 9.0で導入されたcooperative vectorsは、レイトレーシング内でAI処理を効率化する新機能です。NVIDIA RTX Tensor Coreを活用し、シェーディング時にハードウェアアクセラレーションされた行列演算とニューラルネット計算を可能にします。これにより、RTX Neural ShadersやNeural Texture CompressionといったAIレンダリング技術が進化し、リアルタイムレンダリングにおけるフォトリアルなマテリアル表現が向上します。cooperative vectorsはOptiX、DirectX、NVAPI、Slang、VulkanなどのAPIで利用可能です。cooperative vectorsは、ニューラルネットワークの基本要素であるMLP(多層パーセプトロン)の計算を高速化するために、Tensor Coreの能力を最大限に引き出します。CUDAのSIMTモデルの制約を克服し、warp内の非アクティブなスレッドが存在する場合でも行列演算を可能にし、アーキテクチャ間の互換性を提供します。OptiXでは、OptixCoopVecという型でcooperative vectorsが実装されています。サンプルコードでは、MLPの層を評価するevalLayer関数内でoptixCoopVecMatMul関数を使用し、ベクトル-行列積とバイアス加算を行っています。cooperative vectorsは、RTX Neural ShadersやRTX Neural Texture Compressionに利用されており、NVIDIA RTX Kitの一部として提供されています。

    引用元: https://developer.nvidia.com/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/

    「カップヌードルが好きすぎるずんだもん」が『ニコニコ超会議2025』に出展 Gateboxとのコラボアイテムが登場 - BCN+R

    この記事は、2025年4月26日、27日に開催されるニコニコ超会議2025に「カップヌードルが好きすぎるずんだもん」が出展するというニュースです。Gateboxとのコラボアイテムが登場する予定です。

    引用元: https://www.bcnretail.com/article/detail/id%3D509428

    お便り投稿フォーム

    VOICEVOX:ずんだもん

  • 関連リンク うさぎでもわかるGPT-4.1 - 他のGPTモデルとの違いを徹底解説

    GPT-4.1はOpenAIの最新言語モデル。API経由で提供され、コーディング、指示理解、長文処理能力が向上。GPT-4oと比較し、性能向上しつつコストも削減。3つのモデル(GPT-4.1、mini、nano)があり、用途で選択可能。特にコーディング能力が向上し、指示理解もより正確。100万トークンまでの長文コンテキスト処理が可能。画像理解能力も向上。GPT-4oより高性能で低コストなminiモデルが魅力。APIでのみ利用可能。プロンプトを具体的に記述し、diff形式を活用、プロンプトキャッシングでコスト削減が有効。

    引用元: https://zenn.dev/taku_sid/articles/20250415_gpt41_features

    ニューラルかな漢字変換システム「Zenzai」の開発

    東大の三輪氏らが未踏事業で開発したニューラルかな漢字変換システム「Zenzai」を紹介。従来の統計的かな漢字変換の限界を、ニューラルネットワークで克服する試みです。GPT-2をベースに1.9億文規模のデータセットで学習。GPU環境(高火力DOK)を活用し高速に実験を繰り返しました。評価では既存手法やGPT-4.5に匹敵する精度を達成。macOSアプリ「azooKey on macOS」に実装され、誰でも試せます。言語処理学会で発表、若手奨励賞も受賞。今後はMLOpsの改善や既存機能との統合を目指すとのことです。

    引用元: https://knowledge.sakura.ad.jp/42901/

    JetBrains IDEs Go AI: Coding Agent, Smarter Assistance, Free Tier The JetBrains Blog

    JetBrainsがAIツールをIDEに統合。AIアシスタントに加え、コーディングエージェントJunieが利用可能に。これらは単一サブスクリプションで提供され、無料枠も用意。Junieは、AnthropicのClaudeやOpenAIのLLMを活用し、複雑なタスクを支援しコード品質も向上。AIアシスタントも強化され、Claude 3.7 SonnetやGoogle Gemini 2.5 Proなど最新モデルに対応。コード補完やコンテキスト認識が向上し、開発効率アップに貢献。

    引用元: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

    Google PixelのAI電話対応、迷惑電話だと即お断りしててウケる→「この機能便利」「返答が参考になる」

    Google PixelのAIが、迷惑電話を自動で判断し、対応してくれる機能が話題です。ユーザーからは「便利」「参考にしたい」という声が上がっています。AIがセールス電話を識別し、AI同士の対話に期待する声や、もっと通話を長引かせて相手のコストを増やして欲しいという意見も出ています。

    引用元: https://togetter.com/li/2538490

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク 3 new ways AI agents can help you do even more

    MicrosoftがAIエージェントに関する最新情報を公開しました。AIエージェントは、ユーザーのニーズを予測し、複雑なタスクを実行し、経験から学習する、まるで優秀なアシスタントのような存在です。Microsoft 365 Copilot向けのResearcherとAnalystは、メール、会議、ファイルなどのデータやWeb上の情報を分析し、高度な専門知識を提供します。また、サイバーセキュリティ分野では、フィッシング詐欺への対応やデータ保護を自動化するエージェントが登場し、セキュリティ担当者の負担を軽減します。開発者向けには、Azure AI FoundryでAIアプリの開発、展開、管理を支援するエージェントが提供され、データに基づいた意思決定やAIモデルの安全性テストを支援します。

    引用元: https://news.microsoft.com/source/features/ai/3-new-ways-ai-agents-can-help-you-do-even-more/

    Generate videos in Gemini and Whisk with Veo 2

    Gemini Advancedのユーザーは、Googleの最新動画モデルVeo 2を使って動画生成・共有が可能になった。Geminiではテキストから8秒の動画を作成できる。Google One AI Premiumの契約者は、Whisk Animateで画像から動画を作成できる。Veo 2は高解像度でリアルな動画生成を目指し、物理法則や人の動きを理解し、滑らかな動きや細部まで表現する。Geminiで動画を作成するには、モデル選択でVeo 2を選択。作成した動画は簡単に共有可能。安全対策として、生成された動画にはSynthIDによるデジタル透かしが入る。

    引用元: https://blog.google/products/gemini/video-generation/

    OpenAI GPT-4.1 now available in public preview for GitHub Copilot and GitHub Models · GitHub Changelog

    GitHub CopilotとGitHub ModelsでOpenAIの最新モデルGPT-4.1が利用可能になりました。GPT-4.1は、GPT-4oを上回る性能を持ち、特にコーディング、指示の理解、長文コンテキストの理解が向上しています。Copilot Enterpriseの管理者は、GPT-4.1へのアクセスをCopilot設定で有効にする必要があります。GitHub Modelsでは、GPT-4.1をAIアプリケーションで利用できます。

    引用元: https://github.blog/changelog/2025-04-14-openai-gpt-4-1-now-available-in-public-preview-for-github-copilot-and-github-models/

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク LLMの使い分けは大体Geminiでいい(2025年4月時点)

    LLMの使い分けについて、Gemini 2.5 Proが基本となり、調べ物はDeepResearch、図や画面作成はClaude 3.7 Sonnetが良い。Perplexity Proは検索に引き続き有用。コーディングはGemini 2.5 Proが優れているが、画面作成と不要コメント削除はClaude 3.7 Sonnetが適している。API経由では、性能重視ならGemini 2.5 Pro、コスパ重視ならGemini 2.5 Flashが期待される。Claude 3.7 Sonnetには不満があり、今後の改善に期待。Gemini 2.5 Proは無料でも試せるため推奨。

    引用元: https://note.com/erukiti/n/n2318dd359061

    Claude Desktopで爆速開発する

    この記事は、Claude DesktopとMCP(Multi-Context Protocol)を組み合わせた開発環境の構築について解説しています。IntelliJのClineがまだ対応していない状況で、Claude DesktopアプリでMCPを活用したClaude Codeを利用することで、追加コストなしに高度なAIコーディング支援を受けられます。これにより、IDEで作業しながら、Claudeに別のタスクを並行して実行させることが可能になります。また、Claude.mdファイルを使うことで、開発に必要なコンテキストをClaudeに事前に伝えることができます。

    引用元: https://zenn.dev/to43ki/articles/296db40fed7b23

    Hugging Face to sell open-source robots thanks to Pollen Robotics acquisition 🤖

    Hugging Faceがオープンソースロボット開発のPollen Roboticsを買収し、ロボット販売に参入。2024年からロボティクス分野に進出し、LeRobotライブラリを開発。今回、Pollen Roboticsの買収により、オープンソースロボットReachy 2を70,000ドルで販売開始。Reachy 2は研究、教育、AI実験用に設計されたVR対応のヒューマノイドロボット。Hugging Faceは、AIとロボティクスの融合を推進し、オープンで手頃な価格のロボットをコミュニティに提供することを目指している。

    引用元: https://huggingface.co/blog/hugging-face-pollen-robotics-acquisition

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク Agent2Agent プロトコル(A2A)を発表:エージェントの相互運用性の新時代

    GoogleがAIエージェント連携のためのオープンプロトコル「A2A」を発表。Atlassian、Box、Salesforceなど50社以上が参加。A2Aは、異なるベンダーや環境で構築されたAIエージェントが、安全に情報交換しタスクを連携実行するための共通基盤。HTTP、JSON等の既存技術を基盤とし、セキュリティ機能も提供。人材採用を例に、複数のエージェントが連携して業務を効率化する活用事例を紹介。詳細はGithubで公開されており、貢献も可能。

    引用元: https://cloud.google.com/blog/ja/products/ai-machine-learning/a2a-a-new-era-of-agent-interoperability/

    ChatGPTより格段にすごい……Googleの最新AI「Gemini 2.5 Pro」を使ってないのは時代遅れ。

    Googleの最新AI「Gemini 2.5 Pro」は、100万トークンという桁違いの文脈理解能力を持ち、大量の情報を効率的に処理できる。高度な推論能力で複雑な問題を解決し、テキスト、画像、音声など多様な情報を統合的に理解するマルチモーダル性能も進化。特に「Deep Research機能」は、Web上の情報を深く分析し、専門家のようなレポートを生成する。無料版も提供されており、ビジネスパーソンにとって大きな差別化要因となり得る。AIを使いこなし、スキルをアップデートすることが重要。

    引用元: https://note.com/ihayato/n/nbd8046c4963b

    Playwright MCP を使ってAIにUXを評価してもらう

    この記事では、Playwright MCPを使ってAIにWebサイトのUXを評価させる試みを紹介。MCPはAIとサービスを繋ぐ共通規格で、Playwright MCPはPlaywrightのMCPサーバーとして、AIによる画面操作を可能にします。VSCodeとGitHub Copilotを連携させ、ペルソナと評価基準を設定。気象庁HPを例にAIがUXを評価しました。結果、AIはユーザビリティ、デザイン、パフォーマンスを評価し、改善点を提案。開発初期段階でのUX評価に有用で、人手による評価を補完し、より多くの評価回数でUXを向上させる可能性を示唆。スナップショットモードとビジョンモードの違いも検証し、ビジョンモードの方がより詳細な評価が可能であることを確認しました。

    引用元: https://qiita.com/Takenoko4594/items/cc36ca3043f11ca175c1

    くまモンって熊本のキャラだと今初めて知った

    筆者はくまモンを単なるクマのゆるキャラだと思っていたが、熊本のキャラクターだと初めて知り驚いている。見た目に熊本要素がないと感じているようだ。コメント欄では、熊本関連のイベントや商品で見かけることが多いという意見や、熊本の商品についていることが多いという意見が出ている。

    引用元: https://anond.hatelabo.jp/20250413180942

    お便り投稿フォーム

    VOICEVOX:春日部つむぎ

  • 関連リンク Build Enterprise AI Agents with Advanced Open NVIDIA Llama Nemotron Reasoning Models NVIDIA Technical Blog

    NVIDIAが、AIエージェント構築向けの「Llama Nemotron」推論モデルを発表しました(2025年3月)。このモデルは、複雑な問題解決や推論に特化しており、顧客サポートやサプライチェーン最適化など、様々な分野での応用が期待されています。

    Llama Nemotronは、Nano(8B)、Super(49B)、Ultra(253B)の3つのサイズで提供され、用途や計算リソースに合わせて選択可能です。特にSuperモデルは、データセンターGPUでの高いスループットと精度を両立しています。

    これらのモデルは、推論能力のON/OFFをシステムプロンプトで切り替えられる点が特徴で、推論が必要なタスクとそうでないタスクの両方に対応できます。NVIDIA NeMoフレームワークを活用した学習プロセスを経ており、高品質な推論能力を実現しています。

    引用元: https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

    Prevent LLM Hallucinations with the Cleanlab Trustworthy Language Model in NVIDIA NeMo Guardrails NVIDIA Technical Blog

    LLMの誤った応答(ハルシネーション)を防ぐため、NVIDIA NeMo GuardrailsとCleanlab Trustworthy Language Model (TLM)の連携を紹介。NeMo Guardrailsは、AIエージェントの安全性を確保するフレームワークで、TLMはLLMの応答の信頼性を評価する。具体的には、顧客サポートAIアシスタントを例に、TLMが不正確な情報を検出し、適切な応答を促す仕組みを解説。TLMは、応答内容が企業のポリシーと整合しているかをチェックし、不確実な情報や誤解を招く可能性のある情報を排除。これにより、LLMの信頼性を高め、顧客満足度向上に貢献する。リポジトリでは、顧客サポートAIアシスタントのサンプルコードが提供されている。

    引用元: https://developer.nvidia.com/blog/prevent-llm-hallucinations-with-the-cleanlab-trustworthy-language-model-in-nvidia-nemo-guardrails/

    KuruKuruDreams、「ペンギン冒険 (feat. ずんだもん)」を配信開始|THE MAGAZINE

    KuruKuruDreamsが「ペンギン冒険 (feat. ずんだもん)」をリリースしました。2025年4月11日に各種音楽配信サービスで配信開始。ずんだもんがフィーチャリングされた、エレクトロ、ボーカロイド、ポップの要素を含む楽曲です。

    引用元: https://magazine.tunecore.co.jp/newrelease/492853/

    お便り投稿フォーム

    VOICEVOX:ずんだもん

  • 関連リンク MCP入門

    MCP(Model Context Protocol)は、AIが外部データやツールにアクセスする際の共通ルールです。従来、AIと外部システムを連携させるには個別実装が必要でしたが、MCPは接続方法を標準化し、開発の手間を減らします。

    MCPは、JSON-RPCを共通言語とし、初期化時に互いの機能を確認し合う仕組みです。ホスト(AI)、クライアント(セッション)、サーバ(データ/ツール)の3つの役割があり、LINEアプリに例えると理解しやすいでしょう。

    開発者は、ツールやリソースの登録、トランスポート層の選択などを行います。MCPは進化が早く、Streamable HTTPが推奨されるようになりました。公式サンプルコードを参考に、MCPサーバを構築してみましょう。

    引用元: https://zenn.dev/mkj/articles/0ed4d02ef3439c

    Cursor,Windsurf,Github Copilotを課金して使い比べしてみた感想

    AIコーディングアシスタント「Windsurf」「Cursor」「GitHub Copilot」の比較記事です。著者は実際に課金して使用感を検証。CursorはGIFアップロード機能や柔軟なルール設定が魅力だが、従量課金のみ。WindsurfはCursorより安価だが、AIモデルとFlow Actionの制限あり。GitHub Copilotはコード品質が高く、VSCodeとの連携がスムーズ。月額料金も手頃。結論として、ルールを重視するならCursor、少しでも安く済ませたいならWindsurf、安定性を求めるならGitHub Copilotがおすすめとのことです。

    引用元: https://zenn.dev/service/articles/11c04773e90232

    Ironwood: The first Google TPU for the age of inference

    Googleが第7世代TPU「Ironwood」を発表。推論処理に特化し、大規模言語モデル等に対応。最大9216チップで構成され、世界最大スパコンの24倍以上の計算能力(42.5Exaflops)を実現。前世代Trilliumと比較して、電力効率が2倍、メモリ容量が6倍、メモリバンド幅が4.5倍に向上。チップ間接続も強化。AI Hypercomputerの構成要素として、Google Cloudで利用可能になる予定。

    引用元: https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

    北海道の珍味「タコの精巣」を料理して食レポ! 加熱すると中身がニュルッと飛び出すレア食材は“インパクト抜群の美味”だった:マピオンニュースの注目トピック

    ニコニコ動画に投稿された、北海道の珍味「タコの精巣」を料理して食レポする動画の記事です。

    引用元: https://www.mapion.co.jp/news/column/nico17489953/

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク TechFeed - エンジニアのための技術情報収集&共有プラットフォーム

    TechFeedは、エンジニア向けに設計された情報収集・共有プラットフォームです。180以上の専門チャンネルで技術トレンドからニッチな情報まで網羅し、自動翻訳による海外情報へのアクセスも容易です。注目記事の自動厳選、記事の面白さを数値化するTechFeedスコア、パーソナライズ機能により、効率的な情報収集を支援します。ブックマーク、高度なシェア機能、コメント機能なども搭載。お仕事情報の提供や、技術情報収集の習慣化を促す機能も備えています。

    引用元: https://techfeed.io/entries/67f2f13efe15614dc4ce2659

    Introducing AutoRAG: fully managed Retrieval-Augmented Generation on Cloudflare

    Cloudflareが提供するAutoRAGは、RAG(Retrieval-Augmented Generation)をフルマネージドで実現するサービスです。RAGは、LLM(大規模言語モデル)の精度を向上させる技術で、AutoRAGはデータ取り込みからベクトルデータベースへの格納、検索、応答生成までを自動化します。これにより、開発者は複雑な設定やメンテナンスから解放され、AIを活用したアプリケーション開発に集中できます。CloudflareのR2、Vectorize、Workers AIなどのサービスを組み合わせて構築されており、データソースとの連携、データ変換、チャンク化、埋め込み、ベクトル保存、クエリ処理などを自動で行います。

    引用元: https://blog.cloudflare.com/introducing-autorag-on-cloudflare/

    Meta got caught gaming AI benchmarks

    Metaが開発したLlama 4の新型AIモデル「Maverick」について、ベンチマークテストで不正を行った疑いが浮上。MetaはLMArenaというAIベンチマークサイトで、公開版とは異なる「会話に最適化された実験版」のMaverickを使用し、競合のGPT-4oやGemini 2.0 Flashより高いスコアを獲得したと主張。しかし、この点が指摘され、LMArenaはポリシーを更新し、公平な評価を求める声明を発表。Metaは実験的なカスタム版を使用していたことを認めた。

    引用元: https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

    No elephants: Breakthroughs in image generation

    画像生成AIが進化し、LLMが直接画像を制御する「マルチモーダル画像生成」が登場しました。以前は別のツールにテキストを送り画像生成していましたが、新しい方式ではAIが文章を作るように画像をパーツごとに生成します。これにより、より正確で高品質な画像が作成可能に。「象のいない部屋」のような複雑な指示も、以前のシステムより遥かに正確に反映できます。インフォグラフィック作成や画像編集も可能で、手書きのラフを広告にしたり、写真の家具を別の写真のものと入れ替えたりできます。まだ完璧ではありませんが、画像生成AIの進化は目覚ましく、様々な分野への応用が期待されます。ただし、著作権や倫理的な問題も考慮する必要があります。

    引用元: https://www.oneusefulthing.org/p/no-elephants-breakthroughs-in-image

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク GitHub Copilotでバイブコーディング:エージェントモードとMCPサポートがVS Codeユーザーに提供開始

    GitHub Copilotが進化し、VS Codeでエージェントモードが利用可能になりました。これは、ユーザーの指示に基づき、コードの自動生成や修正をより広範囲に行える機能です。また、MCP(Model Context Protocol)をサポートし、様々なツールとの連携も強化されました。有料プランでは、高性能なモデルを利用できるプレミアムリクエストが導入され、より高度なコーディング支援が可能です。

    引用元: https://github.blog/jp/2025-04-07-github-copilot-agent-mode-activated/

    AI時代はプログラミングスキルがさらに重要になる

    AI時代にプログラミングスキルは不要になるか? 著者は、AIが得意なのはネット上に情報が多い典型的なコードで、サンプルが少ないエッジケースは苦手だと指摘。AIが8割のコードを書いても、残りの2割、つまりエラーや特殊な挙動への対応に労力がかかる。AIは要件定義や設計も得意だが、評価が難しいため、人間の修正が必要になる。プログラマーはAIとの協働で、AIの弱点を補完し、成果物を調整する役割を担う。AIに仕事を奪われるのではなく、AIと協力して仕事をする関係になると予想。技術の進化は指数関数的とは限らず、専門知識を学び続けることが重要。

    引用元: https://zenn.dev/dyoshikawa/articles/programming-skills-will-be-more-valueable

    Devinが作るPull Requestのセルフマージを禁止する

    AI開発ツールDevin導入時、Devinが作成したPRをエンジニア自身が承認・マージできてしまう課題があります。そこで、GitHub Actionsを使用し、Devinが作成したPRには自動で「ai-generated」ラベルを付与。2人以上の承認がないとマージできないように設定します。レビュー承認数に応じてステータスを更新し、Branch Protectionと連携してマージを制御。これにより、AIが生成したコードの品質とセキュリティを向上させます。

    引用元: https://tech.newmo.me/entry/ai-pull-request-protection

    大規模な情報処理を行う「データセンター」の建設に住民が反対しているという記事→建てた方が良い理由や反対する理由など様々な声

    データセンター建設に対する住民の反対意見と、それに対する様々な意見をまとめた記事です。反対理由としては、見た目が刑務所のようである、騒音や環境への影響の懸念などが挙げられています。一方で、データセンターは固定資産税による自治体の収入増、企業の地方進出、雇用創出の可能性といったメリットもあります。「あった方が良い」という意見も多く、地域との共生や情報公開の必要性が指摘されています。

    引用元: https://togetter.com/li/2535609

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク Llama 4: Metaがもたらす新時代のマルチモーダルAI革命

    MetaがLlama 4を発表。初のマルチモーダルモデルであり、MoEアーキテクチャ採用。Scout, Maverick, Behemothの3モデル構成。Scoutは10Mトークンのコンテキストウィンドウが特徴。MaverickはGPT-4o等を凌駕。Behemothは開発中で教師モデルとして活用。MoE、アーリーフュージョン、iRoPE等の技術が革新的。最大8枚の画像を同時処理可能。MetaPによる学習効率化、FP8精度でのトレーニングも特徴。安全性確保のため、Llama Guard等のツールも提供。オープンソースで利用可能。

    引用元: https://zenn.dev/acntechjp/articles/20250406_llama4_analysis

    neovim 0.11からはLSPをほぼネイティブAPIだけで扱える

    Neovim 0.11でLSP(Language Server Protocol)関連機能が大幅に強化され、プラグインなしでも本格的に使えるようになりました。主な変更点は、LSPの設定、自動起動、補完がネイティブAPIで可能になったことです。設定例として、設定ファイルからnvim-lspconfigの設定を削除し、NeovimのAPIで直接設定する方法が紹介されています。ただし、Language Server自体のインストールは引き続きmasonなどのツールが必要です。これにより、dotfilesの見直しも推奨されています。

    引用元: https://zenn.dev/pandanoir/articles/4736924f5ecc72

    【東大理3合格】ChatGPT o1とDeepSeek R1に2025年度東大受験を解かせた結果と答案分析【採点協力:河合塾】

    AI(ChatGPT o1とDeepSeek R1)に2025年の東大入試を解かせた結果、理科三類に合格相当の成績を収めました。特別な指示なしに、最新AIが東大生レベルの思考力を持つことを示唆しています。ただし、受験特有の知識や回答形式、図表の読み取り、問題文の意図理解には課題も残りました。ChatGPTは流暢な文章生成能力がある一方、DeepSeekは難問へのひらめきが見られました。AIの活用には、タスクに応じた適切な指示とチューニングが重要です。

    引用元: https://note.com/lifeprompt/n/n0078de2ef36b

    ハイチの首都がギャングにより90%支配されてる件について

    記事の内容がハイチの首都の治安に関するものであり、新人エンジニアの業務と関連性が低いため、要約を見送ります。

    引用元: https://www.nicovideo.jp/watch/sm44849022

    お便り投稿フォーム

    VOICEVOX:春日部つむぎ

  • 関連リンク Dify MCP Plugin Hands-On Guide: Integrating Zapier for Effortless Agent Tool Calls - Dify Blog

    AIエージェントが外部ツールと連携するための標準規格MCPのDifyにおける活用事例を紹介。Difyではコミュニティ開発のMCP SSEプラグインとMCP Agent Strategyプラグインを利用可能。Zapier MCPを連携させることで、Gmailなど7,000以上のアプリとの連携が容易になる。設定はZapier MCPの設定画面からMCP Server Endpointをコピーし、Difyのプラグインに設定するだけ。これにより、AIエージェントがユーザーの指示に基づき、メール送信などのタスクを自動実行できるようになる。DifyはネイティブMCPサポートも開発中。

    引用元: https://dify.ai/blog/dify-mcp-plugin-hands-on-guide-integrating-zapier-for-effortless-agent-tool-calls

    AI・LLM事業部プロダクト開発体制について

    LayerXのAI・LLM事業部におけるプロダクト開発体制を紹介。ビジネス部とプロダクト部の2部構成で、プロダクト部は開発、企画、LLM、デザインの各グループに分かれています。開発グループはAI Agent、WorkflowBuilder、Ai Workforceの各チームに分かれ、LLMツールを活用し生産性高く開発を推進。企画グループはPdMが開発チームと共同でプロダクト設計を進めます。LLMグループは顧客業務に特化したAIワークフローを構築し、WorkflowBuilderの機能追加・改善も行います。デザイングループはプロダクトとコミュニケーションのデザインを担当。チームコミュニケーション向上のため、Good & Newという取り組みも実施しています。

    引用元: https://tech.layerx.co.jp/entry/2025/04/03/154128

    任天堂スイッチ2、転売ヤー撃退へ「賢い解決策」導入–日本専用のハード、初代を50時間プレイ必須

    次世代Switchは転売対策として、日本専用版と多言語版の2モデル展開。日本専用版は言語設定が日本語のみ、アカウントも日本設定のみに制限し、価格を抑える。抽選販売では、初代Switchの50時間以上のプレイ実績と、1年以上のオンライン加入が条件となる。これにより、転売目的の購入を抑制し、真のファンに届けやすくする狙い。

    引用元: https://japan.cnet.com/article/35231292/

    DeepSeekがGPUの制限を突破するのに使われたPTX。その制約が突破の原動力になった

    DeepSeekが、米国のGPU輸出規制を逆手に取り、低スペックGPU(H800)で高性能GPU(H100)並みの性能を達成した事例。通常CUDAで開発するところを、より低レベルなPTX(アセンブラ)で直接GPUを制御し、通信速度のボトルネックを解消。投資ファンドでの高速化ノウハウが活きた。制約を打破する技術力が光る。

    引用元: https://tamakino.hatenablog.com/entry/2025/04/03/080000

    お便り投稿フォーム

    VOICEVOX:ずんだもん

  • 関連リンク さまざまなAIエージェントを網羅したリスト「Awesome AI Agents」がGitHubにて公開

    E2B社がAIエージェントのリスト「Awesome AI Agents」をGitHubで公開。OSS/クローズドソース別に、様々なAIエージェントをカテゴリやユースケースで検索可能。Adala, Agent4Rec, AgentForge, AgentGPTなどがOSSとして、Ability AI, Adept AIなどが企業提供として掲載。AI活用を検討する上で参考になるリソースです。

    引用元: https://codezine.jp/article/detail/21266

    人気殺到で制限していた「ChatGPT」画像生成、全ユーザーに開放

    OpenAIのChatGPTで、GPT-4oモデルを使った画像生成機能が無料ユーザーでも利用可能になりました。以前はアクセス集中で制限がありましたが、現在は誰でも使えるようになっています。話題のジブリ風画像生成も試せます。ただし、無料版は1日の生成回数に制限があります。AI開発競争が激化する中で、OpenAIは画像生成機能の開放でユーザー獲得を狙っています。AIの進化は目覚ましく、今後は動画生成など、より高度な機能も登場するかもしれません。

    引用元: https://japan.cnet.com/article/35231247/

    Devin的な自律型開発エージェントをAWS上に作ってみた!

    Devinのような自律型開発エージェントをAWS上に構築した事例紹介です。主な特徴は、クラウド上で並列動作、サーバーレス構成、MCPサーバーとの統合、コスト効率化など。OSSリポジトリの知識自動読み込み機能もあります。AWSアカウント、GitHubアカウント、Slackワークスペースがあれば利用可能。アーキテクチャは、APIGW+Lambda上のSlack BoltアプリがEC2インスタンスを起動し、エージェントが動作する構成。開発にはAWS AppSync Eventsを利用。詳細な手順はREADMEに記載。タスク遂行能力はLLMの種類に依存する傾向があるが、今後はUXやコスト効率が重要になる可能性。クラウド型エージェントは並列化が容易で、開発の効率化が期待できる。

    引用元: https://tmokmss.hatenablog.com/entry/self_host_autonomous_swe_agents_on_aws

    「熊本が大分を担いでるように見えた」ので描いたクマとゾウのイラストがそれにしか見えなくなる呪い

    熊本県と大分県の形をクマとゾウに見立てたイラストがTwitterで話題。一度見ると、そのイメージが頭から離れなくなるというユーモラスな内容。見た人からは「もうそうにしか見えない」「形が覚えやすくなった」などのコメントが寄せられている。

    引用元: https://togetter.com/li/2533229

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク LLMモジュールの普通ではない使い方

    M5Stack社LLMモジュールは、安価な基板単体で音声対話AIを実現する注目の技術です。通常はCoreシリーズと組み合わせて使用しますが、本記事では、モジュール単体でLinuxシステムとして活用する方法を紹介。モジュール内部のStackFlowシステムを直接制御し、音声入力、キーワード検出、音声認識、LLM、音声合成の各ユニットを初期化。PythonスクリプトでJSONコマンドを送信し、ウェイクワード検出からの応答を可能にします。Linux操作に慣れたエンジニアにとって、手軽にLLMモジュールを試せる手法です。今後は、より高性能なSoC搭載ボードで日本語対応も期待されています。

    引用元: https://zenn.dev/fairydevices/articles/8c12677feb3be7

    Minimize generative AI hallucinations with Amazon Bedrock Automated Reasoning checks Amazon Web Services

    Amazon BedrockのAutomated Reasoning checksは、生成AIの「幻覚」(もっともらしい誤情報生成)を抑制する機能です。これは、論理的推論と数学的検証を用いて、LLM(大規模言語モデル)の出力を検証し、誤りを防ぎます。企業内のルールやガイドラインを形式的な論理構造に変換し、それに基づいてAIの応答をチェックします。特に重要なのは、この機能が数学的な正確性に基づいて検証を行う点です。AIの応答が企業のポリシーに合致するかどうかを明確に判断できます。Automated Reasoning checksは、Amazon Bedrock Guardrailsの一部として提供され、コンテンツフィルタリングや個人情報保護などの機能と連携可能です。企業は、この機能を利用して、AIアプリケーションの信頼性を高め、安全に運用できます。

    引用元: https://aws.amazon.com/blogs/machine-learning/minimize-generative-ai-hallucinations-with-amazon-bedrock-automated-reasoning-checks/

    AI利用「ガチ実態」調査、誰が何にAIを使っているのか?

    アンソロピックが400万件以上のユーザー会話を分析した調査によると、AI利用の57%が「拡張・増強型」で、人間の仕事を補完する傾向が強いです。AIが最も利用されているのはプログラミングやテクニカルライティングなどのコンピューター関連業務で、全体の37.2%を占めます。次いでアート、デザイン、エンターテインメント関連が10.3%。AIは職務全体ではなく、特定のタスクで活用される傾向があり、全職種の約36%で職務タスクの4分の1以上でAIが活用されています。

    引用元: https://www.sbbit.jp/article/cont1/161215

    ちょっとお堅めの資料作成する時の挿絵、いらすとやでもいいけどいい感じのピクトグラム欲しいなぁ…と思っていたのでAIで生成できるようになって有難い

    資料作成で使えるピクトグラムをAIで生成できるようになったという話題です。これまでは既存の画像生成AIでは難しかったピクトグラム作成が可能になり、透過PNG形式で利用できます。さらに、生成した画像をSVG形式に変換できるツールも紹介されており、資料作成の効率化に繋がりそうです。

    引用元: https://togetter.com/li/2532277

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

  • 関連リンク Practical Tips for Preventing GPU Fragmentation for Volcano Scheduler NVIDIA Technical Blog

    NVIDIAがKubernetesクラスタにおけるGPUの利用効率向上に取り組んだ事例を紹介。Volcano Schedulerで発生していたGPUのフラグメンテーション問題に対し、bin-packingアルゴリズムを導入し、GPUの使用率を約90%まで改善。課題は、gang schedulingによるリソースの同時要求と、ランダムな配置によるGPUの分散。解決策として、GPU、CPU、メモリの優先順位付け、bin-packingによる最適配置、gang schedulingとの連携を実施。これにより、リソースの可用性向上、GPU使用率の向上、コスト効率の改善を実現。

    引用元: https://developer.nvidia.com/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/

    AIが生成する物語をかき乱して改善する「アーキトロープ」という手法について

    AIが物語を生成する際、既存のデータ学習により、ありきたりで説教臭い内容になりがちです。「アーキトロープ」は、物語の構造や展開に影響を与える語をランダムに選び、指示に追加することで、この問題を軽減する手法です。LLM(大規模言語モデル)は、与えられた語を結びつけ、意外な展開を生み出す特性があります。この手法は、物語のテーマやモチーフを再利用しやすい語としてまとめることで、LLMがより多様な物語を生成する手助けをします。重要なのは、語の選定、ランダムな選択、そして物語への影響です。この手法は、物語の構造を豊かにし、AIによる創作の可能性を広げます。

    引用元: https://note.com/kogu_dev/n/nfe519a873fcc

    AIコーディングエージェント勉強会

    タイトル: AIコーディングエージェント勉強会

    要約:2025年3月25日のAIコーディングエージェント勉強会資料です。AIコーディングエージェントとは、AIがコードの自動生成、補完、デバッグなどを支援するツール。 Cline, Roo Code, GitHub Copilot Agent, Amazon Q Developer 等があります。 ClineとRoo Codeは無償で入手可能、GitHub Copilotは有償。 ClineがSNSでの言及が多く、情報も豊富です。今後は、自然言語でAIに指示し、AIが生成したコードを検証・最適化する役割が重要になります。指示を具体的に記述し、最初は小さく作って継ぎ足していくのが良いでしょう。 .clinerulesに設計標準やコーディング規約を記述します。Amazon Q Developer CLI AgentはAWS環境の運用やドキュメンティングの自動化に利用できます。プログラマの仕事はAIによって変わりますが、AIツールを使いこなせるエンジニアの需要は高まります。

    引用元: https://speakerdeck.com/nasuvitz/aikodeinguezientomian-qiang-hui

    この前買ったスティックのりのUIがあまりにもクソだったのでこうなった「セブンのコーヒーマシン現象だ」「割と自分はわかりやすいと思うけどな」

    話題のスティックのり(GLOO)は、四角い形状で角まで塗りやすい反面、フタの開け方や上下が分かりにくいという声が多いようです。特に、回す部分とフタを間違えやすいという意見が多数。見た目の紛らわしさから、直感的な操作が難しい点が課題です。「セブンのコーヒーマシンみたい」という意見も。改善案として、へこみをつけるなど、触覚的な区別を付けるアイデアが出ています。

    引用元: https://togetter.com/li/2532371

    お便り投稿フォーム

    VOICEVOX:ちび式じい

  • 関連リンク Vercel AI SDK で MCP クライアントをツールとして利用する

    この記事では、Vercel AI SDKを使って、LLM(大規模言語モデル)に外部ツール連携機能を追加するMCP(Model Context Protocol)クライアントを利用する方法を解説します。MCPはLLMが外部のデータやツールを利用するための共通ルールです。Vercel AI SDKを使うと、MCPクライアントを簡単に組み込めます。Microsoftのplaywright-mcpを例に、Webブラウザ操作ツールをLLMから使えるようにする方法を紹介。SSEを使ってローカルサーバーと通信し、experimental_createMCPClientでクライアントを初期化。mcpClient.tools()でツール定義を取得し、LLMに渡します。使い終わったらmcpClient.close()で接続を閉じることが重要です。Schema Discoveryを使うと、ツール定義を自動で取得できます。

    引用元: https://azukiazusa.dev/blog/vercel-ai-sdk-mcp-client

    MCPはゲームチェンジャーになるのか

    MCP(Model Context Protocol)は、AIが外部データやツールと安全に連携するための共通プロトコルです。従来のAIは知識が限定的で、外部システムとの連携が難しく、開発コストも高かったのですが、MCPはこれらの課題を解決します。MCPは、AIをUSB-Cポートのように様々な外部サービスと繋ぎ、データの取得や書き込みを可能にします。Anthropic社が仕様とSDKを公開しており、開発者は自社のデータやサービスをMCPサーバー経由で公開できます。従来のプラグイン型やフレームワーク型、RAG型のアプローチは部分的な解決に留まっていましたが、MCPはオープンなプロトコルであり、大手AI企業のサポートもあり、業界標準となる可能性があります。MCPにより、AIは自律的に外部情報を取得し、実世界への働きかけが可能になり、生成AIの可能性を大きく広げると期待されています。

    引用元: https://zenn.dev/eucyt/articles/mcp-server-impact

    Cline / Roo-Codeにおけるコード理解と新規・保守タスクの現状

    Cline/Roo-Codeは、Tree-sitterとLLMを使い、必要なコードだけを逐次解析するツールです。全体をインデックス化しないため、大規模リポジトリでも動きますが、得意なことと苦手なことがあります。

    得意なのは、単一ファイルや少数のファイルに対する小規模な修正や機能追加です。一方、全体的な依存関係を把握できないため、大規模なリファクタリングやデッドコードの検出は苦手です。

    Clineを効果的に使うには、ドキュメントコメントや依存関係マップを整備し、タスクを細かく分割することが重要です。また、gitログ分析ツールなどと組み合わせることで、より高度なリファクタリングも可能になります。

    新規プロジェクトや小規模なコードベースでは、Clineの強みが活かしやすいでしょう。 Clineは、CursorやWindsurfに比べ、手軽に利用でき、プロンプトを細かく制御できる点が魅力です。

    引用元: https://zenn.dev/tesla/articles/33d196d17bf3bb

    保育園のお迎え行ったら「機密情報入ってるので見せられないが、謎の動作をするExcel」の話をされてエスパーデバッグに突入した

    バックエンドエンジニアの筆者が、保育園で先生からExcelの不具合について相談を受けた話。シートが勝手に右にスクロールしてしまう現象に対し、画面が見れない状況で原因を特定しようと試みるも、解決には至らず。他のエンジニアからも様々な原因が寄せられたが、キーボードの故障やExcelの設定ミスなどが考えられる。最終的に、原因特定には実機確認が必要と結論。

    引用元: https://togetter.com/li/2531930

    お便り投稿フォーム

    VOICEVOX:春日部つむぎ

  • 関連リンク GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

    Gemini-2.0とGPT-4oの画像生成技術は、拡散モデルから自己回帰モデルへの進化、そしてAny-to-Anyモデルという概念の登場によって実現されました。Partiは言語モデルの技術を画像生成に応用し、CM3leonはテキストと画像を双方向に扱えるようにしました。これらの研究が、テキスト、画像、音声を統合的に扱えるAny-to-Anyモデルへと繋がり、Gemini-2.0とGPT-4oが誕生しました。これらのモデルは、異なる種類のデータを統一された表現で処理し、大規模な学習によって高品質な生成を可能にしています。

    引用元: https://zenn.dev/discus0434/articles/gemini-2-0-mm

    みんなのためのLLMアプリケーション開発環境の構築事例

    この記事は、LLMアプリケーション開発を容易にするための環境構築事例です。LLM開発では、プロンプトとコードの分離、複雑なRAG構成、デプロイの難しさが課題でした。解決策として、(1)プロンプトを共有・実行できるPrompt Storeの開発、(2)Langflowを用いたビジュアルスクリプティングの導入、(3)簡単なデプロイシステムの構築を行いました。Langflowは、GUIでLLMアプリを開発できるツールで、カスタムコンポーネントを追加することで、機能拡張も可能です。これらの取り組みにより、専門家でなくてもLLMアプリを開発・デプロイできる環境が実現し、開発サイクルが大幅に短縮されました。

    引用元: https://techblog.lycorp.co.jp/ja/20250327a

    まさかの。Androidオープンソースプロジェクト、非公開開発に - すまほん!!

    GoogleがAndroid OSの開発を非公開化。今後は社内ブランチに一本化し、開発プロセスを効率化する狙い。一般ユーザーやアプリ開発者への影響は少ないものの、カスタムROM開発者などプラットフォームをカスタマイズする開発者には影響が出る可能性あり。OSのソースコードはリリース時に公開されるため、完全な非公開化ではない。

    引用元: https://smhn.info/202503-google-aosp

    ChatGPTに、信じられないほど低品質で今すぐChatGPT有料プランを解約したくなるような画像を頼んだら、ユーモアあふれる画像が出てきた話「林家GPT亭名乗れる」

    ChatGPTに「低品質な画像を」と依頼したところ、予想外にユーモラスな画像が生成され話題になっています。まるで大喜利のようなセンスに、「笑点」を理解しているとの声も。

    引用元: https://togetter.com/li/2530653

    お便り投稿フォーム

    VOICEVOX:ずんだもん

  • 告知宣伝なのだ。4月10日木曜日18時半から「LangChainとLangGraphによるRAG・AIエージェント実践入門」10章 要件ドキュメント生成AIエージェントの輪読会を開催するのだ。気軽に参加してほしいのだ。詳しくはpodcastホームページを見てほしいのだ。 関連リンク Model context protocol (MCP) - OpenAI Agents SDK

    OpenAI Agents SDKにおけるMCP(Model Context Protocol)は、LLM(大規模言語モデル)が外部ツールやデータソースにアクセスするための標準化されたプロトコルです。MCPは、AIアプリケーションにおけるUSB-Cポートのように、LLMと様々なツールを接続する共通のインターフェースを提供します。

    MCPサーバーには、ローカルで動作するstdioサーバーと、URL経由で接続するHTTP over SSEサーバーの2種類があります。Agents SDKでは、MCPServerStdioとMCPServerSseクラスを使ってこれらのサーバーに接続できます。

    MCPサーバーをAgentに追加することで、Agentはサーバーのツールを認識し、必要に応じて呼び出すことができます。list_tools()でツール一覧を取得し、call_tool()でツールを実行します。

    ツールリストはキャッシュすることも可能です。ツールリストが変更されないことが確実な場合に、cache_tools_list=Trueを設定することで、レイテンシを改善できます。キャッシュを無効化する場合は、invalidate_tools_cache()を呼び出します。

    引用元: https://openai.github.io/openai-agents-python/mcp/

    “「生成AIこんなものか」と諦める前に” 営業AIエージェント開発現場から学ぶLLM品質保証テクニック

    LLMの品質保証は、従来のシステム開発とは異なり、事前の網羅的なテストだけでは不十分です。重要なのは、品質を継続的にモニタリングし、改善していく運用戦略です。具体的な戦略として、

    エラーパターンの言語化と継続的改善 評価と生成の分離 LLMの逃げ道を作るという3つのポイントを紹介しています。重要なのは、LLMの限界を理解した上で、課題の検知と対処の仕組みを構築することです。

    引用元: https://tech.algomatic.jp/entry/2025/03/26/182954

    中国DeepSeek、非推論モデルで「米国製AI」を凌駕するスコア–OpenAIやGoogleを上回る

    中国のDeepSeek V3が、AIのベンチマークでOpenAIやGoogleを上回り、非推論モデルでトップに。DeepSeek V3はオープンソースで、高速かつ低コストなのが特徴。推論モデルではないため大規模データ向けではないものの、多くのタスクで実用的な点が強みです。中国AI企業がオープンソース戦略で米国に対抗する構図が見えます。

    引用元: https://japan.cnet.com/article/35230944/

    お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)