#7: AIによるプロンプト最適化：Automated Prompting 〜そして評価へ〜

Episodit

#14: 評価駆動開発（Evaluation Driven Development）なアプローチで行うLLMエージェントの設計
16 tammi· AI Engineering Now
Evalを主軸にLLMエージェントの設計について述べたAn Evaluation-Driven Approach to Designing LLM Agents: Process and Architectureという論文を題材に話しました。
出演者：
seya(⁠⁠@sekikazu01⁠⁠)
kagaya(⁠⁠@ry0_kaga⁠⁠)
## Shownotes
An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture⁠
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#13: 最近のTTSについて語る〜APIサービスから音声モデル作成まで〜
25 joulu 2024· AI Engineering Now
seyaとkagayaの二人ともハマっていて、最近ホットなTTSサービスについて雑談しました。
Shownotes:
https://voicevox.hiroshiba.jp/
https://aivis-project.com/
https://nijivoice.com/
出演者：
seya(⁠⁠@sekikazu01⁠⁠)
kagaya(⁠⁠@ry0_kaga⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
Puuttuva jakso?

Paina tästä ja päivitä feedi.
#12: 生成AIでユーザビリティ課題を見つけることができるか？ - UX-LLM
4 joulu 2024· AI Engineering Now
生成AIでユーザビリティ課題を発見することができるかを検証したUX-LLMについて話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠こちら⁠⁠
Shownotes:
https://arxiv.org/abs/2411.00634v1
https://dl.acm.org/doi/pdf/10.1145/3678957.3685701
https://u-site.jp/alertbox/synthetic-users
出演者：
seya(⁠@sekikazu01⁠)
kagaya(⁠@ry0_kaga⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#11: API for AIの時代、Stripe Agent Toolkitについてのよもやま話
27 marras 2024· AI Engineering Now
Stripe Agent Toolkitを肴にAgent向けのAPIの時代について想いを馳せました。

ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠こちら⁠⁠

Shownotes:

Adding payments to your LLM agentic workflows⁠
⁠⁠

https://github.com/stripe/agent-toolkit

出演者：

seya(⁠⁠@sekikazu01⁠⁠)

kagaya(⁠⁠@ry0_kaga⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント〜
18 marras 2024· AI Engineering Now
LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠こちら⁠
Shownotes:
https://arxiv.org/abs/2410.10934v1
https://huggingface.co/DEVAI-benchmark
https://github.com/metauto-ai/agent-as-a-judge/tree/main
https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/⁠
出演者：
seya(⁠@sekikazu01⁠)
kagaya(⁠@ry0_kaga⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#9: 今流行り!?の社内v0開発に取り組んでみてる感想
14 marras 2024· AI Engineering Now
Ubie社の事例に触発されて社内v0開発を始めた2人で、開発の知見や悩み、Figma AI等のデザインAIについて話しました
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://v0.dev/
⁠https://www.figma.com/ja-jp/ai/
https://x.com/sys1yagi/status/1850763720630387170
出演者：
seya(@sekikazu01)
kagaya(@ry0_kaga)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -
4 marras 2024· AI Engineering Now
継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠
Shownotes:
https://arxiv.org/abs/2404.12272
https://www.sh-reya.com/blog/ai-engineering-flywheel/
https://www.chainforge.ai/
https://github.com/wandb/evalForge/tree/main
https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/
⁠
出演者：
seya(⁠⁠⁠⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠⁠⁠⁠)
kagaya(⁠⁠⁠⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠⁠⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#7: AIによるプロンプト最適化：Automated Prompting 〜そして評価へ〜
28 loka 2024· AI Engineering Now
自動で行うプロンプトチューニング、Auto Prompting、そしてそれを支える評価の重要性などについて話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠Shownotes:https://www.promptingguide.ai/techniques/ape
https://platform.openai.com/docs/guides/prompt-generation
https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/prompt-optimizer
https://github.com/microsoft/sammo
https://dspy-docs.vercel.app/intro/
https://github.com/KruxAI/ragbuilder
https://vercel.com/blog/eval-driven-development-build-better-ai-faster
https://speakerdeck.com/shuntaito/llmops-dmlops
出演者：
seya(⁠⁠⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠⁠⁠)
kagaya(⁠⁠⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#6: RAG and Beyond 〜4つのレベルで理解するRAGとその先〜
23 loka 2024· AI Engineering Now
今回はMicrosoftが公開したRAGタスクを4つのレベルに分類したリサーチであるRAG and Beyondがテーマです

ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠https://listen.style/p/aiengineeringnow

Shownotes:
https://arxiv.org/abs/2409.14924
https://x.com/K_Ishi_AI/status/1838765135206453254

出演者：
seya(https://x.com/sekikazu01)
kagaya(https://x.com/ry0_kaga)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#5: OpenAI DevDay 2024の感想 ~Prompt Caching編~
15 loka 2024· AI Engineering Now
今回はOpenAI DevDay 2024で発表されたPrompt Cachingがテーマです
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠
Shownotes:
https://platform.openai.com/docs/guides/prompt-caching
https://www.anthropic.com/news/prompt-caching
https://zenn.dev/google_cloud_jp/articles/0c257a98143152
出演者：
seya(⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠)
kagaya(⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#4: ~Embedding first, Chunking Later~ Jina AIが提唱したLate Chunkingについて学ぶ
7 loka 2024· AI Engineering Now
今回はJina AIが提唱したLate Chunkingがテーマです。
Jina AIはEmbedding model、Reranker、Semantic chunking等のAPIを公開しているRAGに取り組む上では注目の企業です。
そんなJina AIが提唱したチャンキング手法であるLate Chunkingについて話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠こちら⁠⁠⁠⁠
Shownotes:
Jina.ai
⁠Late Chunking in Long-Context Embedding Models⁠
⁠Late Chunking: Balancing Precision and Cost in Long Context Retrieval | Weaviate⁠
Training Text Embeddings with Jina AI
What is ColBERT and Late Interaction and Why They Matter in Search?
https://x.com/s_tat1204/status/1837932815931134138
出演者：
seya(⁠⁠⁠@sekikazu01⁠⁠⁠)
kagaya(⁠⁠⁠@ry0_kaga⁠⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#3: 音声AI使ってる？最近の音声AIサービスについて雑談〜GoogleのNotebookLMとRetell AI、個人開発〜
30 syys 2024· AI Engineering Now
音声AIサービスの雑談会です。特にGoogleのNotebookLMのAudio Overview、Illuminate、Retell AI、kagayaが絶賛個人開発中の音声AIサービスについて話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠こちら⁠⁠⁠
Shownotes:
NotebookLM now lets you listen to a conversation about your sources
AIが論文や書籍を要約してポッドキャスト風の会話音声に自動変換してくれる「Google Illuminate」が公開中
グーグル、自分だけのAI「NotebookLM」に音声番組でまとめてくれる新機能
Retell AI - Supercharge your call operation with Voice AI
音声AIエージェントの世界とRetell AI入門
出演者：
seya(⁠⁠@sekikazu01⁠⁠)
kagaya(⁠⁠@ry0_kaga⁠⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#2: LLMエージェント for ソフトウェアエンジニアリングの世界
16 syys 2024· AI Engineering Now
ソフトウェアエンジニアリング領域のLLMエージェント研究のサーベイ論文である、Large Language Model-Based Agents for Software Engineering: A Surveyを題材に話しました。
ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠こちら⁠⁠
Shownotes:
Large Language Model-Based Agents for Software Engineering: A Survey
LLMエージェントのデザインパターン、Agentic Design Patternsを理解する
マルチエージェントなコード生成エージェント、AgentCoderを理解する
You Can REST Now: Automated Specification Inference and Black-Box...
CodeAgent: Enhancing Code Generation with Tool-Integrated Agent...
エージェント型AIシステム構築の7つの原則： OpenAI『Practices for Governing Agentic AI』を読み解く｜mah_lab / 西見公宏
RCAgent: Cloud Root Cause Analysis by Autonomous Agents with...
“LLM for SRE“の世界探索 - ゆううきブログ
出演者：
seya(⁠@sekikazu01⁠)
kagaya(⁠@ry0_kaga⁠)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin
#1: Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作る
8 syys 2024· AI Engineering Now
Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作るという論文、Judging LLM-as-a-Judge with MT-Bench and Chatbot Arenaを題材に話しました。
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes：
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
Chat with Open Large Language Models
From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline | LMSYS Org
Benchmarks 201: Why Leaderboards > Arenas >> LLM-as-Judge
https://x.com/karpathy/status/1737544497016578453
https://github.com/lm-sys/arena-hard-auto/tree/main/BenchBuilder
出演者：
seya(@sekikazu01)
kagaya(@ry0_kaga)
- Kuuntele Kuuntele uudestaan Jatka Soittaa...
- Kuuntele myöhemmin Kuuntele myöhemmin

Episodit

#14: 評価駆動開発（Evaluation Driven Development）なアプローチで行うLLMエージェントの設計

#13: 最近のTTSについて語る 〜APIサービスから音声モデル作成まで〜

#12: 生成AIでユーザビリティ課題を見つけることができるか？ - UX-LLM

#11: API for AIの時代、Stripe Agent Toolkitについてのよもやま話

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

#9: 今流行り!?の社内v0開発に取り組んでみてる感想

#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -

#6: RAG and Beyond 〜4つのレベルで理解するRAGとその先〜

#5: OpenAI DevDay 2024の感想 ~Prompt Caching編~

#4: ~Embedding first, Chunking Later~ Jina AIが提唱したLate Chunkingについて学ぶ

#3: 音声AI使ってる？最近の音声AIサービスについて雑談 〜GoogleのNotebookLMとRetell AI、個人開発〜

#2: LLMエージェント for ソフトウェアエンジニアリングの世界

#1: Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作る

#13: 最近のTTSについて語る〜APIサービスから音声モデル作成まで〜

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント〜

#3: 音声AI使ってる？最近の音声AIサービスについて雑談〜GoogleのNotebookLMとRetell AI、個人開発〜