問いを定義するのが怖い症候群
Mercari記事を要約し、私見として“メタ攻略”のリスクを考えるメモ書き

メルカリの「仕様書駆動データ分析」が拓く、コンテキストエンジニアリングの最前線
要約(私見を交えない):本稿は“vibeで始める分析”から“仕様先行の分析”への転換を、コンテキストエンジニアリングの観点で提案している。核は Analytics Design Doc(ADD)で、背景・前提/課題・ゴール/仮説/分析設計/分析結果という5ブロックのチェックリストを通じて初動の前提をそろえる。運用は分析向けの文書群(例: note/requirement/design/task/result/report)で段階化され、各段で人がレビューしつつ、テンプレートによって LLM の役割を限定する。実装前には Looker 等における次元・指標・フィルタといったセマンティクスを設計し、AI が参照できる定義を先に用意する点も強調される。


この問い、見るからに“最後に誰かがブチギレて書いたやつ”の匂いがして面白かったが、それはともかく、この取り組みがメルカリでは機能しているらしい。とてもいい話だ。
ただ私は問いを定義するのが怖い。実際やっているが、とても怖い。
確かにこれらは本質的な問いだと思う。ただ、本質的な問いをフレームワーク化すればどこでも機能するというものではないだろう。人は問に答えるかもしれないが、パターンを学んでメタ攻略が始まるかもしれない。たとえば「打ち手について無知の知を得るためです!」みたいな決め台詞が社内で大流行するみたいな。もちろんそれはフレームの罪ではないが、組織の足腰がちゃんとしてないと何を工夫しても本質的なことはできない。そういう本質を問いが表面的に覆い隠してしまうのが怖い。
なので怖いな〜と思いながらやっています。まあ緊張感があるのはいいことだよね。よし、いい話になったぞ。
ちなみに今のところLLMも似たような問題を抱えていると思います。つまり、なんか雰囲気で適当に埋めてくるんだよね。だからこそ人間のレビューがないと暴走する。それでもLLMは、プロンプトとコンテキストが与えられれば多くを察する。
もちろん、今はまだ人間に意思決定の主体性がある。「本質的かつ簡潔な問いの言語化」が期待されているけれど、いずれは「何も考えるな。事実で項目を埋めろ。言われた通りにしろ」という領域が拡大していくんだろう。そうなれば、この手のフレームも、我々の問いも、変容していくんだろうね。
原文(クリックで展開)
この問ってあきらかにサァ!この問を毎回毎回毎回毎回投げ返した果てにブチギレた人が書き込んだやつでサァ!みたいな感想が去来しましたが私は口を噤みました 大人なので
— すたくめ (@stakme) September 3, 2025
この問ってあきらかにサァ!この問を毎回毎回毎回毎回投げ返した果てにブチギレた人が書き込んだやつでサァ!みたいな感想が去来しましたが私は口を噤みました 大人なので
本質的な問いをフレームワーク化するとメタ攻略されそう(打ち手について無知の知を得るためです!みたいな謎のセリフが社内で確立される的なこと)という懸念はある。当然それはフレームワークの罪ではないですが
プロンプトとコンテキストを与えればLLMは多くのことを察する。今はまだ人間に「本質的かつ簡潔な問いの言語化」が期待されてるけど、今後は「何も考えるな、とにかく事実で項目を埋めろ、お前よりAIのほうが賢い」になっていくのかもしれない。そうなればこの手のフレームも変容していくんじゃろう
GPT5の考察
両方を褒めつつ、同じだけ疑う。以下は実務での“運用目線の批評”です。

仕様書駆動(フレーム)の批評
定義の一貫性や再現性、レビューのしやすさ、オンボードの速度といった効能は確かに大きい。個人の勘どころに依存せず、意思決定の“土台”を共有できるのがこの方式の美点だ。一方で、文書の維持にかかる税金は膨らみやすく、探索段階の身軽さは失われがちだ。言葉の線引きに時間が溶け、テンプレが「埋めたら合格」という儀式に変質する危険もある。さらに厄介なのは偽の厳密さだ。「仕様に書いてあるから正しい」という誤帰結が走ると、データドリフトやETLの崩れといった現実の変化を紙が覆い隠す。対処は思想ではなく運用に落とすべきで、仕様をコードとして扱い、CIでリンク切れや定義差分を機械的に検出する。探索は軽量の三問(目的・対象・期間)だけで走らせ、価値が見えた瞬間に正規テンプレへ“昇格”させる。門ではなく段、つまり上に上がるための足場として仕様を位置づけると、過不足のバランスが取れる。

“メタ攻略”懸念の批評(自省)
決まり文句が社内を席巻すると問いが痩せる——この警鐘は妥当だ。ただ、懐疑だけでは形骸化を止められない。効くのは“悪用コスト>正当利用コスト”に設計することだ。空疎な語彙や定義未参照、目的と指標の不整合といった兆候はLintで検出し、参照できる定義IDや根拠の提示をゲートで義務化する。KPIも「テンプレ遵守率」ではなく「意思決定への寄与」に置き換える。形式だけの回答はゼロにできないが、通り抜けのコストを上げれば、少なくとも意思決定の場にまで到達しにくくなる。

LLM×フレームの現実チェック
LLMは事実の列挙や整形、抜けの指摘といった“前提解像度の底上げ”に強い半面、もっともらしい嘘やテンプレに沿った空疎な文も量産できてしまう。だから役割を限定する。参照先の提示を必須化し、定義ID・データソース・取得時点が示されない文は採点対象にしない。モデルが書けるのはEvidence Tableの行だけ、結論の叙述は人間——この分担にしておくと、速さは取り込みつつ、責任の所在を曖昧にしない。パイプラインも「探索(軽量三問)→仕様(正規テンプレ)→実装→検証」と段階化し、各段でLLMはLint・差分説明・要約に絞る。

いつ仕様先行にし、いつ探索先行にするか
影響範囲が広い変更や監査対応、既存KPIの更新のように再現性と説明責任が重い局面では、最初から仕様を先行させるのが筋だ。一方、問いが曖昧でデータの妥当性も危うい初動は、探索を先に走らせたほうが被害が小さい。ここでは“目的・対象・期間”の三問だけを固定して、速く狭く仮説を作り、価値が見えたら仕様へ引き上げる。段階の切り替えを意識できれば、「問いを定義するのが怖い」という感情は、健全な緊張感として運用の強さに変わる。




