창업자 AI 활용: PMF 가설 발산과 검증 설계 실전 복기

창업자 AI 활용의 핵심은 대체가 아닌 증폭이다. 창업 2년차. 지금 내 사업은 피봇을 세 번 한 상태다. 첫 번째 피봇은 6개월을 통으로 날렸고, 두 번째는 3개월, 세 번째는 한 달 반 만에 끝났다. 피봇 자체가 나쁜 건 아니다. 스타트업에서 피봇은 생존 전략이다. 문제는 매번 피봇할 때마다 같은 실수를 반복했다는 것이었다. 가설 없이 리서치부터 시작하는 습관. 이 글은 그 습관을 AI로 어떻게 고쳤는지에 대한 복기다.

첫 번째 창업 때는 자료만 열심히 모았다. 시장 조사 보고서, 경쟁사 분석, 설문 결과, 유저 인터뷰 녹취록. 노션에 수백 페이지를 쌓아놓고도 공동창업자의 “그래서 우리 뭐 할 건데?”라는 질문에 답을 못했다. 자료는 많은데 방향이 없었다. 이유는 단순했다. 내가 질문 없이 답을 찾고 있었기 때문이다.

리서치는 답을 찾는 과정이다. 질문이 없으면 답을 찾아도 그게 답인 줄 모른다. 기획에서 그 질문의 역할을 하는 게 바로 가설이다. 이걸 깨닫는 데 내가 1년 반을 썼다. 같은 시행착오를 반복하는 창업자가 이 글을 읽고 한 달이라도 아낄 수 있다면 글을 쓰는 보람이 있을 것 같다.

1. “타깃 = 20~30대 여성”은 가설이 아니라 범위다

창업 초기에 내가 가장 많이 쓴 문장은 이랬다. “20~30대 여성 타깃으로 건강식 시장에 진출하려고 해.” 이걸 방향이라고 믿었다. 그런데 투자 미팅에서 한 심사역이 물었다. “그 분들이 왜 지금 이 문제를 안 풀고 있죠?” 나는 답을 못했다. 타깃을 정한 건 범위 설정일 뿐, 그 분들의 행동에 대한 구체적 추측은 하나도 없었기 때문이다.

가설은 이런 형태다.

  • “20~30대 여성은 맛보다 ‘간편함’을 더 중요하게 여길 것이다.”
  • “건강식 시장에서 재구매율이 낮은 이유는 맛이 아니라 포장 단위일 것이다.”
  • “이 분들이 운동을 시작하고 한 달 만에 그만두는 이유는 체력이 아니라 사회적 인증 부재일 것이다.”

차이가 보이는가. 범위는 “누구에게”를 정하는 것이고, 가설은 “그 누구가 어떻게 행동한다”는 구체적 추측이다. 범위만 있으면 리서치를 아무리 해도 결론이 안 나온다. 가설이 있으면 “이 추측이 맞는지 확인해보자”는 명확한 목표가 생기고, 리서치의 효율이 5~10배 올라간다.

그런데 가설을 세우는 게 보기보다 어렵다. 내 머리 속에서 나오는 가설은 항상 뻔했다. “가격이 비싸서”, “경쟁사가 많아서”, “아직 시장이 작아서”. 이런 수준의 추측은 가설이 아니라 상식이다. 검증하지 않아도 맞을 가능성이 큰, 그래서 검증할 가치가 없는 것들. 나는 상식을 가설이라고 착각하며 2년을 보냈다.

2. AI는 가설 ‘발산’에 압도적으로 강하다

두 번째 피봇에서 나는 처음으로 Claude를 가설 발산에 써봤다. 결과는 충격이었다. 혼자 생각하면 3~4개에서 멈추는 가설이 10분 만에 15개가 나왔다. 그 중 절반은 뻔했지만, 나머지 중 2~3개는 내가 한 번도 생각해본 적 없던 각도였다.

가설을 세우는 과정은 두 단계다.

  • 발산(Divergence): 가능한 많은 가설을 쏟아내는 단계
  • 수렴(Convergence): 그 중 검증할 가치가 있는 것만 추리는 단계

인간은 발산에 약하고, 수렴에 강하다. 내 경험의 범위 안에서만 생각하니 비슷한 가설이 반복된다. 반면 AI는 발산에 압도적으로 강하고, 수렴에는 약하다. 비즈니스 맥락을 모르니 “이게 우리한테 중요한 가설인가”는 판단하지 못한다. 이 비대칭이 AI를 가설 작업에 쓸 때 핵심이다. 발산은 AI에게, 수렴은 나에게.

내가 2년간 다듬은 가설 발산 프롬프트

초기엔 “가설 10개 만들어줘”만 썼다. 뻔한 답이 계속 나와서 프롬프트를 몇 번 개선했다. 지금 내가 쓰는 최종 형태는 이렇다.

너는 스타트업 전략 컨설턴트이자 소비자 행동 전문가야.

우리 서비스: [간단 설명]
현재 문제: [예: 재구매율 30% 미만]

이 문제의 근본 원인에 대한 가설을 12개 만들어줘.

제약 조건:

  • 가격, 맛, 경쟁사 많음 같은 상식 수준 가설 제외
  • 각 가설은 “~일 것이다” 형태로 검증 가능하게
  • 관점 분배: 소비자 심리학 3개 / 행동경제학 3개 / UX·UI 2개 / 운영·물류 2개 / 문화·사회 트렌드 2개
  • 가능하면 최근 2~3년 한국 시장 데이터나 연구를 참고한 듯한 가설도 2개 포함

이 프롬프트의 핵심은 네 가지다.

① 역할 부여
“스타트업 전략 컨설턴트이자 소비자 행동 전문가”라는 첫 줄이 응답의 수준을 확실히 끌어올린다. 막연히 “가설 만들어줘”와 역할을 지정한 것의 차이는 크다.

② 뻔한 답 차단
“가격·맛·경쟁사 많음 제외”라는 한 줄이 결정적이다. 이걸 빼면 AI는 거의 언제나 “가격이 비싸서”, “맛이 떨어져서”부터 시작한다. 이미 알고 있는 답을 10번 반복해 받을 이유가 없다.

③ 관점 5개로 다양화
초기엔 3개 관점만 썼다가, 지금은 5개로 늘렸다. 특히 “문화·사회 트렌드” 관점이 추가된 뒤로 결과가 확연히 달라졌다. 이 관점은 “MZ 세대의 뷰티 루틴 변화”, “1인 가구 증가에 따른 식사 문화 변화” 같은 거시적 맥락에서 가설을 뽑아낸다. 다른 관점들이 놓치는 시대적 흐름이 잡힌다.

④ 한국 시장 특수성 반영 요청
마지막 줄 “최근 2~3년 한국 시장 데이터나 연구 참고”라는 요청도 중요하다. 이걸 안 쓰면 AI는 미국·유럽 사례에 기반한 가설을 은근히 내놓는다. 우리나라 시장 특수성(배달 문화, 카카오 플랫폼 지배력, 1인 가구 비중 등)을 반영한 가설을 얻으려면 명시적으로 요청해야 한다.

3. AI가 만든 가설 중 내가 실제로 쓰는 건 10%다

여기서 중요한 오해를 짚어야 한다. AI가 만든 가설을 그대로 쓰는 게 아니다. 12개 중 내가 실제로 기획서에 반영하는 건 보통 1~2개다. 90%는 버린다. 이게 AI 활용의 본질이다.

내가 물류 관련 기능을 기획할 때 실제로 있었던 일이다. “사용자들이 배달 완료 후 피드백을 안 남기는 이유”에 대한 가설을 AI에 물었더니 10개가 나왔다. 9개는 뻔했다. “귀찮아서”, “인센티브가 없어서”, “UI가 불편해서”. 그런데 10번째가 이거였다. “사용자들은 피드백이 다음 주문에 영향을 미치지 않는다고 느끼기 때문에, 피드백 자체를 무의미하다고 판단할 것이다.”

이 한 줄이 나를 멈추게 했다. 혼자 생각했다면 절대 이 각도로 접근하지 않았을 것이다. 이후 이 가설을 검증한 결과 실제로 맞았고, 우리는 피드백 UI를 “다음 주문 시 이 의견이 어떻게 반영되는지”를 명시적으로 보여주는 구조로 바꿨다. 피드백 응답률이 7% → 34%로 뛰었다.

이게 AI 활용의 핵심 경험이다. AI는 내가 이미 생각한 답의 연장선을 90% 뱉어낸다. 그런데 나머지 10%에 내 사고의 지평을 넓혀주는 각도가 숨어 있다. 그 10%만 건지면 된다. 나머지는 버린다. AI를 “다 맡기는 도구”가 아니라 “사고를 확장하는 트리거”로 보는 관점이 핵심이다.

4. AI에게 가설 ‘검증’을 시키면 거의 반드시 틀린다

여기서 내가 가장 크게 실수한 부분을 고백하자면, 초기엔 AI에게 “이 가설이 맞는지 확인해줘”라고 시켰다. 그러면 Claude든 GPT든 친절하게 “네, 이 가설은 맞을 가능성이 높습니다. 그 이유는…”으로 답해줬다. 나는 그 답을 기획서에 붙였다. 그리고 2주 뒤 실제 데이터와 전혀 다른 결과가 나오면서 당황했다.

AI는 기본적으로 사용자가 원하는 방향으로 답하려는 경향이 있다. “이 가설 맞죠?”라고 물으면 맞는 근거를 찾아서 보여준다. “이 가설 틀렸죠?”라고 물으면 틀린 근거를 찾아서 보여준다. 이게 확증 편향의 증폭기 역할을 한다. AI에게 가설 검증을 맡기는 순간, 내가 듣고 싶은 답만 돌아온다.

그래서 지금은 AI에게 검증 결과가 아니라 검증 방법을 시킨다. 이 한 줄 차이가 엄청나다. 내가 쓰는 프롬프트 예시는 이렇다.

가설: “건강식 배달 서비스의 재구매율이 낮은 이유는 1인분 포장이 아니라 2~3인분 단위로만 판매하기 때문일 것이다.”

이 가설을 검증하기 위한 방법을 3가지 제안해줘. 각 방법별로 다음을 알려줘:

  • 필요한 데이터
  • 예상 소요 시간
  • 비용 수준(고·중·저)
  • 통계적 유의성 확보 난이도와 bias 위험도 평가

그리고 추가로:

  • 이 가설이 맞을 경우 예상되는 2차 효과(positive 3가지, negative 3가지)
  • 이 가설이 틀렸을 경우 다음으로 검토할 대안 가설 3개

이 프롬프트의 핵심은 네 가지다.

① “통계적 유의성 + bias 위험도” 요구
이게 없으면 AI는 A/B 테스트를 너무 쉽게 제안한다. 실제로는 표본 크기 부족, 계절 요인, 타 캠페인 혼입 등 수많은 bias가 존재한다. 이걸 미리 뽑아달라고 하면 검증 설계의 함정이 상당 부분 드러난다.

② “2차 효과 positive/negative 3가지씩”
이 요청이 가장 강력하다. “1인분 포장 도입”이 성공해도 부정적 2차 효과가 있다. 포장 단가 상승, 물류 복잡도 증가, 기존 2~3인 가구 고객 이탈 가능성. 이걸 미리 뽑으면 “성공이 곧 성공이 아닐 수 있다”는 경계선이 보인다.

③ “틀렸을 경우 대안 가설”
확증 편향을 강제로 깨는 장치다. “이 가설이 틀렸다면?”이라는 질문이 없으면 나는 무의식적으로 이 가설에 유리한 증거만 찾게 된다. 대안 가설이 미리 있으면 틀렸을 때 바로 다음 가설로 넘어갈 수 있다.

④ “방법별 비교”
3개 이상의 방법을 요구해 비교하게 만든다. 하나만 제안받으면 그게 최선처럼 느껴지지만, 3개를 놓고 비교하면 각 방법의 trade-off가 명확해진다.

AI의 답변은 이런 형태로 돌아온다.

  • 방법 1: A/B 테스트 — 1인분 옵션 추가 후 재구매율 변화 측정 (2~4주, 포장 비용 중간, 계절 요인 혼입 가능성, 통계적 유의성 확보 위해 최소 표본 N=1,200 필요)
  • 방법 2: 이탈 고객 인터뷰 — 재구매하지 않은 고객 8~10명 심층 인터뷰 (2주, 저비용, 선택 편향 고위험)
  • 방법 3: 기존 데이터 세그먼트 분석 — 1회 구매 후 이탈 고객 vs 재구매 고객의 주문 패턴 비교 (1주, 저비용, 인과관계 판별 어려움)

그리고 2차 효과와 대안 가설도 자동으로 따라 나온다. 이 구조를 한 번 잡아두면 검증 설계의 품질이 완전히 달라진다.

5. 가설에서 기획서로 — AI는 “뼈대”에만 쓴다

가설이 세워지고 검증 방법까지 정리됐으면, 이제 기획서를 써야 한다. 여기서도 많은 창업자가 AI를 잘못 쓴다. “기획서 전체를 써달라”고 시키는 것이다. 그러면 뻔한 보고서가 나오고, 그 안에서 창업자 본인의 통찰은 실종된다.

내가 쓰는 방식은 반대다. 핵심 재료를 다 준비한 뒤 “구조만, 그리고 목적에 맞게 잡아달라”고 한다. 여기서 포인트는 “목적”이다. 같은 내용이라도 용도에 따라 목차 구조가 완전히 달라진다.

아래 내용을 투자자용 피치덱 스타일로 목차 잡아줘. (또는 “내부 팀용 OKR 연동형” / “파트너사 공유용 요약본”)

  • 배경: 건강식 배달 서비스 재구매율 30% 미만
  • 핵심 가설: 포장 단위가 재구매를 막는 핵심 요인이다
  • 검증 방법: A/B 테스트, 이탈 고객 인터뷰, 세그먼트 분석
  • 기대 효과: 1인분 포장 도입 시 재구매율 15%p 상승
  • 리스크: 계절 요인, 경쟁사 할인, 배송 시간 변수

8~10 페이지 구성의 목차와 각 섹션의 핵심 메시지만 잡아줘. 내용은 내가 채울 거야.

“투자자용 피치덱”이라고 지정하면 AI는 문제-기회-솔루션-검증-트랙션-팀-자금 순서로 뼈대를 잡는다. “내부 팀용 OKR 연동형”이라고 하면 현재 OKR 상태-문제 정의-가설-검증 계획-Key Result 예측 순서로 잡는다. 같은 재료인데 목차가 완전히 달라진다.

이 순서를 지키면 AI가 만드는 것은 “내 생각을 정리한 구조”가 되고, 뒤집으면 “AI가 만든 보고서에 내 이름을 얹은 문서”가 된다. 두 결과물은 퀄리티가 하늘과 땅 차이다. 투자자는 이 차이를 0.5페이지 안에 알아챈다.

6. 가설 로그 — Notion + Airtable 조합이 답이다

창업은 가설 하나로 끝나지 않는다. 매주 새 가설이 생기고, 기존 가설이 폐기되고, 수정된다. 내가 2년간 세운 가설을 되돌아보면 족히 60개가 넘는다. 이 중 실제로 검증했던 건 20개 정도, 맞았던 건 5~6개다. 나머지 55개는 어디로 갔을까. 대부분 잊혔다.

피봇할 때마다 똑같은 가설을 다시 세우고 있는 나를 발견한 게 세 번째 피봇 때였다. 1년 전에 이미 폐기했던 가설을 마치 새로운 아이디어인 것처럼 다시 꺼내고 있었다. 기록하지 않은 가설은 같은 실수의 입장권이 된다.

내가 쓰는 조합: Notion + Airtable

처음엔 Notion 하나로만 관리했다. 그런데 가설이 30개를 넘으면서 Notion 한 페이지에 나열하는 방식이 한계에 부딪혔다. “검증 상태가 ‘반증’인 것만 모아보기”, “지난 분기 세운 가설 중 UX 관점인 것만 보기” 같은 필터링이 불가능했다. 그래서 지금은 두 도구를 조합해서 쓴다.

  • Notion: 자유로운 서술과 회고용. 각 가설의 맥락, 왜 이 가설을 세웠는지 배경, 검증 과정에서 배운 점을 장문으로 남기는 공간.
  • Airtable: 필터·뷰·자동화 전용. 검증 상태별 보기, 반증된 가설만 모아보기, 특정 관점(심리학·UX·물류)의 가설만 필터링, 검증 소요 시간 자동 계산 등.

두 도구는 간단한 임베드 블록으로 연결된다. Notion에 Airtable 뷰를 임베드하면 서술과 구조화된 데이터를 한 페이지에서 볼 수 있다. 이 조합을 6개월 운영한 뒤로 가설 관리의 질이 확연히 올라갔다.

Airtable 기본 컬럼 구조

처음 Airtable을 세팅할 때 필드를 너무 많이 만들면 오히려 기록 부담이 커진다. 내가 6개월 운영하며 최종 정착한 컬럼은 이렇다.

  • 가설 (긴 텍스트): “~일 것이다” 형태의 한 문장
  • 세운 날짜 (날짜)
  • 관점 (단일 선택): 심리학 / 행동경제학 / UX / 운영 / 문화트렌드
  • 검증 상태 (단일 선택): 미검증 / 검증 중 / 확인 / 반증
  • 검증 방법 (긴 텍스트)
  • 결과·배운 점 (긴 텍스트): 확인·반증된 경우
  • 우선순위 (별점 1~5): 사업 임팩트 기준

분기 회고 — AI에게 가설 로그 전체를 읽히는 순간

이 조합의 진짜 힘은 분기 회고에서 나온다. 분기 끝에 내가 AI에게 쓰는 프롬프트는 이렇다.

아래는 우리 팀이 지난 분기에 세운 가설 로그야. (로그 첨부)

다음을 분석해줘:

  • 검증 확인된 가설들의 공통점
  • 검증 반증된 가설들이 가리키는 “우리가 아직 이해하지 못하고 있는 영역”
  • 한 번도 검증을 시도하지 않은 관점이 있는지 (블라인드 스팟)
  • 다음 분기에 우선 검증해야 할 가설 방향 3가지

이렇게 하면 AI가 내 사업의 학습 패턴을 객관적으로 요약해준다. 내가 반복하는 실수, 계속 반증되는 같은 종류의 가설, 아예 검증 시도조차 안 한 영역. 이런 것들이 드러난다. 특히 블라인드 스팟을 찾는 기능이 가장 강력하다. 나는 무의식적으로 UX 관점 가설만 세우고 있었는데, AI가 “지난 분기 12개 가설 중 문화트렌드 관점은 0개였다”고 지적해줬다. 그걸 보고 나서야 내 사고 편향을 깨닫게 됐다.

7. 가설 작업 시간: 3일 → 30분

변화를 숫자로 표현하면 이렇다.

  • 과거(AI 이전): 가설 10개 발산 3일 / 검증 방법 설계 2일 / 기획서 뼈대 1일 = 총 6일
  • 현재(AI 활용): 가설 12개 발산 30분 / 검증 방법 설계 30분 / 기획서 뼈대 30분 = 총 1시간 30분

시간으로만 보면 약 30배 단축이다. 그런데 체감하는 변화는 시간보다 더 크다. “가설 하나 세우는 데 들이는 심리적 비용”이 낮아지면서 나는 훨씬 많은 가설을 부담 없이 세우고 폐기할 수 있게 됐다. 이전엔 하나 세우면 그 가설에 집착했다. 공들여 만든 것이니까. 지금은 가볍게 여러 개를 만들고, 가볍게 버린다. 가설을 “소중한 결과물”이 아니라 “소모품”으로 대하게 된 것이 가장 큰 변화다.

그리고 이 태도 변화가 PMF 탐색 속도를 완전히 바꿨다. 피봇 사이클이 6개월 → 3개월 → 1개월 반으로 빨라진 것도 이 변화와 무관하지 않다. 가설을 빠르게 세우고, 빠르게 버리고, 다음 가설로 넘어갈 수 있게 되면서 결과적으로 “다음 답”에 도달하는 속도가 몇 배 빨라졌다.

8. AI는 대체가 아니라 증폭이다 — 꼭 지켜야 할 8가지 원칙

2년간 AI를 가설 작업에 쓰면서 내가 정리한 원칙들이다. 같은 경로에 있는 창업자께 도움이 되길 바란다.

  1. 발산은 AI, 수렴은 사람. AI에게 가설을 10~12개 만들게 하고, 어느 것이 우리 사업에 중요한지는 내가 판단한다. 반대로 하면 망한다.
  2. 프롬프트에 “역할 + 제외 조건”을 넣는다. “스타트업 전략 컨설턴트”라는 역할 부여와 “뻔한 원인 제외”라는 제약 조건이 결과 품질을 결정한다.
  3. 관점을 5개로 다양화한다. 소비자 심리학 / 행동경제학 / UX / 운영·물류 / 문화·사회 트렌드. 마지막 관점이 시대적 흐름을 놓치지 않게 해준다.
  4. AI에게 “맞는지 확인”시키지 않는다. 검증 방법·오류 가능성·통계적 유의성·2차 효과(positive 3 + negative 3)·대안 가설까지 한 번에 요구한다.
  5. 기획서 뼈대는 목적을 명시하고 요청한다. “투자자용 피치덱” 또는 “내부 팀용 OKR 연동형” 같은 용도 지정이 뼈대의 정확도를 결정한다.
  6. 살은 내가 붙인다. “전체를 써달라”고 하면 창업자의 통찰이 실종된 무색무취의 문서가 나온다. 투자자는 이 차이를 0.5페이지 안에 알아챈다.
  7. 가설 로그는 Notion + Airtable 조합으로 관리한다. Notion은 서술·회고용, Airtable은 필터·자동화용. 분기마다 AI에게 로그 전체를 읽히면 블라인드 스팟이 드러난다.
  8. 가설을 “결과물”이 아니라 “소모품”으로 대한다. 틀려도 된다. 틀린 가설이 진짜 답에 더 빨리 데려간다. AI는 이 사이클의 속도를 올리는 도구다.

마무리: 가설은 답이 아니라, 방향이다

마지막으로 꼭 하고 싶은 말이 있다. 가설은 맞추기 위해 세우는 게 아니다. 방향을 잡기 위해 세우는 것이다. 가설이 틀려도 괜찮다. 오히려 틀린 가설이 더 좋을 수 있다. “이건 아니다”가 확인되면 남은 선택지가 좁아지면서 진짜 답에 가까워진다. 12개 중 9~10개가 틀려야 정상이다. 다 맞는 가설만 세우는 건 검증할 가치가 없는 상식만 다루고 있다는 뜻이다.

AI는 이 과정의 속도를 올려준다. 혼자 3일 걸리던 가설 발산이 30분이면 끝난다. 검증 설계까지 포함해 반나절이면 충분하다. 그런데 “이 중에서 무엇을 검증할 것인가”를 고르는 건 결국 창업자의 몫이다. 현장을 아는 사람, 맥락을 아는 사람만이 할 수 있는 판단이다. AI는 선택지를 넓혀주고, 구조를 잡아주고, 속도를 올려준다. 하지만 “이 가설이 우리 비즈니스에 정말 중요한가”는 사람이 결정한다.

내일 회의가 있는 창업자라면, 회의 전에 5분만 시간을 내보시라. AI에게 “너는 스타트업 전략 컨설턴트야. 내 사업의 현재 단계에서 검증해야 할 가설 12개를 5개 관점으로 분배해서 만들어줘”라고 한 번만 시켜보시라. 그 12개 중 하나가 회의실의 분위기를 바꿀 수도 있다.

다음 글에서는 이 글에서 언급한 Notion + Airtable 가설 로그 템플릿을 실제로 공유할 예정이다. 셀 구조, 자동화 레시피, 분기 회고 루틴까지 그대로 복제해 쓸 수 있는 형태로 정리한다. 여러분이 쓰는 가설 관리 방식도 댓글로 나눠주시면 같이 복기해보겠다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다