바비디 비즈니스 분석

2022년 10월

※ 미완성 글입니다.

배경: 딥러닝 이후 10년, AI산업의 성장과 그림자

지난 10년간 모든 산업에서 딥러닝 기반 AI 접목이 이루어져왔고, 이 혁신적 변화는 지속되고 있다. 그러나 여전히 신경망을 효과적으로 다루는 기술 인재 공급이 턱없이 부족하다.

프로젝트의 오너들은 AI 도입 자체만으로도 할 일이 많고, 그 때문에 도입 이후 기술의 질적 도약을 담보하지 못하고 있다. AI모델의 낮은 퀄리티는 무엇을 의미하는가? 그것은 많은 경우 비즈니스 실패로 이어진다.

기존 산업제품에 적용할 AI 개발을 수행하는 에이전트는 인오피스 엔지니어와 개발 업체로 나뉜다. 내부 엔지니어는 요구 조건과 맥락에 맞는 AI를 개발하고 이를 개선해나간다. 개선을 위해서 일반적으로 학습 데이터셋을 최대한 확보하는 데에 노력을 기울인다.

개발 업체는 클라이언트의 요구사양에 맞게 AI를 개발하고 넘긴다. 그리고 피드백을 받지 못한 채로 계약이 종료된다. AI 제품 개발을 외부에 맡기는 클라이언트라면, 성능을 검증할 수 있는 소양 역시 없기 때문이다.

인오피스 엔지니어를 보유한 기업은 모델 개선에 필요한 사용자를 확보한 경우도 있고, 그렇지 않은 경우도 있다. 사용자가 확보된 경우는 모델 개선에 필요한 실제 데이터나 엣지 케이스 수집이 상대적으로 수월하다. 그렇지 않은 경우, 즉 제품을 공개하지 않은 베타테스팅 단계이거나 사용자 확보가 되지 않은 제품 개발사의 경우 외부 커뮤니티의 조력이 필요하다.

외주를 수행하는 AI개발 전문기업은 어떨까? 성능 검증과 개선에 필요한 외부적 도움이 언제나 필요하다. 자신들이 개발한 제품을 클라이언트에게 넘기고 나면, 그들은 사용자 커뮤니티와 즉시 괴리되기 때문이다.

바비디: AI 성능개선을 위한, 글로벌 버그 바운티 플랫폼

바비디는 AI학습에 필요한 데이터의 양보다 질을 중요하게 본다. 효과적인 학습에 필요한 질 좋은 데이터란, 실제 사용자 경험에 가장 가까운 데이터, 혹은 실제 사용자 데이터다. 이를 위해 바비디는 개발된 AI의 API 또는 이것과 동기화된 테스트 인터페이스를 커뮤니티에 제공하고, 버그 바운티를 진행한다.

즉 바비디는 모델 개선을 원하는 클라이언트에 테스트 커뮤니티를 제공함으로써 성능을 향상시킨다.

미션을 정리하면,

Meet Bobidi...
- Why? > To Get AI Better.
- How? > By Making Its Deep Learning Deeper.
- via What? > Challenging Yours With Our Community's Real Data.

이를 고려한 제품 개발 과정에서의 의사결정 원칙을 도출하면 다음과 같다.

먼저 의사결정 과정에서 최우선적으로, '이 액션이 AI 성능 개선으로 이어지는가?'를 고려해야 한다. 다음으로 그 액션의 결과로 기술적 측면에서 딥 러닝의 수준, 즉 예측률/적합도가 높아지는지 검증한다. 마지막으로, 구체적인 방법으로서 그 해결에 커뮤니티 활용이 매개되는지를 검토한다.

이때 Why에서 벗어나면 바비디의 일이 아니다.
또 How에서 벗어나 다른 기술을 활용해야 하거나 실패(성능저하)가 예측된다면 그것이 장기적으로 어떤 혜택을 가져다줄지 고려해보고 결정한다.
마지막으로 What에서 벗어나면, 클라이언트나 프로젝트의 기대목표에 부합하는지 먼저 판단해본다. 만약 그렇다면 기존 커뮤니티를 사용하지 않고 다른 경로를 선택하는 경우 치르게 될 기회비용을 따져본다. 어느 쪽이 더 큰가?

Opportunities Analysed by Quotes

"바비디는 훈련/검증 데이터셋 분할(Data Centric)의 접근법으로 고객사의 인공지능 모델을 커뮤니티 내 참여자들을 통한 테스트로 미인식/오류 데이터 등을 찾아내 더 양질의 학습 데이터를 제공함으로써 인공지능 모델의 빠른 개선을 가능케했다."

“For example, natural language processing algorithms [like OpenAI’s GPT-3] are often found to be making problematic comments, or mis-responding to those comments, related to hate speech, discrimination, and insults. Using Bobidi, the community can ‘pre-test’ the algorithm and find those loopholes, which is actually very powerful as you can test the algorithm with a lot of people under certain conditions that represent social and political contexts that change constantly.”

"Traditionally, AI companies have focused on building the best model given with a dataset, but Bobidi does the exact opposite: Build the best dataset given an AI model. We took this unorthodox path because we know the data is much more important than the network when it comes to radically improve the model performance."

"Bobidi bucks the trend in the data science industry, which tends to pay data validators and labelers poorly."

“Bobidi is a mashup between community and AI, a unique combination of expertise that [its founders] share.”

Competitors

딥러닝이 활용되는 산업 영역은 무엇인가? 딥러닝이 구체적으로 적용되는 사례는 어떻게 나뉘는가? 활용 산업 영역은 클라이언트 발굴 기회로, 적용 사례와 제품은 경쟁자로 분류가능하다.

영역: ?

Superb AI
비전 기반 라벨링

Crowdworks
데이터 라벨링 아웃소스 플랫폼 (국내 30만 명) / 미국 Scale AI

Annotation AI
데이터 라벨링 자동화, MLWiz (AI 전 주기 관리 플랫폼)

CNAI
합성데이터 전문

셀렉트스타
캐시미션

그외
Datagen, Gretel.ai, MostlyAI, Synthesis AI, Sky Engine, OneView, Cvedia, Innodata, Statice

플랫폼
WorldForge, SageMaker Ground Truth

시장에서 벌어지는 일들

"2022년 5월 게임 소프트웨어 회사 유니티(Unity)는 ML 모델을 손상시키고 궁극적으로 광고 비즈니스에 영향을 미치는 '잘못된 데이터'를 인용해 1억 달러의 손실을 입었다."

"Danny Lange, senior VP of AI and machine learning at Unity, the leading cross-platform game engine, says synthetic data has enabled Unity's customers to improve object recognition rates from 70% or 80% to almost 100% because the new training data adds much more diversity to the training data."

진짜 데이터 수집은 비싸고, 가공(라벨링)에는 대규모 인력이 필요하기 때문에 기업들은 라벨링 작업에 최소 비용(작업자 입장에서는 한계 비용)을 쓰려 한다. 학습에 사용할 합성 데이터 제너레이터가 등장하는 것도 이 때문이다.

검증 능력을 가진 엔지니어/참여자에게 진짜 데이터를 수집할 수 있는 기회를 제공한다면? 이것이 바비디의 독창적이고 고유한 접근 방식이다.

참고자료

박찬(AI타임스), “미래는 가짜다”…AI 모델 훈련에서 합성데이터의 부상, 2022년 7월 28일
홍민기(한국일보), [실리콘밸리 한인 기업열전 152] 바비디 최정서 대표 ‘고객 인공지능 기능 개선에 최적화’, 2022년 2월 1일
TechCrunch, Bobidi launches to reward developers for testing companies' AI models, JUL 14 2022
VentureBeat, Unity’s Danny Lange explains why synthetic data is better than the real thing at Transform 2021, JUL 12 2021
Company Profile @ AppEngine.ai