[ICO] LangNet 분석글 (음성 데이터 공유 플랫폼)

[ICO] LangNet 분석글 (음성 데이터 공유 플랫폼)

LangNet


1. Token Information


토큰 종류
ERC20, 발행 중
토큰 이름
LANG
토큰 발행량
5 Billion
토큰 가격
US $0.01
홈페이지
https://langnet.io/
백서
https://docsend.com/view/7y4yr2e



2. LangNet에 대한 간략한 소개

LangNet은 자신의 목소리를 제공하고 토큰을 받아가는 음성 데이터 저장 및 공유 플랫폼입니다. 개개인의 사용자가 자신이 제공한 음성 데이터에 대한 소유권과 이에 대한 보상을 보장받습니다. 아울러 인공지능 음성 분석 서비스 개발자들이 다양한 언어의 음성 데이터를 합리적인 가격에 사용하여 인공지능 자원의 독점 문제를 해결하고자 합니다.


3. LangNet이 해결하고자 하는 문제

음성 인식 기술이 최근 들어 많은 발전을 보여주었지만, 여전히 그 수준은 만족스럽지 못합니다. 조금 더 복잡한 명령을 내리거나 전문용어를 사용하면 인식 성능이 떨어지는 경우가 많습니다.(음성인식 기술, 한계도 명확… 기업들의 고민은?)이를 개선할 수 있는 것은 아주 다양하고 풍부한 양의 데이터입니다. 일부 거대 기업이 비싼 비용을 지불하여 음성 데이터를 수집하는 기존의 시장 논리를 탈피하여, 모두가 참여하여 자신의 목소리를 대여하고 그에 대한 정당한 대가를 받아가는 서비스를 제공합니다.

뿐만 아니라, 음성 데이터에 대한 소유권을 확실하게 보장하고자 합니다. 이를 개개인에 대한 식별자인 Voice ID로 보장하는데요, 이것을 바탕으로 자신의 데이터를 사용하고자 하는 기업에게 데이터 엑세스 권한을 부여할 수 있습니다. 추후에 더 자세히 설명하도록 하겠씁니다.


4. LangNet의 Architecture

사용자들은 주어진 문장을 읽고 녹음하여 목소리를 제공한 대가로 1초 단위로 토큰을 받아갑니다. 주어진 문장들의 집합인 데이터 셋은 다양한 주제, 상황을 반영합니다. 아울러 발음하는 사람들이 각기 다른 억양, 어조를 가지고 있으므로 인공지능을 훈련시키기 좋은 데이터 셋을 구성할 수 있습니다.

총 50개 언어 및 방언으로 각각 25만시간의 데이터 세트를 수집하여 총 1250만 시간의 음성 데이터를 수집하는 것이 목표입니다. 누적 음성 데이터의 양이 늘어남에 따라 지급되는 토큰양을 줄이는 데요, Langnet 생태계에 선도적으로 기여한 사람들에게 더 큰 보상을 주기 위함입니다. 하지만 데이터가 축적됨에 따라 전체 시스템의 가치는 높아지므로, 토큰 지급량은 줄더라도 가격은 상승하리라고 기대할 수 있습니다.

 


음성 데이터 검증 : 자동 검증 + 사람에 의한 수동 검증

1) 데이터 검증 서비스 DVS

데이터의 무결성을 검증하기 위해 사전 검증된 reference 모델과 대조하여 검사하는 시스템입니다. 음소단위로 검사가 이루어지기 때문에 억양, 사투리, 잡음 등으로 인해 발음이 비정상적인 케이스들을 잡아낼 수 있습니다.

 

2) 수동 데이터 검증 MDV

불확실성이 강한 데이터와 문장의 의도를 해석하는 작업 등에는 수동 데이터 검증을 통해 주관적인 자연어 처리를 진행합니다. 높은 평판 점수를 가진 사용자가 수동으로 데이터를 검사하고, 토큰을 획득합니다. 검증인은 2n+1명이고, 과반인 n+1명이 데이터의 유효성을 인정할 때 합의에 도달합니다.



Voice ID

LangNet에서 각각의 사용자는 자신의 목소리에 대한 고유한 Voice ID를 가지게 됩니다. 개개인의 생물학적 특성 때문에 음향 특성들이 달라진다는 점을 활용한 것입니다. 이 Voice ID는 추후 데이터를 확인하거나 사용자 인증이 필요할 때 사용됩니다. 또한 개개인의 Voice ID가 있으면 음성 자동 생성 소프트웨어를 사용하여 토큰을 받아가려는 무임승차자들을 걸러낼 수 있습니다. 가장 중요하게는, 개개인의 음성 소유권을 보장하는 기능을 합니다.


 

데이터 셋

데이터 셋은 크게 문장을 말하는 의도로 분류됩니다. 이 외에도 방언, 성별 등에 따라서도 분류가 가능합니다. 특정 데이터 셋을 원하는 인공지능 개발자는 “인도식 영어를 하는 사람”과 같이 특정 상황이나 의도에 맞는 문장들을 LangNet 생태계에 요청할 수 있습니다. 즉, 원하는 데이터 셋을 생성하는 것이지요. 사용자들 중 이 조건을 충족할 수 있는 사람들이 본인의 음성 데이터를 제공하고, 토큰을 받아갑니다.


데이터 스토리지

   전체 네트워크의 부담을 줄이기 위해 전체 음성 데이터는 IPFS상의 Offchain에 저장됩니다. 모든 전송내역이 아닌 최종 결과만을 블록체인 상에서 기록하고, 블록체인 밖에서 장부를 기록합니다. IPFS의 해시 값을 Onchain(블록체인 메인넷)에 기록합니다. 


음성 앱 서비스

LangNet은 음성 데이터 뿐만 아니라 개발자들이 이를 활용하여 음성 애플리케이션을 만들 수 있도록 API를 지원합니다. 음성 애플리케이션을 활용하면 사용자의 Voice ID를 통해 앱에 로그인할 수 있을 뿐만 아니라, 사용자가 자신의 음성 저장소에 대한 액세스 권한을 앱에 제공할 수도 있습니다.

아울러, 음성 데이터를 활용한 개발 문화를 촉진하고 더 좋은 모델을 만들고자 개발자들을 대상으로 모델 개발대회를 열 계획입니다. 우수한 성능을 보인 모델은 LangNet 서비스에 통합되고, 개발자들에게는 보상이 돌아갑니다.


탈중앙회 된 신뢰

LangNet은 신뢰 유지를 위해 Staking과 평판점수, 이 두가지를 함께 사용합니다. Staking은 “사용자가 특정 기능을 수행하기 위해서는 토큰을 보유해야 한다”는 방법입니다. 사용자가 예정과는 다른 행동을 하면 staking한 토큰의 일부 또는 전부를 잃게 됩니다. 사용자가 자발적으로 신뢰에 부합하는 행동을 하도록 유도하는 인센티브이자 보증금인 셈입니다. 

평판은 질 좋은 음성 데이터를 제공하거나, 데이터를 올바르게 검증하는 것과 같은 성공적인 행동을 할 때 올라가고, 그 반대의 경우에는 내려갑니다. 이 점수는 사용자가 생태계에 미친 영향을 종합하여 산출한 점수입니다. 새로운 데이터 셋을 생성하거나 데이터를 검증하는 등의 작업을 하기 위해선 최소한의 평판점수가 필요합니다. 이 역시 사용자가 자발적으로 생태계에 기여하도록 하는 인센티브인 셈입니다. 


5. 의견

사람들이 부담을 느끼지 않고 쉽게 참여하고 사용할 수 있는 블록체인 서비스라는 생각이 들었습니다. 블록체인을 활용한 공유/대여 플랫폼은 대개 개개인의 컴퓨터 저장공간이나 CPU, GPU등의 컴퓨팅 파워를 제공하는 것이 일반적인데요, 일반 사용자들은 관련 기술에 대한 이해도가 낮기 때문에 해당 서비스를 사용하는 것에 부담을 느낄 수 있습니다. 하지만 LangNet에서 사용자는 자신의 목소리만 녹음해서 제공하면 되므로, 여타 공유/대여 플랫폼에 비해 진입장벽이 상당히 낮고, 일반 사용자들이 틈 날때마다 언제든지 단시간에도 참여가 가능하다는 장점이 있습니다. 이런 점이 많은 사용자들을 쉽게 끌어들일 수 있는 매력이 될 것 같습니다. 


Leave a Comment

    0 Comments