본문 바로가기
인터넷/모바일

전격Z작전 키트, IBM 왓슨 그리고 애플 시어리(siri)

by blade. 2011. 10. 9.

어릴 적 꿈 중의 하나는 전격Z작전(Knight rider)에 나오는 키트를 몰고 다니는 것이었다.
시계에다 대고 '도와줘 키트'라고 말만 하면 달려오는...
 

(전격Z작전 인트로 동영상을 넣을까말까하다가 넣었는데.. 이거 듣다보니 중독된다...)




IBM 왓슨 (Watson)

IBM에서 개발한 묻고 답하는 용도로 최적화시켜서 만든 인공지능 컴퓨터 왓슨.
인공지능 체스 세계챔피언 'IBM 딥블루'에 이어서 새로 만든 프로젝트.
 
아직 완벽치않은 인식 프로그램 때문에 가끔은 이상한 답변을.. ㅋㅋㅋ

왼쪽 그림은 왓슨의 아바타... 나름 귀엽다...






처음에는 뻘짓도 참 많이 했지만, 프로그램이 업그레이드 됨에 따라서 실력이 일취월장하게 되었고,
2011년 2월에는 미국에서 인기있는 퀴즈 프로인 '제퍼디'에 참가해서 1위를 차지했다.
이 정도면, 조만간 전문가 시스템(expert system)에도 적용이 가능한 수준이 되지않을까? 

진행자가 질문하는 것을 사람들과 똑같이 듣고 이해해서 답변을 해낸다. 키보드와 모니터가 아니다...
 
 
왓슨은 IBM의 창업자인 토마스 J. 왓슨의 이름에서 따온 것.

왓슨은 IBM 750 서버 90대를 병렬로 연결해서 2880개의 CPU(와 16 테라 바이트의 메모리를 사용하는 수퍼컴퓨터에서 돌아간다. (이런거 보면 사람의 뇌는 참 대단하다..)



애플 시어리 (Siri)

2007년. SRI 인터네셔널에서 개발 시작.
2010년 4월. 애플에서 이 기술을 인수.
2011년 10월. 1년 6개월 만에 세상에 다시 모습을 보인 '시어리'는 아이폰 iOS에 완전히 녹아든 형태로 발전되었음.

아이폰에게 명령을 내리는 모든 것들을 손가락이 아니라 음성으로 실행가능.
 
 
 

처음 시어리에 대한 얘기를 들었을 때에는 그간 알고있었던 음성인식/자연어처리 기술에 대한 선입견이 있기 때문에, '그거 해봐야 얼마나 잘 되겠어? 몇 번 쓰다가 말게 되는 장난감 같은거겠지.'라고 생각했는데, 내 예상을 넘어선 기능에 놀랬다.. 쬐끔... ㅋㅋㅋㅋ
 
 

애플이 아이폰을 처음 내놓았을 때에도 비슷한 느낌이었던 것 같다.

애플이 자랑했던 정전기식 터치 패널, 키네틱 스크롤, 멀티 터치와 같은 기능들이 모두 애플이 처음 내놓았던 기술이 아니라는 것은 알고있었다.
애플은 그런 기능들을 좀 더 다듬은 다음에 하나로 묶어서 새로운 방향을 제시한다.
이게 애플의 장점이다.
 
시어리(Siri)의 제일 큰 문제는 우리나라말은 인식하지 못 한다는거... ㅋㅋㅋㅋ 이거 영어회화 연습이라도 해야하는걸까?

두번째 문제는 아이폰 4s 이전 모델에서는 사용 못 하게 막았다는 것...
오리지널 Siri는 4에서도 잘 되던거다... 아띠.. Facetime이 생각난다.




이러한 음성인식기능은 아이폰에서만 가능한 것은 아니다. 안드로이드도 거의 비슷한 기능을 지원하는 프로그램들이 있음.


Speaktoit assistant.


기능은 유사한데, 그림이 구리다... ㅠㅠ

 
스페이스 오딧세이 2001에 나오는 할(HAL) 9000이 내 전화기 속에 들어올 날도 머지않은 것 같다.

번외로....

드래곤 딕테이션 & 드래곤 서치.

음성인식 기능을 뛰어넘어서 자연어 처리가 가능한 시어리/스피크투잇보다는 기능이 떨어지지만, 어쨌든 우리말로 문자입력이 가능한 형태.

드래곤은 단순히 사람이 말하는 것을 텍스트로 옮겨주는 형태에서 그친다.


음성인식 어플- 드래곤 딕테이션과 드래곤 서치 by enjoyyouryouth 


 구글 보이스액션

정해진 몇 개의 명령어를 음성으로 동작시키는 형식. 드래곤 딕테이션에서 조금 더 발전되었지만, siri 등에는 못 미침. 

약속된 명령어는 총 10개.

- send text message, listen to music, get directions, call business, call contacts, send email, view a map, go to websites, write a note, search google. 이렇게 총 10개의 명령어를 말로써 제어하는 수준 
- 음성인식 수준은 상당히 뛰어나서, 일반적인 이메일을 음성으로 쓰는 것은 무리가 없다고 함.


(진행자 말이 너무 빨라서 제대로 알아먹지도 못 하겠음)