본문 바로가기
인터넷/모바일/머신러닝

tensorflow - textsum 테스트 실행 중

by blade. 2017. 3. 26.



tensorflow - textsum 테스트 실행 중


github 예제에서 제공하는 토이 데이터는 너무 작아서 쓸만한 결과를 얻을 수 없기 떄문에, 데이터셋을 새로 만들어서 프로그램을 돌리고 있음.


데이터 종류 : 한글로 된 뉴스 (웹 크롤러를 이용하여 국내 뉴스 싸이트에서 긁어온 뉴스)

데이터 갯수 : 10만개

사이즈 : 500MB (웹 크롤러로 뉴스를 받아서, 앞뒤로 붙은 쓸데없는 광고 모두 없애고, html tag 없애고, binary로 바꾸면 500MB 정도로 작아짐)


max_run_steps 10만번 설정해놓고, 6시간째 돌리고 있는데, running_avg_loss가 기대치에 이르지 못 함. 

10만번 수행 예상 시간은 11시간.

사용 중인 H/W는 i5 6600 + RAM 24G + GTX1070 

(텐서플로우 gpu 버전으로 돌리면, cpu 성능은 크게 의미가 없고, gpu 성능이 중요. top을 띄워서 보면 알겠지만, 텐서플로우 프로그램 실행 중에도 cpu 사용량은 절반 이하.)


텐서보드로 모니터링 중인 화면..




tensorboard --logdir=./log_root 로 실행. 

http://localhost:6006/ 로 볼 수 있음.


아무래도 데이터를 줄여야할듯...

(사전 만드는 작업이 노가다가 심해서... 아.. 귀찮음..)


65k까지 기다려봐도 별로 변하는게 없어서, 중간에 끊었음.



#2 두번째 도전


데이터를 10만 -> 1만개로 줄인 상태에서 다시 사전을 만들고, 다시 학습 중...


사전을 만들 때에는 sed로 pre 작업을 한 후에 사전을 만드는게 다소 효율적... 

(사전 만드는 프로그램이 형태소 분석 기능이 별로인지라... 조만간 다듬어볼 계획)


사전을 다시 만들다가, 문득 '사전의 크기가 너무 커도 별로.. 2만개 정도가 적당하다'라는 글을 인터넷에서 봤던 기억이 떠오름.

빈도수 10회 미만의 단어를 모두 삭제해서 단어수를 2만개 가량으로 작게 만듦.

그 후에 seq2seq_attention.py를 다시 돌렸더니 속도가 그나마 좀 나아짐.





이대로 계속 돌려봐야겠음.


오늘은 끝.