.
블로그"nthought"에 대한 검색결과879건
  • [비공개] 모델 복잡도의 개념

    (adsbygoogle = window.adsbygoogle || []).push({}); 모델의 복잡도는 다양한 관점에서 정의되고 설명될 수 있어서 조심스러운 주제다. 좀 더 이론적이고 종합적으로 설명해야 하는 주제인데, 능력의 한계로 아주 지엽적이고 편향되게 설명할 수 있으니 다른 텍스트북이나 글들을 참조해서 개념을 제대로 정립했으면 하는 바람이다. 복잡도를 다스리는 여러 테크닉들은 다음 글로 미루고 오늘은 복잡도의 개념이나 원인 등에 관해서만 적는다. 복잡한 모델은 뭘까? 비선형 모델은 모두 복잡할까? 모델의 독립변수 (X) 종류와 개수가 많으면 복잡한 걸까? 트레이닝 데이터에 과학습(over-fit)되면 복잡한 걸까? 아니면 여러 잡다한 모델들을 앙상블 하면 복잡한 걸까? 이외에도 복잡한 모델에 관한 다양한 의문이 있을 수 있고, 그런 모든 의문이 어쩌면 모델 복잡도의 여러 ..
    nthought|2020-10-19 06:59 am|추천

    추천

  • [비공개] 차원의 저주와 축소

    (adsbygoogle = window.adsbygoogle || []).push({}); 차원의 저주가 무엇이고 어떻게 해결할 수 있는가?는 인터뷰에서 종종 묻는 질문이다. 난이도가 높지 않음에도 만족스러운 답변을 들은 적은 없다. 책은 용어/개념만 소개하고 서베이 논문은 여러 알고리즘을 분류하기만 할 뿐 개념과 함의를 종합적으로 정리하지 않은 듯하다. 그래서 이 글은 다양한 관점에서 개념적으로 이해하는 데 도움을 주고자 한다. 참고자료를 찾아보지 않고 그냥 기억에 의존해서 쭉 적어나가기 때문에 일부 방법론의 구체적인 내용은 사실과 다를 수 있으니 자세한 것은 직접 찾아보기 바란다. 차원의 저주? 예외적인 경우룰 제외하면 데이터의 피쳐(와 양)가 많을수록 더 정확한 모델을 구축할 수 있다. 기존 모델이 불만족스러울 때 가장 먼저 새로운 피쳐를 발굴해서 추가하는 작업을 ..
    nthought|2020-10-05 12:24 pm|추천

    추천

  • [비공개] IDEF0 Functional Modeling

    (adsbygoogle = window.adsbygoogle || []).push({}); 지난 글에서 다음 글로 미뤘던 다른 하나는 IDEF0로 불리는 Functional Modeling이다. IDEF는 Integration Definition의 약자로 시스템과 소프트웨어 엔지니어링에서 사용되는 여러 모델링 언어/포멀리즘을 표준화한 것이다. IDEF0에서 0가 있듯이 IDEF1, IDEF2 등 IDEF14까지 총 16개 (IDEF1X도 있음)로 정리된다. 데이터 베이스에서 많이 사용되는 ERD는 IDEF1X Data Modeling에 정의돼있고, 그 외에도 프로세스나 온톨로지, OOD 등의 우리가 알고 있는 대부분의 다이어그램이 정의돼있다. 미국표준기술원 (NIST, National Institute of Standards and Technology)을 중심으로 정의된 것이지만 우리의 실생활에서의 실제 사용은 다소 다를 수 있다. 일부는 항목만 있을 뿐 실제 구현/정의되지도 않았다. 사람들이 이를 많이 사용하든 아니든 시스템의 기능을 정의하고 ..
    nthought|2020-09-21 12:54 pm|추천

    추천

  • [비공개] 현업 데이터 과학자가 되려는데 굳이 이런 것까지 공부해야 합니까?

    (adsbygoogle = window.adsbygoogle || []).push({}); 답글로 달기에는 글이 길어질 듯해서... (극히 개인적인 의견이니 그냥 참고만...) 딥러닝 기술을 바이오 데이터에 적용하는 걸로 석사를 졸업했다. 나는 취업해서 그냥 데이터 사이언티스트가 되고 싶다. 실무자가 되기 위해서 굳이 알고리즘의 수식을 유도하고 코드를 구현하는 걸 공부해야 하나? 머신러닝 이론이 실무에 그대로 활용되는가? 그냥 데이터 다루는 법이 더 중요하지 않나? 소프트웨어 엔지니어 수준의 개발 지식과 기술이 필요한가? 첫 줄 요약. 당장은 필요 없다. (일단 취업된다는 가정 하에) 하지만 레벨업을 위해선 미리미리 준비해야 한다. (언젠가 해야 한다면 어릴 때… == 취업 후에라도) 데이터 과학자도 여러 종류가 있다. 가장 하드코어 하게는 인공지능 연구실로 진학해서 더 나..
    nthought|2020-09-14 06:18 pm|추천

    추천

  • [비공개] 인텔리전트 시스템

    (adsbygoogle = window.adsbygoogle || []).push({}); 딥러닝, AI, 빅데이터, IoT, 오토파일럿 (자율주행) 등과 같은 개념이나 기술이 일반화되면서 이들이 종합적으로 적용된 인텔리전트 시스템 (Intelligent System)도 최근에 등장한 개념으로 생각할 수 있다. 하지만 인텔리전트 시스템에 관한 연구는 꽤 오래전부터 진행됐고 개념이 — 물론 새로운 아디이어가 나오면서 꾸준히 진화하고 있지만 — 정립된지도 꽤 오래됐다. 나중에 산업경영공학과로 개명했지만 학부 전공은 산업공학이었고, 자연스레 대학원은 생산공학 연구실로 진학했다. 이후 인터넷 환경이 일반화되고 데이터 마이닝 관련 커리큘럼이 학과에 보강되면서 인터넷과 머신러닝이 주 연구 주제가 됐다. 정확한 교과목 명은 기억나지 않지만 2000년도에 대학원에 들어갔을 때 지도교수님은 인텔리전트 ..
    nthought|2020-09-14 01:38 pm|추천

    추천

  • [비공개] 온라인 A/B 테스트

    (adsbygoogle = window.adsbygoogle || []).push({}); 새로운 알고리즘/모델을 실 서비스에 적용하기 전에 다각도로 실험을 반복해서 검증하고 확인하는 게 중요하다. 과거의 이력 (LOG) 데이터로 오프라인 테스트를 통과하면 다시 서비스 적용 전에 온라인 테스트를 거친다. 오프라인 테스트는 모델 자체의 적합도를 검증하는 과정과 이를 통한 서비스의 성능 (e.g., 광고에서는 CTR이나 매출 등)을 시뮬레이션하는 과정으로 나뉜다. 모델 적합도 검사는 보통의 데이터 과학에서 수행하는 학습과 검증/테스트 데이터를 분리해서 강건하고 정확한 모델을 구축하는 것이고, 성능 시뮬레이션은 가상의 환경에서 LOG를 replay 하며 신규 모델이 기존보다 더 나은지를 체크한다. 오프라인 시뮬레이션은 많은 제약이 있다. 실제 환경을 완벽하게 모사하지 못할 뿐만 아니라, LOG 기록..
    nthought|2020-08-31 11:08 am|추천

    추천

  • [비공개] 학습, 테스트 그리고 추론

    (adsbygoogle = window.adsbygoogle || []).push({}); 멘티의 인턴 과제는 도달수 (Reach)를 예측하는 모델의 개선이었다. 도달수 예측이란 광고주가 설정한 타게팅 조건과 일 예산에 따른 광고가 노출될 유니크 사용자수를 추정하는 거다. 타게팅 모수는 타게팅 조건에 부합하는 모든 사용자의 규모를 알려주는 정적인 수치임에 반해, 도달수는 실제 광고를 본 사용자수를 의미하며 광고가 전달되는 환경에 따른 동적인 수치다 (도달수
    nthought|2020-08-24 07:34 am|추천

    추천

  • [비공개] 데이터 과학자의 발표 자료

    (adsbygoogle = window.adsbygoogle || []).push({}); 지난 금요일, 인턴들이 과제를 수행한 결과를 발표했다. 멘티가 발표 준비하는 걸 가이드하고 또 다른 인턴들의 발표를 들으면서 발표자료를 만드는 것에 관해서 짧게 적어야겠다고 마음먹었다. 하수-중수-고수, 초보자-중급자-전문가 등 여러 방식으로 어떤 기술(자)의 등급을 매길 수 있다. 데이터 과학자도 비슷하게 상중하를 굳이 나눌 수 있지만, 다른 관점에서 역량과 역할이 바뀜에 따라서 ‘분석 - 해석 - 소통’으로 등급을 나눌 수 있다고 생각한다. 소통 단계가 최상의 데이터 과학자를 뜻하지는 않는다. 분석 단계에서도 최고의 기술을 갖은 고수가 있을 수도 있고, 소통을 잘 하지만 기본 데이터 과학 역량을 제대로 갖추지 못한 경우도 있다. 하지만 일반적으로 데이터 과학자라는 업을 시작해서 경..
    nthought|2020-08-17 06:53 pm|추천

    추천

  • [비공개] 서비스를 위한 알고리즘 선택 기준

    (adsbygoogle = window.adsbygoogle || []).push({}); 다양한 이유로 사용 중인 모델/알고리즘을 개선해야 한다. 보통은 환경이 바뀜에 따라서 예측 성능이 저하되거나 조금 더 정확도를 높이고 싶은 욕심에서 모델 개선 작업을 한다. 단순히 에이징 된 모델을 버리고 새로 학습하는 것에서부터 새로운 데이터를 추가하거나 새로운 최신 알고리즘을 적용하는 것까지 알고리즘 개선의 형태도 다양하다. 모델 개선의 가장 큰 목적이 예측 정확도를 높이는 거지만, 섣불리 진행하면 낭패를 볼 수 있다. 학계 연구는 모델의 정확도를 개선하는 것을 주목적으로 한다. 기존 모델보다 정확도가 1%, 아니 단 0.1%만 높여도 논문을 작성해서 발표할 거다. 특히 정확도가 95%이상을 넘긴 분야에선 더더욱 그러하다. 산학 과제가 아닌 이상은 프로덕션 과정을 제대로 고려하지 않는 측..
    nthought|2020-08-10 08:15 am|추천

    추천

  • [비공개] 데이터 문제 해결 프로세스

    (adsbygoogle = window.adsbygoogle || []).push({}); 이전 글은 다소 즉흥적이었다. 데이터 과학자는 상황과 문제에 맞게 사고와 반응이 유연해야 함을 강조한 것이지, 일반적인 절차나 방법론이 없다는 의미는 아니다. 이글에 관심 있는 독자들이라면 이미 그런 명시적 또는 암묵적 방법론에 관한 여러 글들을 봤을 것이고 또 완전히 같진 않지만 유사한 형태/방식으로 자신의 임무를 수행하고 있다고 짐작한다. 그럼에도 이 글을 다시 적는 이유는 모두가 데이터 과학에 익숙한 것도 아니고, 또 나만의 관점에서 이걸 정리하는 게 의미가 있기 때문이다. iF카카오2018 발표자료에 러프하게 그렸던 그림을 가져왔다. 막상 그림을 가져온 뒤 글을 적으려니 어쩌면 오해를 줄 수 있을 듯해서 좀 막막하다. 이전 글에서 데이터 과학자는 문제를 정의하고 방법을 찾는 이로 묘..
    nthought|2020-08-03 07:44 am|추천

    추천

이전  4 5 6 7 8 9 10 11 12 ... 88  다음
셀로거는 비즈니스/마케팅 관련 블로그중 대중에게 RSS를 제공하는 블로그의 정보만 수집 및 정리하여 소개하는 비상업적 메타블로그 사이트입니다.
수집된 내용에 대한 모든 블로그의 저작권은 모두 해당 블로거에게 있으며 공개되는 내용에 대해서는 Sellogger의 입장과 무관합니다.
셀로거에서는 원글의 재편집 및 수정을 하지 않으며 원문링크를 제공하여 전문확인을 위해서는 저작권자의 블로그에서만 확인가능합니다.
Copyright (c) Sellogger. All rights reserved. 피드등록/삭제요청 help@sellogger.com