playdata 34

10주차 - Day 1(9/9)

회귀- 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 “숫자”를 예측하는 문제- K-NN Regression : 주변의 가장 가까운 K개의 샘플을 통해 값을 예측하는 방식이다. import numpy as npperch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0..

playdata/daily 2024.09.23

[플레이데이터 데이터 엔지니어링 캠프 32기] 9주차 회고

✏️ 학습내용 1. pip install을 나의 git url로 변경한다.기존의 절대 경로는 문제가 될 수도 있다. (사용자의 로컬에는 같은 경로가 아닐 수도 있기 때문에)도커파일을 수정해준다.#RUN pip install --no-cache-dir --upgrade -r /code/requirements.txtRUN pip install git+https:// 이미지 파일을 빌드하고 실행시킨 후, 컨테이너에 접속하여 pip list를 수행했는데, fishmlserv가 0.7.0 버전이었다.$ docker build -t fishmlserv:0.7.6 .$ docker run -d -p 7799:8080 --name fml076 fishmlserv:0.7.6$ docker exec -it fml070 b..

playdata/weekly 2024.09.09

project 2. Business-Chatting-System

https://github.com/DE32-2nd-team4/Business-Chatting-System GitHub - DE32-2nd-team4/Business-Chatting-SystemContribute to DE32-2nd-team4/Business-Chatting-System development by creating an account on GitHub.github.com 주제 업무용 메신저 만들기 배경1) 사내 기술 유출 이슈2) 감사팀 메신저 감찰 필요 활용 필수 기술 스택Apache KafkaApache SparkApache AirflowApache Zeppelin 주요 요구사항업무 대화 기능업무 대화 감사 기능 (검색, 대화 주제 통계) - zeppelin영화 챗봇 기능 (@bot 파..

playdata/project 2024.09.05

[플레이데이터 데이터 엔지니어링 캠프 32기] 8주차 회고

✏️ 학습내용1. FirebaseFirebase는 구글에서 제공하는 백엔드 서비스 플랫폼으로, 주로 웹, iOS, Android 앱 개발에서 사용됩니다. [NVM 설치]$ curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.0/install.sh | bash$ source ~/.zshrcNVM(Node Version Manager)은 여러 버전의 Node.js를 관리할 수 있게 해주는 도구입니다. $ nvm install 20# 설치 확인$ node -v$ npm -vNode.js 20번 버전을 설치합니다. [Firebase CLI 설치]$ npm install -g firebase-toolsFirebase CLI는 Firebase 프로젝트를 관리하..

playdata/weekly 2024.09.01

[플레이데이터 데이터 엔지니어링 캠프 32기] 7주차 회고

✏️ 학습내용 오늘의 팁- 이력서에 너무 많은 스택은 못미더움ㅎ- 필요에 따라 중복코드 있어도 된다. -> 배포관점으로 코드 작성해보기 저번 주 숙제 내용에서 딕셔너리 안 딕셔너리 안 딕셔너리 안 .. 이런 데이터를 이중 for 문 으로 처리했었다.오늘은 이런 데이터를 flat하게 만드는 작업을 했다. 먼저 샘플데이터로 연습.%spark.pysparkdata = [ ("1", '{"name": "John Doe", "age": 30}'), ("2", '{"city": "New York", "country": "USA", "zipcode": "10001"}'), ("3", '{"product": "Laptop", "brand": "Dell", "specs": {"RAM": "16GB", "..

playdata/weekly 2024.08.24

[플레이데이터 데이터 엔지니어링 캠프 32기] 6주차 회고

✏️ 학습내용 LB (Load Balancing)부하분산 또는 로드 밸런싱은 컴퓨터 네트워크 기술의 일종으로 둘 혹은 셋이상의 중앙처리장치 혹은 저장장치와 같은 컴퓨터 자원들에게 작업을 나누는 것을 의미한다. 이로써 가용성 및 응답시간을 최적화 시킬 수 있다. $ cat /etc/nginx/sites-available/defaultupstream serv { # LB 구현 server localhost:8888 weight=50; server localhost:7777 weight=50;}server { listen 80; location / { proxy_pass http://serv; }} ngnix[실습]$ mkdir -p tmp/tWeb/web1$..

playdata/weekly 2024.08.18

[플레이데이터 데이터 엔지니어링 캠프 32기] 5주차 회고

월, 화는 프로젝트 수행했습니닷프로젝트 회고에 내용 적었습니닷 이번 주 내용은 드디어 내가 배워보고 싶었던 spark뭔지도 잘 모르지만 내가 봤던 공고들에 항상 hadoop, spark활용능력이 자격 요건이나 우대사항에 있었던 것 같아서 배우고 싶었다. 먼저 제플린, 아파치 스파크, 자바를 설치했다. 제플린 (Zeppelin): 웹 기반의 데이터 분석과 시각화 도구로, 다양한 데이터 소스와 분석 언어를 지원하며 대화형 노트북을 제공.아파치 스파크 (Apache Spark): 대규모 데이터 처리와 분석을 위한 분산 처리 엔진으로, 빠르고 유연한 데이터 처리를 지원하며 머신러닝, 스트리밍, SQL 등 다양한 기능을 제공.- zeppelin공식홈페이지를 참고하여 설치할 수 있다.https://zeppelin...

playdata/weekly 2024.08.12

project 1. 영화 박스오피스 데이터 수집/처리/보관 및 활용

프로젝트 내용영화 박스오피스 데이터 수집/처리/보관 및 활용에 대하여각각 단계에 대하여 파이썬 프로그램을 package(PIP설치) 단위로 개발개발 package 를 airflow 적용 및 운영필수산출물1.github ( 플레이데이터 레포 + TEAM REPO ) code ( Airflow + PIP )플레이데이터 레포 : 통합 메인 AIRFLOW 코드 ( 팀레포 코드가 모두 연결 되도록 가이드 작성 필요)TEAM REPO 각각 패키지 + 플레이데이터 메인 repo Fork ( 차후 팀 레포 만들로 완경성을 갖도록 최종 완료 후 포크)2.github READMD.md(*) - 팀원에게 도움이 되는 문서 작성, 기존 작성 블로그 링크등 활용 OK3.데이터 수집, 처리, 분석 PIP 팩키지 개발4. Airf..

playdata/project 2024.08.11

[플레이데이터 데이터 엔지니어링 캠프 32기] 4주차 회고

✏️ 학습내용 7.29(월)[영화진흥위원회 습격사건🔫]새로운 프로젝트 귀여운 이름을 지으셨다이렇게 생긴 파이프라인을 생성했다.영화진흥위원회 사이트에서 키를 발급받았다.이 키를 활용하여 get.data 단계에서 데이터를 받아올 것 이고,save.data에서는 ..! 잘 모르겠어서 나중에 알게되면 적겠다. $ pdm add -dG test pytest pytest-cov여기서도 pytest를 활용할 것 이기 때문에 테스트 환경 설정 먼저 해줬다.$ pdm add request그리고 requests 패키지를 프로젝트에 추가했다. requests는 HTTP 요청을 보내기 위해 사용되는 파이썬 라이브러리이다.$ export MOVIE_API_KEY= " ~~~ "export는 환경변수를 설정하는데 사용되는 명령..

playdata/weekly 2024.08.04

[플레이데이터 데이터 엔지니어링 캠프 32기] 3주차 회고

✏️ 학습내용 먼저 2주차 회고 쓰다가 의문이었던 거 해결했다. 나는 exit 1/0 이 1이나 0을 리턴하는 줄 알았다. 그래서 리턴값을 활용해서 따로 처리해야할 줄 알았는데 말 그대로 exit를 활용해서 정상 종료 여부를 나타내는 것 이었다. 정상종료면 0, 아니면 1이다.아래 캡쳐본을 보면 해당 날짜에 done파일이 없어서 exit 1로 종료되어 다음 테스크가 진행되지 않는 두 번째 케이스를 확인할 수 있다. 1. alias-별명을 설정하는 명령어$ vi ~/.zshrcalias airs="airflow standalone"$ source .zshrc$ airsZsh 쉘 파일을 열어서 alias 라인을 추가한다. 그리고 zsh을 재시작한다. 이제 airs로 airflow standalone 명령을..

playdata/weekly 2024.07.30