전체 글 37

[플레이데이터 데이터 엔지니어링 캠프 32기] 10주차 회고

✏️ 학습내용DAY 1 10주차 - Day 1(9/9)회귀- 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 “숫자”를 예측하는 문제- K-NN Regression : 주변의 가장 가까운 K개의 샘플을 통해 값을 예측하는 방식이다. import numpy as npperch_length = npsoojin1.tistory.comDAY 2,3 10주차 : Day 2,3 (9/10,11)전체적인 프로세스는 length를 입력하면 LinearRegression에 의해 weight를 리턴하고, length와 weight를 입력하면 Knn에 의해 물고기 종류를 출력하게 된다.  먼저 어제 만든 LinearRegression 모델을 pkl 파일로soojin1.tistory.comDAY 4,5 10주차 : Day..

playdata/weekly 2024.09.23

10주차 : Day 4,5 (9/12,13)

□ 프로젝트 준비$ pdm add fastapi "uvicorn[standard]"# 아래 위치에 index.html 이동 n00 부분 본인 번호로 변경$ mkdir public$ vi public/index.html 음식 이름 입력 음식 이름: 저장  □ firebase 웹앱 배포 및 환경 설정방법은 8주차 회고의 내용을 참고하기 음식 이름 입력 음식 이름: 저장  음식이름에 문자열을 입력하면 AWS에 위치한 FASTAPI 프로그램으로 데이터가 전송되어, 해당 문자열과 시간을 csv 파일로 저장하고자 한다.여기서 해결해야 할 몇가지 이슈가 존재한다.먼저 FASTAP..

playdata/daily 2024.09.23

10주차 : Day 2,3 (9/10,11)

전체적인 프로세스는 length를 입력하면 LinearRegression에 의해 weight를 리턴하고, length와 weight를 입력하면 Knn에 의해 물고기 종류를 출력하게 된다.  먼저 어제 만든 LinearRegression 모델을 pkl 파일로 저장하고, pkl 모델을 사용하여 무게를 예측하는 lr.py 을 작성했다.import pickledef lr(length:float): ### 모델 불러오기 with open("/home/sujin/code/fr/src/note/linear_model.pkl", "rb") as f: lr_model = pickle.load(f) prediction = lr_model.predict([[length **2, length]])..

playdata/daily 2024.09.23

10주차 - Day 1(9/9)

회귀- 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 “숫자”를 예측하는 문제- K-NN Regression : 주변의 가장 가까운 K개의 샘플을 통해 값을 예측하는 방식이다. import numpy as npperch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0..

playdata/daily 2024.09.23

[플레이데이터 데이터 엔지니어링 캠프 32기] 9주차 회고

✏️ 학습내용 1. pip install을 나의 git url로 변경한다.기존의 절대 경로는 문제가 될 수도 있다. (사용자의 로컬에는 같은 경로가 아닐 수도 있기 때문에)도커파일을 수정해준다.#RUN pip install --no-cache-dir --upgrade -r /code/requirements.txtRUN pip install git+https:// 이미지 파일을 빌드하고 실행시킨 후, 컨테이너에 접속하여 pip list를 수행했는데, fishmlserv가 0.7.0 버전이었다.$ docker build -t fishmlserv:0.7.6 .$ docker run -d -p 7799:8080 --name fml076 fishmlserv:0.7.6$ docker exec -it fml070 b..

playdata/weekly 2024.09.09

project 2. Business-Chatting-System

https://github.com/DE32-2nd-team4/Business-Chatting-System GitHub - DE32-2nd-team4/Business-Chatting-SystemContribute to DE32-2nd-team4/Business-Chatting-System development by creating an account on GitHub.github.com 주제 업무용 메신저 만들기 배경1) 사내 기술 유출 이슈2) 감사팀 메신저 감찰 필요 활용 필수 기술 스택Apache KafkaApache SparkApache AirflowApache Zeppelin 주요 요구사항업무 대화 기능업무 대화 감사 기능 (검색, 대화 주제 통계) - zeppelin영화 챗봇 기능 (@bot 파..

playdata/project 2024.09.05

[플레이데이터 데이터 엔지니어링 캠프 32기] 8주차 회고

✏️ 학습내용1. FirebaseFirebase는 구글에서 제공하는 백엔드 서비스 플랫폼으로, 주로 웹, iOS, Android 앱 개발에서 사용됩니다. [NVM 설치]$ curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.0/install.sh | bash$ source ~/.zshrcNVM(Node Version Manager)은 여러 버전의 Node.js를 관리할 수 있게 해주는 도구입니다. $ nvm install 20# 설치 확인$ node -v$ npm -vNode.js 20번 버전을 설치합니다. [Firebase CLI 설치]$ npm install -g firebase-toolsFirebase CLI는 Firebase 프로젝트를 관리하..

playdata/weekly 2024.09.01

[플레이데이터 데이터 엔지니어링 캠프 32기] 7주차 회고

✏️ 학습내용 오늘의 팁- 이력서에 너무 많은 스택은 못미더움ㅎ- 필요에 따라 중복코드 있어도 된다. -> 배포관점으로 코드 작성해보기 저번 주 숙제 내용에서 딕셔너리 안 딕셔너리 안 딕셔너리 안 .. 이런 데이터를 이중 for 문 으로 처리했었다.오늘은 이런 데이터를 flat하게 만드는 작업을 했다. 먼저 샘플데이터로 연습.%spark.pysparkdata = [ ("1", '{"name": "John Doe", "age": 30}'), ("2", '{"city": "New York", "country": "USA", "zipcode": "10001"}'), ("3", '{"product": "Laptop", "brand": "Dell", "specs": {"RAM": "16GB", "..

playdata/weekly 2024.08.24

[플레이데이터 데이터 엔지니어링 캠프 32기] 6주차 회고

✏️ 학습내용 LB (Load Balancing)부하분산 또는 로드 밸런싱은 컴퓨터 네트워크 기술의 일종으로 둘 혹은 셋이상의 중앙처리장치 혹은 저장장치와 같은 컴퓨터 자원들에게 작업을 나누는 것을 의미한다. 이로써 가용성 및 응답시간을 최적화 시킬 수 있다. $ cat /etc/nginx/sites-available/defaultupstream serv { # LB 구현 server localhost:8888 weight=50; server localhost:7777 weight=50;}server { listen 80; location / { proxy_pass http://serv; }} ngnix[실습]$ mkdir -p tmp/tWeb/web1$..

playdata/weekly 2024.08.18

[플레이데이터 데이터 엔지니어링 캠프 32기] 5주차 회고

월, 화는 프로젝트 수행했습니닷프로젝트 회고에 내용 적었습니닷 이번 주 내용은 드디어 내가 배워보고 싶었던 spark뭔지도 잘 모르지만 내가 봤던 공고들에 항상 hadoop, spark활용능력이 자격 요건이나 우대사항에 있었던 것 같아서 배우고 싶었다. 먼저 제플린, 아파치 스파크, 자바를 설치했다. 제플린 (Zeppelin): 웹 기반의 데이터 분석과 시각화 도구로, 다양한 데이터 소스와 분석 언어를 지원하며 대화형 노트북을 제공.아파치 스파크 (Apache Spark): 대규모 데이터 처리와 분석을 위한 분산 처리 엔진으로, 빠르고 유연한 데이터 처리를 지원하며 머신러닝, 스트리밍, SQL 등 다양한 기능을 제공.- zeppelin공식홈페이지를 참고하여 설치할 수 있다.https://zeppelin...

playdata/weekly 2024.08.12