playdata 29

[플레이데이터 데이터 엔지니어링 캠프 32기] 6주차 회고

✏️ 학습내용 LB (Load Balancing)부하분산 또는 로드 밸런싱은 컴퓨터 네트워크 기술의 일종으로 둘 혹은 셋이상의 중앙처리장치 혹은 저장장치와 같은 컴퓨터 자원들에게 작업을 나누는 것을 의미한다. 이로써 가용성 및 응답시간을 최적화 시킬 수 있다. $ cat /etc/nginx/sites-available/defaultupstream serv { # LB 구현 server localhost:8888 weight=50; server localhost:7777 weight=50;}server { listen 80; location / { proxy_pass http://serv; }} ngnix[실습]$ mkdir -p tmp/tWeb/web1$..

playdata/weekly 2024.08.18

[플레이데이터 데이터 엔지니어링 캠프 32기] 5주차 회고

월, 화는 프로젝트 수행했습니닷프로젝트 회고에 내용 적었습니닷 이번 주 내용은 드디어 내가 배워보고 싶었던 spark뭔지도 잘 모르지만 내가 봤던 공고들에 항상 hadoop, spark활용능력이 자격 요건이나 우대사항에 있었던 것 같아서 배우고 싶었다. 먼저 제플린, 아파치 스파크, 자바를 설치했다. 제플린 (Zeppelin): 웹 기반의 데이터 분석과 시각화 도구로, 다양한 데이터 소스와 분석 언어를 지원하며 대화형 노트북을 제공.아파치 스파크 (Apache Spark): 대규모 데이터 처리와 분석을 위한 분산 처리 엔진으로, 빠르고 유연한 데이터 처리를 지원하며 머신러닝, 스트리밍, SQL 등 다양한 기능을 제공.- zeppelin공식홈페이지를 참고하여 설치할 수 있다.https://zeppelin...

playdata/weekly 2024.08.12

project 1. 영화 박스오피스 데이터 수집/처리/보관 및 활용

프로젝트 내용영화 박스오피스 데이터 수집/처리/보관 및 활용에 대하여각각 단계에 대하여 파이썬 프로그램을 package(PIP설치) 단위로 개발개발 package 를 airflow 적용 및 운영필수산출물1.github ( 플레이데이터 레포 + TEAM REPO ) code ( Airflow + PIP )플레이데이터 레포 : 통합 메인 AIRFLOW 코드 ( 팀레포 코드가 모두 연결 되도록 가이드 작성 필요)TEAM REPO 각각 패키지 + 플레이데이터 메인 repo Fork ( 차후 팀 레포 만들로 완경성을 갖도록 최종 완료 후 포크)2.github READMD.md(*) - 팀원에게 도움이 되는 문서 작성, 기존 작성 블로그 링크등 활용 OK3.데이터 수집, 처리, 분석 PIP 팩키지 개발4. Airf..

playdata/project 2024.08.11

[플레이데이터 데이터 엔지니어링 캠프 32기] 4주차 회고

✏️ 학습내용 7.29(월)[영화진흥위원회 습격사건🔫]새로운 프로젝트 귀여운 이름을 지으셨다이렇게 생긴 파이프라인을 생성했다.영화진흥위원회 사이트에서 키를 발급받았다.이 키를 활용하여 get.data 단계에서 데이터를 받아올 것 이고,save.data에서는 ..! 잘 모르겠어서 나중에 알게되면 적겠다. $ pdm add -dG test pytest pytest-cov여기서도 pytest를 활용할 것 이기 때문에 테스트 환경 설정 먼저 해줬다.$ pdm add request그리고 requests 패키지를 프로젝트에 추가했다. requests는 HTTP 요청을 보내기 위해 사용되는 파이썬 라이브러리이다.$ export MOVIE_API_KEY= " ~~~ "export는 환경변수를 설정하는데 사용되는 명령..

playdata/weekly 2024.08.04

[플레이데이터 데이터 엔지니어링 캠프 32기] 3주차 회고

✏️ 학습내용 먼저 2주차 회고 쓰다가 의문이었던 거 해결했다. 나는 exit 1/0 이 1이나 0을 리턴하는 줄 알았다. 그래서 리턴값을 활용해서 따로 처리해야할 줄 알았는데 말 그대로 exit를 활용해서 정상 종료 여부를 나타내는 것 이었다. 정상종료면 0, 아니면 1이다.아래 캡쳐본을 보면 해당 날짜에 done파일이 없어서 exit 1로 종료되어 다음 테스크가 진행되지 않는 두 번째 케이스를 확인할 수 있다. 1. alias-별명을 설정하는 명령어$ vi ~/.zshrcalias airs="airflow standalone"$ source .zshrc$ airsZsh 쉘 파일을 열어서 alias 라인을 추가한다. 그리고 zsh을 재시작한다. 이제 airs로 airflow standalone 명령을..

playdata/weekly 2024.07.30

[플레이데이터 데이터 엔지니어링 캠프 32기] 2주차 회고

✏️ 학습내용pyenv- 여러 버전의 python을 쉽게 전환할 수 있다.# curl 명령어를 통한 pyenv 설치$ curl https://pyenv.run | bash# .zshrc에 내용 추가$ echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc$ echo '[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc$ echo 'eval "$(pyenv init -)"' >> ~/.zshrc# 터미널 새로 시작$ source ~/.zshrc# 설치하기$ pyenv install 3.9.19configure: error: in `/tmp/python-build.202407151220..

playdata/weekly 2024.07.21

[플레이데이터 데이터 엔지니어링 캠프 32기] 1주차 회고

데이터엔지니어링 첫 주를 마쳤다.첫 회고글을 쓰는데 고민을 많이 했는데 느낀 점을 최대한 솔직하게 써보려고 한다!! 🩷좋았던 점 1먼저 강사님의 경력과 경험에서 우러난 소소한 꿀팁과 조언들이 인상깊었고 중간중간 메모를 해두었다.앞으로도 이런 이야기들을 놓치지 않고 메모를 해두면 좋을 것 같다. 1. 파일은 삭제하지 말고 tmp에 옮겨놓기2. 내용 확인은 view로 하기3. 프롬프트 변경 PS1="$ " : 뭔가 문제상황이 발생했을 때 구분4. 파이프라인 설계보단 운영을 효율적으로 하기 위한 방법을 생각해보기5. 반응 잘 해주기!6. 부트캠프를 통해 협업하는 방식, 협업하는 경험을 중점으로 성장해보기 🩷좋았던 점 2git을 처음 접하고 사용했을 때 시스템의 흐름이 와닿지 않아서 효율적으로 사용을 못했었..

playdata/weekly 2024.07.14

텍스트 에디터 vim(vi) 사용법 요약

Vimtutor 실행하기vimtutor ko Lesson 11. 커서 움직이기 : h(왼쪽) j(아래) k(위) l(오른쪽)2. vim : 쉘에서 빔 시작하기3. q! : 저장 안하고 나가기: wq : 저장하고 나가기4. x : 커서가 위치한 곳의 글자 지우기5. i : 커서 앞에 삽입a : 문장 뒤에 추가  Lesson 21. dw : 커서가 위치한 곳 부터 단어의 끝까지 지우기2. d$ : 커서가 위치한 곳부터 줄 끝까지 지우기3. dd : 줄 전체를 지우기4. 2w : 횟수와 함께 대상을 반복시키기5. 명령 모드에서 명령의 형식[횟수] 명령 대상 / 명령 [횟수] 대상6. 0 : 커서를 문장 맨 앞으로 옮기기7.  u : 이전 행동 취소U : 한 줄에서 수정한 것을 모두 취소CTRL-R : 취소..

playdata/homework 2024.07.14

[Linux] grep 명령어와 정규 표현식

📚 모두의 리눅스 p.276 ~ 2921. 파일에서 문자열 검색 grep [옵션] ex) /etc/passwd 파일에서 bash 문자열 검색$ grep bash /etc/passwd 1) -n 옵션 : 행 번호 출력ex) /etc/bash.bashrc에서 PS1 이라는 문자열을 검색하여 행 번호와 함께 출력$ grep -n PS1 /etc/bash.bashrc 2) -i 옵션 : 대소문자 구별xex) system 문자열 검색$ grep system /etc/bash.bashrc  -> "system"만 검색됨.$ grep -i system /etc/bash.bashrc  -> "System", "sYsyeM", "SYSTEM" 등 검색됨. 3) -v 옵션 : 검색할 문자열이 나타나지 않는 행을 출력e..

playdata/homework 2024.07.12