본문 바로가기
반응형

도서기록/HTTP 완벽가이드7

9장 웹 로봇 웹 로봇은 사람과의 상호작용 없이 연속된 웹 트랜잭션들을 자동으로 수행하는 소프트웨어 프로그램이다.9.1 크롤러와 크롤링웹 크롤러는 먼저 웹페이지를 한 개 가져오고, 그 다음 페이지가 가리키는 모든 페이지를 가져오는 재귀적 방식의 웹 순회 로봇이다.재귀적으로 따라가기 때문에 크롤러 혹은 스파이더라고 불린다.인터넷 검색엔진은 모든 문서를 끌어서 검색 가능한 데이터베이스로 저장하기 위해 크롤러를 사용한다.9.1.1 어디에서 시작하는가: '루트 집합'크롤러에게 출발지점이 주어져야 하는데, 크롤러가 방문을 시작하는 URL들의 초기 집합은 루트 집합 이라고 불린다.웹의 대부분을 커버하기 위해 루트 집합에 너무 많은 페이지가 있을 필요는 없다.일반적으로 좋은 루트 집합은 크고 인기 있는 웹사이트, 새로 생성된 페이.. 2025. 3. 27.
8장 통합점: 게이트웨이, 터널, 릴레이 게이트웨이: 서로 다른 프로토콜과 애플리케이션 간의 HTTP 인터페이스애플리케이션 인터페이스: 서로 다른 형식의 웹 어플리케이션이 통신하는데 사용터널: HTTP 커넥션을 통하여 HTTP가 아닌 트래픽을 전송하는 데 사용릴레이: 단순한 HTTP 프락시로, 한 번에 한 개의 홉에 데이터를 전달하는데 사용8.1 게이트웨이모든 리소스를 한 개의 애플리케이션으로만 처리할 수 없다는 것에 대한 해결책으로 게이트웨이가 고안됐다.게이트웨이는 리소스와 애플리케이션을 연결하는 역할을 한다. 게이트웨이는 HTTP 트래픽을 다른 프로토콜로 자동으로 변환하여, HTTP 클라이언트가 다른 프로토콜을 알 필요 없이 서버에 접속할 수 있게 하기도 한다.8.1.1 클라이언트 측 게이트웨이와 서버 측 게이트웨이게이트웨이는 클라이언트 측.. 2025. 3. 13.
7장 캐시 7.1 불필요한 데이터 전송캐시를 이용하면 서버 응답은 캐시에 보관된다.캐시된 사본이 뒤이은 요청들에 대한 응답으로 사용되어서 트래픽을 주고받는 낭비가 줄어든다.7.2 대역폭 병목클라이언트가 빠른 LAN에 있는 캐시로부터 사본을 가져온다면, 캐싱은 성능을 대폭 개선할 수 있다.7.3 갑작스런 요청 쇄도(Flash Crowds)갑작스런 요청 쇄도에 대처하기 좋다.7.4 거리로 인한 지연네트워크 라우터는 제각각 인터넷 트래픽을 지연시킨다.캐시를 근처에 설치해서 문서가 전송되는 거리를 수천 킬로에서 수십 미터로 줄일 수 있다.7.5 적중과 부적중cache hit: 캐시에 요청이 도착했을 때, 그에 대응하는 사본이 있는 경우cache miss: 대응하는 사본이 없을 경우, 이 떄는 원서버에 요청을 한다.7.5... 2025. 2. 14.
6장 프락시 6.1 웹 중개자웹 프락시 서버는 클라이언트 입장에서 트랜잭션을 수행하는 중개인이다.HTTP 프락시 서버는 웹 서버이기도 하고 웹 클라이언트이기도 하다.6.1.1 개인 프락시와 공유 프락시공유 프락시대부분의 프락시는 공유된 프락시이다.중앙 집중형 프락시를 관리하는 게 더 비용효율이 높고 쉽다개인 프락시흔하진 않지만 꾸준히 사용된다.브라우저 기능을 확장하거나 성능 개선하거나 등 컴퓨터에서 직접 실행한다.6.1.2 프락시 대 게이트웨이프락시는 같은 프로토콜을 사용하는 둘 이상의 애플리케이션을 연결한다.게이트웨이는 서로 다른 프로토콜을 사용하는 둘 이상을 연결한다.6.2 왜 프락시를 사용하는가?프락시는 보안을 개선하고, 성능을 높여주며, 비용을 절약한다.어린이 필터부적절한 사이트의 접근을 강제로 거부할 수 있.. 2025. 1. 24.
5장 웹 서버 5.1 다채로운 웹 서버웹 서버는 HTTP 요청을 처리하고 응답을 제공한다. 5.1.1 웹 서버 구현웹 서버는 HTTP 및 그와 관련된 TCP 처리를 구현한 것이다.웹 서버는 HTTP 프로토콜을 구현하고, 웹 리소스를 관리하고, 웹 서버 관리 기능을 제공한다.웹 서버는 TCP 커넥션 관리에 대한 책임을 운영체제와 나눠 갖는다.5.1.2 다목적 소프트웨어 웹 서버다목적 소프퉤어 웹 서버는 네트워크에 연결된 표준 컴퓨터 시스템에서 동작한다.아파치나 W3C의 직소 같은 오픈 소스 소프트웨어를 사용할 수도 있고, 마이크로소프트 같은 상용 소프트웨어를 사용할 수도 있다.웹 서버 소프트웨어는 거의 모든 컴퓨터와 운영체제에서 종작한다.5.1.3 임베디드 웹 서버일반 소비자용 제품에 내장될 목적으로 만들어진 작은.. 2025. 1. 17.
4장 커넥션 관리 4.1 TCP 커넥션전 세계 모든 HTTP 통신은 TCP/IP 통신을 통해 이루어진다.일단 커넥션이 맺어지게 되면 메시지들은 손실/손상 되지 않고 안전하게 전달된다.일반 URL 로부터 데이터를 가져오는 순서는 대략적으로 다음과 같다.브라우저가 URL에 대하여 호스트명을 추출한다.브라우저가 이 호스트 명에 대한 IP 주소를 찾는다.브라우저가 포트 번호를 얻는다.브라우저가 IP와 포트번호로 TCP 커넥션을 생성한다.브라우저가 서버로 HTTP 요청 메시지를 보낸다.브라우저가 HTTP 응답 메시지를 읽는다.브라우저가 커넥션을 끊는다.4.1.1 신뢰할 수 있는 데이터 전송 통로인 TCPHTTP 커넥션은 몇몇 사용규칙을 제외하고는 TCP 커넥션에 불과하다.TCP 는 HTTP 에게 신뢰할 만한 통신 방식을 제공한다... 2024. 12. 20.
반응형