지원 데이터베이스

API 접근과 PDF 가용성을 위한 다섯 가지 데이터베이스

Diverga의 I-카테고리 파이프라인은 Semantic Scholar, OpenAlex, arXiv, Scopus, Web of Science와 통합되어 50-60%의 전체 PDF 성공률로 자동 논문 검색을 제공합니다.

왜 이 데이터베이스인가?

전통적인 학술 데이터베이스는 자동 PDF 접근을 지원하지 않습니다:

전통 데이터베이스는 자동화 부족

PubMed, Scopus, Web of Science, ERIC는 수동 다운로드 필요

오픈 액세스 중심

모든 분야에서 50-60% PDF 검색 성공률

REST API 접근

세 곳 모두 자동화를 위한 넉넉한 속도 제한 제공

구독 불필요

기관 자격 증명 없이 무료 접근

주요 데이터베이스

세 가지 통합 데이터베이스의 상세 비교:

Semantic Scholar

~40% 오픈 액세스 PDF URL

AI 기반 학술 검색 엔진으로 인용 분석 및 영향력 있는 논문 감지 기능 제공. 컴퓨터 과학, AI, 머신러닝 연구에 최적.

API ENDPOINT

api.semanticscholar.org/graph/v1/paper/search

RATE LIMIT

5분당 100개 요청

Key Fields

openAccessPdf.url - 직접 PDF URL

title, abstract, authors - 메타데이터

citationCount, influentialCitationCount - 영향력

fieldsOfStudy - 주제 분류

Pros

기본 접근을 위한 API 키 불필요

인용 네트워크 분석 내장

영향력 있는 논문 감지

빠른 응답 시간

Cons

낮은 오픈 액세스 비율 (~40%)

커버리지의 CS/ML 편향

대량 요청에 대한 속도 제한

OpenAlex

~50% 오픈 액세스

모든 학문 분야에 걸쳐 2억 5천만 개 이상의 저작물을 다루는 오픈 학술 데이터 플랫폼. 포괄적인 메타데이터 및 기관 추적 기능으로 Microsoft Academic Graph를 대체.

API ENDPOINT

api.openalex.org/works

RATE LIMIT

초당 10개 요청

Key Fields

open_access.oa_url - 오픈 액세스 PDF

authorships, institutions - 저자 데이터

concepts - 주제 분류

cited_by_count - 인용 지표

Pros

가장 높은 오픈 액세스 비율 (~50%)

광범위한 학제 커버리지

풍부한 메타데이터 및 소속

더 빠른 접근을 위한 폴라이트 풀

Cons

새로운 데이터베이스 (품질 차이)

일부 메타데이터 공백

최상의 한도를 위해 mailto 필요

arXiv

100% PDF 접근

물리학, 수학, 컴퓨터 과학 등을 위한 프리프린트 서버. 모든 논문에 표준화된 URL로 자유롭게 액세스할 수 있는 PDF 제공.

API ENDPOINT

export.arxiv.org/api/query

RATE LIMIT

요청 간 3초 (필수)

Key Fields

entry.id - arXiv 식별자

entry.title, entry.summary - 메타데이터

entry.author - 저자 정보

entry.published - 출판 날짜

Pros

100% PDF 가용성

직접 PDF URL (arxiv.org/pdf/{id}.pdf)

빠른 프리프린트 접근

속도 제한 제한 없음

Cons

프리프린트만 (동료 검토 없음)

STEM 분야로 제한

3초 지연 필요

데이터베이스 비교

올바른 데이터베이스 선택을 위한 빠른 참조:

데이터베이스	오픈 액세스	API 키	속도 제한	최적 분야
Semantic Scholar	40%	선택적	100/5분	CS, AI, ML
OpenAlex	50%	없음	10/초	모든 분야
arXiv	100%	없음	3초 지연	프리프린트

API 통합 예제

I-카테고리 파이프라인이 각 데이터베이스와 통합하는 방법:

Semantic Scholar

REQUEST

GET https://api.semanticscholar.org/graph/v1/paper/search

PARAMETERS

query: "machine learning education"fields: title,abstract,authors,openAccessPdflimit: 100

RESPONSE

{
  "papers": [
    {
      "paperId": "abc123",
      "title": "Machine Learning in Education",
      "openAccessPdf": {
        "url": "https://arxiv.org/pdf/2001.00000.pdf"
      }
    }
  ]
}

OpenAlex

REQUEST

GET https://api.openalex.org/works

PARAMETERS

search: "chatbot language learning"filter: publication_year:2020-2024mailto: researcher@university.edu

RESPONSE

{
  "results": [
    {
      "id": "W123456789",
      "title": "Chatbots for Language Learning",
      "open_access": {
        "oa_url": "https://example.com/paper.pdf"
      }
    }
  ]
}

arXiv

REQUEST

GET http://export.arxiv.org/api/query

PARAMETERS

search_query: all:"deep learning"start: 0max_results: 100

RESPONSE

{
  "entry": [
    {
      "id": "http://arxiv.org/abs/2001.00000v1",
      "title": "Deep Learning Survey",
      "pdf_url": "https://arxiv.org/pdf/2001.00000.pdf"
    }
  ]
}

PDF 검색 워크플로우

I-카테고리 파이프라인은 재시도 로직 및 폴백 체인을 구현합니다:

메타데이터 가져오기

세 개의 데이터베이스를 병렬로 쿼리

10-20분

중복 제거

DOI, arXiv ID, 제목 유사성으로 중복 제거

1-2분

PDF 다운로드

지수 백오프를 사용한 재시도 로직, 폴백 체인

20-60분

검증

PDF 무결성, 파일 크기, 가독성 확인

5-10분

PDF 검색 성공률

다양한 연구 분야에서 예상되는 결과:

컴퓨터 과학60-70%

물리학 및 수학70-80%

생물의학 과학40-50%

사회과학30-40%

인문학20-30%

모범 사례

데이터베이스 전략 최적화:

세 개의 데이터베이스 모두 사용

Semantic Scholar, OpenAlex, arXiv를 함께 쿼리하여 커버리지 극대화

폴라이트 풀 매개변수 추가

OpenAlex에 mailto 매개변수를 포함하여 더 빠른 속도 제한 접근

속도 제한 준수

arXiv에 대한 지수 백오프 및 3초 지연 구현

PDF URL 검증

손상된 링크를 피하기 위해 다운로드 전 HTTP 상태 코드 확인

문헌 검색을 자동화할 준비가 되셨나요?

I-카테고리 파이프라인은 데이터베이스 통합, 중복 제거, PDF 검색을 자동으로 처리합니다.

I-카테고리 에이전트 PRISMA 워크플로우 GitHub에서 보기