지원 데이터베이스
API 접근과 PDF 가용성을 위한 다섯 가지 데이터베이스
Diverga의 I-카테고리 파이프라인은 Semantic Scholar, OpenAlex, arXiv, Scopus, Web of Science와 통합되어 50-60%의 전체 PDF 성공률로 자동 논문 검색을 제공합니다.
왜 이 데이터베이스인가?
전통적인 학술 데이터베이스는 자동 PDF 접근을 지원하지 않습니다:
전통 데이터베이스는 자동화 부족
PubMed, Scopus, Web of Science, ERIC는 수동 다운로드 필요
오픈 액세스 중심
모든 분야에서 50-60% PDF 검색 성공률
REST API 접근
세 곳 모두 자동화를 위한 넉넉한 속도 제한 제공
구독 불필요
기관 자격 증명 없이 무료 접근
주요 데이터베이스
세 가지 통합 데이터베이스의 상세 비교:
Semantic Scholar
~40% 오픈 액세스 PDF URL
AI 기반 학술 검색 엔진으로 인용 분석 및 영향력 있는 논문 감지 기능 제공. 컴퓨터 과학, AI, 머신러닝 연구에 최적.
API ENDPOINT
api.semanticscholar.org/graph/v1/paper/searchRATE LIMIT
5분당 100개 요청Key Fields
Pros
Cons
OpenAlex
~50% 오픈 액세스
모든 학문 분야에 걸쳐 2억 5천만 개 이상의 저작물을 다루는 오픈 학술 데이터 플랫폼. 포괄적인 메타데이터 및 기관 추적 기능으로 Microsoft Academic Graph를 대체.
API ENDPOINT
api.openalex.org/worksRATE LIMIT
초당 10개 요청Key Fields
Pros
Cons
arXiv
100% PDF 접근
물리학, 수학, 컴퓨터 과학 등을 위한 프리프린트 서버. 모든 논문에 표준화된 URL로 자유롭게 액세스할 수 있는 PDF 제공.
API ENDPOINT
export.arxiv.org/api/queryRATE LIMIT
요청 간 3초 (필수)Key Fields
Pros
Cons
데이터베이스 비교
올바른 데이터베이스 선택을 위한 빠른 참조:
| 데이터베이스 | 오픈 액세스 | API 키 | 속도 제한 | 최적 분야 |
|---|---|---|---|---|
| Semantic Scholar | 40% | 선택적 | 100/5분 | CS, AI, ML |
| OpenAlex | 50% | 없음 | 10/초 | 모든 분야 |
| arXiv | 100% | 없음 | 3초 지연 | 프리프린트 |
API 통합 예제
I-카테고리 파이프라인이 각 데이터베이스와 통합하는 방법:
Semantic Scholar
REQUEST
GET https://api.semanticscholar.org/graph/v1/paper/searchPARAMETERS
query: "machine learning education"fields: title,abstract,authors,openAccessPdflimit: 100RESPONSE
{
"papers": [
{
"paperId": "abc123",
"title": "Machine Learning in Education",
"openAccessPdf": {
"url": "https://arxiv.org/pdf/2001.00000.pdf"
}
}
]
}OpenAlex
REQUEST
GET https://api.openalex.org/worksPARAMETERS
search: "chatbot language learning"filter: publication_year:2020-2024mailto: researcher@university.eduRESPONSE
{
"results": [
{
"id": "W123456789",
"title": "Chatbots for Language Learning",
"open_access": {
"oa_url": "https://example.com/paper.pdf"
}
}
]
}arXiv
REQUEST
GET http://export.arxiv.org/api/queryPARAMETERS
search_query: all:"deep learning"start: 0max_results: 100RESPONSE
{
"entry": [
{
"id": "http://arxiv.org/abs/2001.00000v1",
"title": "Deep Learning Survey",
"pdf_url": "https://arxiv.org/pdf/2001.00000.pdf"
}
]
}PDF 검색 워크플로우
I-카테고리 파이프라인은 재시도 로직 및 폴백 체인을 구현합니다:
메타데이터 가져오기
세 개의 데이터베이스를 병렬로 쿼리
중복 제거
DOI, arXiv ID, 제목 유사성으로 중복 제거
PDF 다운로드
지수 백오프를 사용한 재시도 로직, 폴백 체인
검증
PDF 무결성, 파일 크기, 가독성 확인
PDF 검색 성공률
다양한 연구 분야에서 예상되는 결과:
모범 사례
데이터베이스 전략 최적화:
세 개의 데이터베이스 모두 사용
Semantic Scholar, OpenAlex, arXiv를 함께 쿼리하여 커버리지 극대화
폴라이트 풀 매개변수 추가
OpenAlex에 mailto 매개변수를 포함하여 더 빠른 속도 제한 접근
속도 제한 준수
arXiv에 대한 지수 백오프 및 3초 지연 구현
PDF URL 검증
손상된 링크를 피하기 위해 다운로드 전 HTTP 상태 코드 확인
문헌 검색을 자동화할 준비가 되셨나요?
I-카테고리 파이프라인은 데이터베이스 통합, 중복 제거, PDF 검색을 자동으로 처리합니다.