Аннотация: Разработана система для анализа параметров ученых университета по их параметрам в Google Scholar.
Ключевые слова: Google Scholar, анализ, парсинг.
Технічні науки
Прасолов Андрій Павлович
студент,
Національний технічний університет України
«Київський політехнічний інститут»
Прасолов Андрей Павлович
студент,
Национальный технический университет Украины
«Киевский политехнический институт»
Prasolov A.
student
National Technical University of Ukraine
«Kyiv Polytechnic Institute»
CИСТЕМА АНАЛІЗУ НАУКОВЦІВ УНІВЕРСИТЕТУ ПО ПАРАМЕТРАМ GOOGLE SCHOLAR
СИСТЕМА АНАЛИЗА УЧЕНЫХ УНИВЕРСИТЕТА ПО ПАРАМЕТРАМ GOOGLE SCHOLAR
THE SYSTEM FOR THE ANALYSIS OF PARAMETERS OF THE UNIVERSITY SCIENTINST USING THEIR PARAMETERS IN GOOGLE SCHOLAR
Анотація: Розроблено систему для аналізу параметрів науковців університету за їх параметрами у Google Scholar.
Ключові слова: Google Scholar, аналіз, парсинг.
Аннотация: Разработана система для анализа параметров ученых университета по их параметрам в Google Scholar.
Ключевые слова: Google Scholar, анализ, парсинг.
Summary: The system was developed for the analysis of parameters of the university scientists using their parameters in Google Scholar.
Keywords: Google Scholar, analysis, parsing.
Вступ
Google Scholar – це величезна база статей науковців з різних університетів, міст, країн та континентів, але ця система має обмежений функціонал. Виникла необхідність перегляду статистики параметрів науковців різних наукових підрозділів, таких як кафедри та факультети та можливість їх швидкого порівняння, тому було прийнято рішення розробити систему для аналізу даних науковців з бази Google Scholar.
Опис системи
«Система аналізу науковців Університету по параметрам GOOGLE SCHOLAR» аналізує науковців по 3 параметрам: присутності у GOOGLE SCHOLAR, цитованості та Н-індексу.
Цитованість та Н-індекс підраховує GOOGLE SCHOLAR , а присутність визначається кількістю робіт автора, що входять у GOOGLE SCHOLAR.
Система парсить базу GS універстету за адресою: https://scholar.google.com.ua/citations?view_op=view_org&hl=uk&org=5596117057032671997 і збирає дані по кожному автору, id якого знаходиться в базі системи. Також система може шукати потрібних науковців та парсити їхні дані двома доступними користувачам методами (пошук по id та пошук по імені).
Дані перевіряються і заносяться у базу системи. З точки зору актуальності – парсинг дає актуальну інформацію на час парсингу, а дані у базі на час перезапису чи зміни бази, але, враховуючи повільну динаміку зміни даних в базі GOOGLE SCHOLAR, різниця між даними в базі системи та актуальними може бути дуже малою, або може бути взагалі відсутньою, отож дані з бази можуть «реально» демонструвати параметри науковців на поточний момент.
Слід відзначити, що парсинг достатньо об‘ємна обчислювальна процедура і на неї витрачається багато часу, тому пошук по id та пошук по імені обмежені всього 10 полями, адже чим більша кількість науковців перевіряється, тим більше часу це займе.
Методи пошуку:
Першим є метод, коли користувач знає персональні id науковців, дані про яких необхідно зібрати. Сторінка для пошуку по id показана на скріншоті нижче (рис.1).
В ліве поле вводиться ім’я, воно буде записане у таблицю навпроти параметрів, отриманих з сторінки, яка належить науковцю, id якого записане у поле праворуч.
Рис.1 – Перевірка параметрів науковців за їх ID
Другий метод здійснює пошук науковця по імені. Пошук по імені є досить не точним і це не проблема даного сервісу. Проблема полягає в тому, що ім’я науковця може мати декілька транскрипцій та може існувати декілька людей з однаковими/подібними прізвищами. Пошук обмежений першою десяткою знайдених за цим запитом науковців. Якщо пошук не дав результатів, то ви отримаєте помилку. Сторінка для пошуку по імені показана на наступному скріншоті (рис.2).
Рис.2 – Пошук параметрів науковця по його імені
Розроблена система має зручний, інтуїтивно зрозумілий Веб інтерфейс як для користувача (науковця), так і для адміністратора сайта.
Система дозволяє через парсинг шукати науковців по прізвищу, імені та ІД у GOOGLE SCHOLAR, а також знаходити суму даних для співробітників підрозділів. Також таблицю з даними можна вивантажити собі на комп’ютер у файлі формату csv, що легко відкривається за допомогою програми Microsoft Excel. Присутня можливість сортувати дані в таблиці за будь-яким із стовпчиків, для цього необхідно просто натиснути на назву стовпчика, за яким необхідно провести сортування.
На наступному скріншоті (рис.3) надана таблиця для кафедри СП.
Рис.3 – Приклад виведеної таблиці для кафедри
Для порівняння структурних підрозділів будуються відповідні гістограми, як це показано на скріншоті нижче (рис.4).
Рис.4 – Приклад гістограми для кафедр
Гістограма на вищезазначеному скріншоті побудована на тестовому наборі даних. Вона подвійна, тобто для кожного структурного підрозділу ми отримуємо по два стовпчики: синім показана присутність (кількість статей у GS), червоним цитованість (кількість бібліографічних посилань на ці статті). При збільшенні кількості підрозділів стовпчики будуть звужуватися. Також при наведенні на стовпчик, можна побачити цифру, що відповідає його значенню.
Висновки
Було розроблено систему для аналізу даних науковців університету по їх параметрам (присутність, цитованість, Індекс Гірша) з бази Google Scholar. Розроблена система відповідає поставленим до неї вимогам (вивід даних у вигляді таблиць для кожного підрозділу та можливість вивантаження цих таблиць; побудова гістограм по підрозділам). Також було описано принцип роботи цієї системи.
Література: