Инструменты
Программа Pajek для анализа и визуализации больших сетей
Pajek (со словенского - “паук”) – это программа для анализа и визуализации больших сетей, с 1996 года разрабатываемая научным руководителем лаборатории Владимиром Батагелем и его коллегой в Университете Любляны Андреем Мрваром. Актуальная версия Pajek бесплатна и доступна для некоммерческого использования на странице: http://mrvar.fdv.uni-lj.si/pajek/.
Программа Pajek является инструментом для анализа и визуализации сетей большого размера, насчитывающих несколько тысяч или даже миллионы узлов – сетей коллаборации и цитирования, Интернета, распространения (новости, инновации, эпидемии), органических молекулы в химии, сетей взаимодействия белков и рецепторов, генеалогии, а также двумодальных сетей, полученных в ходе интеллектуального анализа данных (data mining).
Помимо обычных (направленных, ненаправленных, смешанных) сетей Pajek поддерживает сети с разными типами отношений, ациклические сети, двумодальные сети с двумя непересекающимися наборами вершин и сети, изменяющиеся во времени. Помимо базового функционала, Pajek позволяет декомпозировать сети на кластеры и показывать отношения между ними, реализует процедуры блокмоделинга, анализа ациклических, двумодальных, темпоральных сетей, предоставляя мощные инструменты визуализации и используя эффективные алгоритмы для анализ больших сетей.
Программа Pajek используется сотрудниками лаборатории при реализации прикладных исследований. Обучение программе Pajek проводится на магистерской программе “Аналитика данных и прикладная статистика”, а также в ходе специальных школ и мастер-классов.
-
Подробнее о Pajek: http://mrvar.fdv.uni-lj.si/pajek/
-
Семинары лаборатории по Pajek: https://github.com/Daria-Maltseva/pajek/wiki/video
Потоковая среда обработки данных
Ни для кого не секрет, что в современном мире количество информации постоянно растет, а существующие средства и методы не всегда позволяют качественно и своевременно ее обработать и выудить из огромнейшего массива данных то, что необходимо человеку/компании на данный момент. Данный проект призван решить проблему больших временных и трудовых затрат на обработку и анализ информации благодаря внедрению подхода потоковой обработки данных с использованием ИИ, при том, сами данные могут быть абсолютно различны, например, новостные ленты, корпоративная информация, любые данные из открытых источников сети интернет и другие. Сам подход основан на параллельных процессах обработки поступающих данных, масштабируемости этих процессов на необходимое количество задач, а также гибкой системе выстраивания каждого отдельного процесса.
Для примера можно привести условную задачу по поиску и анализу данных из новостей относительно какого-либо события произошедшего в мире или конкретном регионе. Чтобы решить эту задачу, необходимо исследовать большое количество контента и медиа с разных ресурсов (в т.ч. иноязычных), агрегировать полученную информацию, верифицировать, составить по ней анализ и многое другое. При ручной или полуручной обработке, весь этот процесс будет либо последовательным и медленным, либо же потребует привлечения бóльшего количества сил и сотрудников (в случае компании). Однако, используя подход потоковой обработки, этого можно избежать, так как по сути, он позволит выполнять несколько операций практически одновременно (сбор, перевод, выявление зависимостей и т.д) и на выходе человек уже получит не разрозненный массив данных, а структурированную информацию (в данном случае обработанные тексты) согласно его запросу, с которой уже гораздо легче работать и по которой значительно проще выстраивать конечную аналитику.
Резюмируя, можно сказать, что предложенный подход обработки данных, забирает на себя всю (ну или бóльшую) часть подготовительных работ по анализу неструктурированных данных, что позволяет экономить время, трудозатраты, финансы, а также при правильном выстраивании процессов уменьшает риски потери важной информации.
Программа “Bib-eLib” для анализа данных eLibrary
Программа «Bib-eLib» для сбора и обработки библиографических данных на русском языке из электронной библиотеки eLibrary» разработана сотрудниками Лаборатории и студентом магистерской программы “Аналитика данных и прикладная статистика” и предназначена для сбора и обработки библиографических данных на русском языке из электронной библиотеки eLibrary. Программа написана на языке программирования Python.
Программа позволяет осуществлять выгрузку массива данных о научных публикациях через API электронной библиотеки eLibrary, проводить их предварительную обработку, решать проблему дизамбигуации авторов публикаций, проводить анализ итогового массива данных и осуществлять их визуализацию и создавать сеть связей между научными публикациями и их авторами для обработки в программе Pajek.
Программа «Bib-eLib» была разработана и протестирована в ходе выполнения исследования практик коллаборации российских социологов и может применяться в области наукометрических и библиометрических исследований, задействующих данные из библиотеки eLibrary.
Semantic Brand Score
...
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.