News Crawler
Supported from ^0.0.9
Submodul ini digunakan untuk melakukan crawling pada portal-portal berita terkemuka di Indonesia. Library ini dikembangkan dengan tujuan untuk memudahkan pengambilan data berita dari portal-portal berita tersebut, sehingga dapat digunakan untuk keperluan analisis data, machine learning, atau tujuan-tujuan lainnya.
from frasa.scrap import ...
Gunakan indentasi untuk menampilkan json dalam console. Contohnya seperti ini:
import json ...print(json.dumps(antara.terkini(), indent=4))
Online Media List:
- Antara
- CNBC Indonesia
- CNN Indonesia
- Detiknews
- jpnn.com
- kumparan.com
- merdeka.com
- okezone.com
- republika.co.id
- sindonews.com
- suara.com
- tempo.co
- tribun.com
liputan6.comviva.co.idkompas.comtirto.id
Modul ini ditambahkan kedalam Frasa berangkat dari kebutuhan korpus terkait opini masyarakat khususnya data tweet untuk keperluan analisis data. Problemnya, pada saat itu endpoint API Twitter sedang bermasalah dan tidak dapat diakses. Pada akhirnya, saya memutuskan untuk mencari alternatif sumber data lainnya dan memilih untuk mengambil data dari portal-portal berita Indonesia. Hasilnya, saya malah buat submodul ini dan mudah-mudahan bisa membantu yang lain untuk keperluan analisis data atau machine learning.
Bagaimana dengan Social Media?
Sebaiknya gunakan yang sudah stable, teruji dan powerful antara Tweepy (Twitter) atau snscrape (Facebook, Twitter, Github, Instagram, Telegram atau Reddit).