joelnazarene

main5

Apr 7th, 2019
103
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 7.71 KB | None | 0 0
  1. import time
  2. import bs4
  3. import re
  4. from selenium import webdriver
  5. from bs4 import BeautifulSoup as soup
  6.  
  7. print("=================================================WELCOME TO RESEARCHER'S APP===========================================================================================")
  8. b1=input("enter text \n")
  9.  
  10. y='1'
  11. while(y != 'q'):
  12.     print("=========================================================================================================================================================================")
  13.     print("1 IEEE")
  14.     print("2 SCIENCE OPEN ")
  15.     print("3 SCIENCE DIRECT")
  16.     print("4 ARXIV")
  17.     print("5 PAPERITY")
  18.     print("6 DOAJ \n")
  19.     y =input("enter choice enter 'q' to exit ")
  20.     r = input("enter the number of abstracts to be displayed")
  21.     if(y=='1'):
  22.  
  23.    
  24.         driver = webdriver.Firefox()
  25.         url="https://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText="
  26.         b2=b1.replace(" ","%20")
  27.         url=url+b2
  28.         driver.get(url)
  29.         time.sleep(5)
  30.         refs=driver.page_source
  31.         pagesoup=soup(refs,"html.parser")
  32.  
  33.         containers=pagesoup.findAll("a",{"href":re.compile('/document/.*')})
  34.  
  35.  
  36.         i=0
  37.         u="https://ieeexplore.ieee.org"
  38.         for container in containers :
  39.             try:  
  40.                 if(len(container.text)>20):
  41.                     i=i+1
  42.                     if(i%2 != 0 and i/2 < int(r)):
  43.                         print("=====================================================================================================================================================")
  44.                         print("\n")
  45.                         print(container.text)
  46.                         driver.get(u+ container['href'])
  47.                         time.sleep(2)
  48.                         refs=driver.page_source
  49.    
  50.                         s=soup(refs,"html.parser")
  51.                         c=s.find("div",{"class":"abstract-text row"})
  52.                         print(c.div.div.text)
  53.                         print("\n")
  54.                         print("===================================================================================================================================================")
  55.             except(TypeError,AttributeError):
  56.                         print("ABSTRACT IS NOT AVAILABLE FOR THIS ARTICLE")
  57.  
  58.         driver.close()
  59.     elif(y=='2'):
  60.         driver = webdriver.Firefox()
  61.         url="https://www.scienceopen.com/search#('v'~3_'id'~''_'isExactMatch'~true_'context'~null_'kind'~77_'order'~0_'orderLowestFirst'~false_'query'~'"
  62.         b2=b1.replace(" ","%20")
  63.         b3="'_'filters'~!*)"
  64.        
  65.         print("\n\n")
  66.         url=url+b2+b3
  67.         driver.get(url)
  68.         time.sleep(2)
  69.         refs=driver.page_source
  70.         pagesoup=soup(refs,"html.parser")
  71.     #containers=pagesoup.findAll("div",{"class":'main-section'})
  72.         containers=pagesoup.findAll("a",{"href":re.compile('/document.*')})
  73.     #print(containers[0].a['href'])
  74.    
  75.        
  76.         u="https://www.scienceopen.com"
  77.        
  78.         for container in containers :
  79.             try :
  80.                 if(len(container.text)>20):
  81.                        
  82.                     driver.get(u + container['href'])
  83.                     refs=driver.page_source
  84.                     s=soup(refs,"html.parser")
  85.                     t=s.find("title")
  86.                     c=s.find("div",{"itemprop":"description"})
  87.                     print(t.text + "\n")
  88.                     print(c.text)
  89.                            
  90.             except :
  91.                 continue
  92.         driver.close()
  93.     elif(y=='3'):
  94.             driver = webdriver.Firefox()
  95.             url="https://www.sciencedirect.com/search?qs="
  96.             b3="&show=25&sortBy=relevance"
  97.    
  98.            
  99.             b2=b1.replace(" ","%20")
  100.            
  101.             print("\n\n")
  102.             url=url+b2+b3
  103.             driver.get(url)
  104.             time.sleep(2)
  105.             refs=driver.page_source
  106.             pagesoup=soup(refs,"html.parser")
  107.            
  108.             containers=pagesoup.findAll("a",{"href":re.compile('/pii/.*')})
  109.        
  110.  
  111.        
  112.             u="https://www.sciencedirect.com"
  113.             i=0
  114.             for container in containers :
  115.                 i=i+1
  116.                 if(len(container.text)>20 and i <= int(r)):
  117.                
  118.        
  119.        
  120.        
  121.                        print(container.text)
  122.                        driver.get(u + container['href'])
  123.                        refs=driver.page_source
  124.                        s=soup(refs,"html.parser")
  125.                        c=s.find("div",{"id":"abstracts"})
  126.                        print(c.text)
  127.                        print("\n========================================================================================================================================")
  128.    
  129.             driver.close()
  130.     elif(y=='4'):
  131.         driver = webdriver.Firefox()
  132.         url='https://arxiv.org/search/?query='
  133.    
  134.    
  135.         b2=b1.replace(" ","+")
  136.         b3='&searchtype=all&source=header'
  137.         print("\n\n")
  138.         url=url+b2+b3
  139.         driver.get(url)
  140.         time.sleep(2)
  141.         refs=driver.page_source
  142.         pagesoup=soup(refs,"html.parser")
  143.  
  144.         containers=pagesoup.findAll("span",{"class":"abstract-full has-text-grey-dark mathjax"})
  145.    
  146.         i=0
  147.    
  148.         for container in containers :
  149.          d=container.parent.parent.contents[3].text
  150.          try :
  151.              if(len(container.text)>200):  
  152.                 print(d)
  153.                 print(container.text)
  154.                 print("\n")
  155.          except :
  156.             continue
  157.         driver.close()
  158.    
  159.     elif(y=='5'):
  160.         driver = webdriver.Firefox()
  161.         url="https://paperity.org/search/?q="
  162.    
  163.        
  164.         b2=b1.replace(" ","+")
  165.    
  166.         print("\n\n")
  167.         url=url+b2
  168.         driver.get(url)
  169.    
  170.         time.sleep(2)
  171.  
  172.         refs=driver.page_source
  173.    
  174.         pagesoup=soup(refs,"html.parser")
  175.         #containers=pagesoup.findAll("div",{"class":'result-item-content'})
  176.         containers=pagesoup.findAll("a",{"href":re.compile('/p/.*')})
  177.         #print(containers)
  178.  
  179.         i=0
  180.         u="https://paperity.org"
  181.         for container in containers :
  182.          try :
  183.             if(len(container.text)>20):
  184.                 i=i+1
  185.        
  186.            # print(i)
  187.                 if(i%2!=0):
  188.                    print(container.text)
  189.                    driver.get(u + container['href'])
  190.                    refs=driver.page_source
  191.                    s=soup(refs,"html.parser")
  192.                    c=s.find("blockquote")
  193.  
  194.                    print(c.text)
  195.                 print("\n")
  196.          except :
  197.                 continue
  198.         driver.close()
  199.    
  200.     elif(y=='6'):
  201.         driver = webdriver.Firefox()
  202.         url='https://doaj.org/search?source={"query"%3A{"query_string"%3A{"query"%3A"'
  203.         b2=b1.replace(" ","%20")
  204.         b3='"%2C"default_operator"%3A"AND"}}%2C"from"%3A0%2C"size"%3A10}'
  205.        
  206.         print("\n\n")
  207.         url=url+b2+b3
  208.         driver.get(url)
  209.         time.sleep(2)
  210.         refs=driver.page_source
  211.         pagesoup=soup(refs,"html.parser")
  212.         #containers=pagesoup.findAll("div",{"class":'main-section'})
  213.         containers=pagesoup.findAll("div",{"class":"abstract_text"})
  214.         #print(containers[0].a['href'])
  215.         #print("reached contA")
  216.         c2=pagesoup.findAll("a",{"href":re.compile('/article.*')})
  217.         i=0
  218.         #u="https://www.scienceopen.com"
  219.         for container in containers :
  220.          # print("for loop")
  221.          try :
  222.             if(len(container.text)>20):
  223.              
  224.                
  225.                # print(i)
  226.                 #if(i%2!=0):
  227.                
  228.                 #   driver.get(u + container['href'])
  229.                  #  refs=driver.page_source
  230.                 #   s=soup(refs,"html.parser")
  231.                   # c=s.find("div",{"itemprop":"description"})
  232.              if("Full Text" in c2[i].text):
  233.                 i=i+1
  234.              print(c2[i].text+"\n"+container.text+"\n")
  235.              i=i+1
  236.              #print(c2[i].text+"\n")
  237.          except :
  238.             continue
  239.         driver.close()
Add Comment
Please, Sign In to add comment